WO2021081962A1

WO2021081962A1 - 推荐模型的训练方法、推荐方法、装置及计算机可读介质

Info

Publication number: WO2021081962A1
Application number: PCT/CN2019/114897
Authority: WO
Inventors: 张智尧; 祝宏; 董振华; 何秀强; 原博文
Original assignee: 华为技术有限公司
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2021-05-06
Also published as: EP3862893A4; EP3862893A1; US20210248651A1; CN113508378A

Abstract

一种推荐模型的训练方法、推荐方法、装置及计算机可读介质，应用于人工智能(AI)领域中。该训练方法包括：获取至少一个第一训练样本；通过插补模型对第一用户的属性信息和第一推荐对象的信息进行处理，获取第一训练样本的插补预测标签，其中，插补模型的模型参数是基于至少一个第二训练样本进行训练得到的，第二训练样本是在当第二推荐对象为随机展示给第二用户的情况下获得的；以第一用户的属性信息和第一推荐对象的信息作为推荐模型的输入，以第一训练样本的插补预测标签作为推荐模型的目标输出值进行训练，得到训练后的推荐模型。该方法能够减轻训练数据偏置对推荐模型训练的影响，提高推荐模型的准确性。

Description

推荐模型的训练方法、推荐方法、装置及计算机可读介质

技术领域

本申请实施例涉及人工智能领域，尤其涉及一种推荐模型的训练方法、推荐方法、装置及计算机可读介质。

背景技术

商品的选择率预测是指预测用户在特定环境下对某个商品的选择概率。例如，应用商店、在线广告等应用的推荐系统中，选择率预测起到关键作用。在一次推荐中，能够被展示的商品的数量远小于总商品的数量，推荐系统通常基于预测的选择率从候选商品中选择商品进行展示。

上述选择机制导致用于训练推荐模型的训练数据是有偏置的，该偏置主要包括位置偏置和选择偏置。位置偏置是推荐和搜索场景中的普遍问题。位置偏置指的是由于商品展示的位置不同导致采集到的训练数据有偏置。例如，在应用市场的一个榜单中，同一个应用程序(application，APP)可以展示在第一位，也可以展示在最后一位。通过随机投放策略可以验证，该APP展示在第一位的下载率远高于展示在最后一位的下载率。选择偏置指的是由于商品被展示的概率不同导致采集到的训练数据有偏置。理想的训练数据是在将商品按照相同的展示概率展示给用户的情况下得到的。现实情况中，展示给用户的商品是根据之前的推荐模型预测的选择率决定的，商品得到展示的机会并不相同。

例如，在应用市场的一个榜单中，一个位置靠前的APP会增大用户下载的倾向，推荐模型计算得到的处于靠前位置的APP的选择率可能高于其他APP，导致该APP排在其他APP之前，加剧了偏置问题的影响，造成马太效应，导致长尾问题的加剧。

利用有偏置的训练数据对推荐模型进行训练，会降低训练模型的准确率，影响用户体验和收入。

发明内容

本申请提供一种推荐模型的训练方法、推荐方法、装置及计算机可读介质，以提高推荐模型的准确率。

第一方面，提供了一种推荐模型的训练方法，该训练方法包括：获取至少一个第一训练样本，第一训练样本包括第一用户的属性信息和第一推荐对象的信息；通过插补模型对第一用户的属性信息和第一推荐对象的信息进行处理，获取第一训练样本的插补预测标签，插补预测标签用于表示向第一用户推荐第一推荐对象时，第一用户是否对第一推荐对象有操作动作的预测；其中，插补模型的模型参数是基于至少一个第二训练样本进行训练得到的，至少一个第二训练样本包括第二用户的属性信息和第二推荐对象的信息以及第二训练样本的样本标签，第二训练样本的样本标签用于表示第二用户是否对第二推荐对象有操作动作，第二训练样本是在当第二推荐对象为随机展示给第二用户的情况下获得的；以第一训练样本的第一用户的属性信息和第一推荐对象的信息作为所述推荐模型的输入，以第一训练样本的插补预测标签作为推荐模型的目标输出值进行训练，得到训练后的推荐模型。

其中，第一推荐对象和第二推荐对象可以为终端设备的应用市场中的推荐应用程序；或者，第一推荐对象和第二推荐对象可以为搜索场景中系统推荐的搜索词。在本申请的实施例中，第一推荐对象和第二推荐对象可以是推荐系统为用户推荐的信息，对于第一推荐对象和第二推荐对象的具体实现方式本申请不作任何限定。

用户的属性信息包括用户个性化的一些属性，例如，用户的性别、用户的年龄、用户的职业、用户的收入、用户的爱好、用户的教育情况等。第一用户的属性信息可以包括上述用户的属性信息中的一项或多项。第二用户的属性信息可以包括上述用户的属性信息中的一项或多项。

推荐对象的信息包括推荐对象标识，例如推荐对象ID。推荐对象的信息还包括推荐对象的一些属性，例如，推荐对象的名称、推荐对象的类型等。第一推荐对象的信息可以包括上述推荐对象的信息中的一项或多项。第二推荐对象的信息可以包括上述推荐对象的信息中的一项或多项。

用户对推荐对象的操作动作可以包括用户的点击行为、用户的下载行为、用户的购买行为、用户的浏览行为和用户的差评行为等。

插补模型可以用于预测当向第一用户推荐第一推荐对象时，第一用户是否对第一推荐对象有操作动作。插补预测标签可以表示该预测的结果。

具体地，该插补预测标签可以为0或1，也就是用0或1表示第一用户是否对第一推荐对象有操作动作。该插补预测标签也可以为概率值，也就是用概率值表示第一用户对第一推荐对象有操作动作的概率。本申请对插补预测标签的形式不作任何限定。

可选地，插补模型可以为广告平均点击通过率模型、逻辑回归模型、域感知因子分解机或深度神经网络等。

可选地，推荐模型可以为矩阵分解模型、因子分解机或域感知因子分解机等。

根据本申请实施例的方案，第二训练样本是在当所述第二推荐对象为随机展示给所述第二用户的情况下获得的，该训练样本没有偏置，利用第二训练样本对插补模型进行训练，可以避免偏置问题对插补模型的训练带来的影响，提高插补模型的准确率，使得到的插补预测标签更加准确，进而利用更准确的插补预测标签对推荐模型进行训练，能够提高推荐模型的准确性。

结合第一方面，在第一方面的某些实现方式中，所述方法还包括：获取至少一个第三训练样本，第三训练样本包括第三用户的属性信息和第三推荐对象的信息以及第三训练样本的样本标签，第三训练样本的样本标签用于表示第三用户是否对第三推荐对象有操作动作，以及以所述第一用户的属性信息和所述第一推荐对象的信息作为推荐模型的输入，以所述第一训练样本的插补预测标签作为推荐模型的目标输出值进行训练，得到训练后的推荐模型，包括：以第一用户的属性信息和第一推荐对象的信息以及第三用户的属性信息和第三推荐对象的信息作为推荐模型的输入，以第一训练样本的插补预测标签和第三训练样本的样本标签作为所述推荐模型的目标输出值基于目标训练模型进行训练，得到训练后的推荐模型。

第三用户的属性信息可以包括上述用户的属性信息中的一项或多项。第三推荐对象的信息可以包括上述推荐对象的信息中的一项或多项。

第三训练样本可以和第二训练样本相同，也可以和第二训练样本不同。

根据本申请实施例的方案，利用第一训练样本和第三训练样本一起对推荐模型进行训练，兼顾了插补模型得到的插补预测标签和实际的样本标签在训练过程中的作用，避免了推荐模型的准确性仅依赖于插补预测标签的准确率，进一步提高推荐模型的准确性。

结合第一方面，在第一方面的某些实现方式中，第一训练样本可以为当第一推荐对象没有被展示给第一用户的情况下获得的，第三训练样本可以为当第三推荐对象被展示给第三用户的情况下获得的。

第一训练样本可以为当第一推荐对象没有被展示给第一用户的情况下获得的，也就是说第一训练样本中不具备第一用户对第一推荐对象是否有操作动作的反馈信息，第一训练样本没有实际的样本标签。

根据本申请实施例的方案，在第一推荐对象没有被展示给第一用户的情况下，通过为第一训练样本增加插补预测标签，能够将没有发生过的事实纳入建模中，与发生过的事实一起用于推荐模型的训练，也就是将没有样本标签的第一训练样本与有样本标签的第三训练样本一起用于推荐模型的训练，可以使样本分布更加合理，提高推荐模型的准确性。

结合第一方面，在第一方面的某些实现方式中，目标训练模型包括第一损失函数和第二损失函数，所述第一损失函数用于指示所述第一训练样本的插补预测标签与所述第一训练样本的预测标签之间的差异，所述第二损失函数用于指示所述第三训练样本的样本标签与所述第三训练样本的预测标签之间的差异。

目标训练模型得到的模型参数即为训练后的推荐模型的模型参数。

结合第一方面，在第一方面的某些实现方式中，目标训练模型为：

其中，W为所述推荐模型的参数，R(W)为正则项，λ表示决定正则项权重的超参，训练样本集

中的训练样本x ¹至训练样本x ^L为所述第三训练样本，训练样本x ^L+1至训练样本

为所述第一训练样本，

表示所述训练样本集中的训练样本的数量，L表示所述训练样本集中的所述第三训练样本的数量，σ _l表示训练样本x ^l的插补预测标签σ(x ^l)，y _l表示训练样本x ^l的样本标签，

表示训练样本x ^l的预测标签，

表示所述第二损失函数，

表示所述第一损失函数，ω为超参数，用于调节所述第一损失函数和所述第二损失函数的比重。

应理解，上述训练样本x ¹至训练样本x ^L为L个不同的第三训练样本，训练样本x ^L+1至训练样本

为

个不同的第一训练样本。

根据本申请实施例的方案，采用第二训练样本训练插补模型，也就是采用没有偏置的训练样本训练插补模型，同时在目标训练模型中引入第一损失函数和第二损失函数，通过设置不同的超参数能够调整第一损失函数和第二损失函数在目标训练模型中所占的比重，进一步提高推荐模型的准确率。例如，插补模型的模型参数是根据第二训练样本进行训练得到的，当第二训练样本的数量较多时，该第二训练样本相对具有代表性，使插补模型能够更准确地拟合无偏数据分布，得到的插补模型的准确率较高，在该情况下，第二损失函数的权重可以高于第一损失函数的权重，也就是ω的值可以大于1。

结合第一方面，在第一方面的某些实现方式中，所述插补模型是根据所述第二训练样本的数量选择的。

示例性地，当第二训练样本的数量较多时，该第二训练样本相对具有代表性，可以采用较复杂的模型或是采用更多训练特征对插补模型进行训练，进而使插补模型能够更准确地拟合无偏数据分布。较复杂的模型可以为逻辑回归模型、域感知因子分解机或深度神经网络等。当第二训练样本的数量较少时，该第二训练样本相对不具代表性，可以采用较简略的模型或是采用更少训练特征对插补模型进行训练，避免插补模型过拟合无偏数据分布。例如，较简略的模型可以为广告平均点击通过率模型。

例如，在应用市场的应用场景下，当第二训练样本的数量为10万以上时，插补模型可以为域感知因子分解机或深度神经网络等；当第二训练样本的数量为1万至10万之间时，插补模型可以为逻辑回归模型；当第二训练样本的数量为1万以下时，插补模型可以为广告平均点击通过率模型。

根据本申请实施例的方案，在训练过程中，插补模型可以根据第二训练样本的数量进行选择，针对不同的应用场景可以设定不同的阈值来选择插补模型，插补模型可以灵活调整，只需少量的第二训练样本就能减轻偏置问题带来的影响，提升推荐模型的准确率，避免由于大规模采集第二训练样本而大规模随机展示推荐对象，导致系统整体收入下降。

第二方面，提供了一种推荐方法，包括：获取目标推荐用户的属性信息和候选推荐对象的信息；将所述目标推荐用户的属性信息和所述候选推荐对象的信息输入至推荐模型，预测所述目标推荐用户对所述候选推荐对象有操作动作的概率；其中，所述推荐模型的模型参数是通过以第一训练样本的第一用户的属性信息和第一推荐对象的信息作为所述推荐模型的输入，以所述第一训练样本的插补预测标签作为所述推荐模型的目标输出值进行训练得到的；所述第一训练样本的插补预测标签是通过插补模型对所述第一用户的属性信息和所述第一推荐对象的信息进行处理得到的，所述插补预测标签用于表示向所述第一用户推荐所述第一推荐对象时，所述第一用户是否对所述第一推荐对象有操作动作的预测，所述插补模型的模型参数是基于至少一个第二训练样本进行训练得到的，所述第二训练样本包括第二用户的属性信息和第二推荐对象的信息以及第二训练样本的样本标签，所述第二训练样本的样本标签用于表示所述第二用户是否对所述第二推荐对象有操作动作，所述第二训练样本是在当所述第二推荐对象为随机展示给所述第二用户的情况下获得的。

目标推荐用户的属性信息包括用户个性化的一些属性，例如，目标推荐用户的性别、目标推荐用户的年龄、目标推荐用户的职业、目标推荐用户的收入、目标推荐用户的爱好、目标推荐用户的教育情况等。

候选推荐对象的信息包括候选推荐对象标识，例如候选推荐对象ID。

候选推荐对象的信息还包括候选推荐对象的一些属性，例如，候选推荐对象的名称、候选推荐对象的类型等。

根据本申请实施例的方案，将目标推荐用户的属性信息和候选推荐对象的信息输入至推荐模型，预测目标推荐用户对候选推荐对象有操作动作的概率；推荐模型的模型参数是通过以第一训练样本的第一用户的属性信息和第一推荐对象的信息作为所述推荐模型的输入，以所述第一训练样本的插补预测标签作为所述推荐模型的目标输出值进行训练得到的，用于得到插补预测标签的插补模型是根据没有偏置的训练样本进行训练得到的，可以避免偏置问题对插补模型的训练带来的影响，提高插补模型的准确率，使得到的插补预测标签更加准确，进而利用更准确的插补预测标签对推荐模型进行训练，利用训练好的推荐模型预测目标推荐用户对目标推荐用户有操作动作的概率的准确率更高。

结合第二方面，在第二方面的某些实现方式中，所述推荐模型的模型参数是通过以第一训练样本的第一用户的属性信息和第一推荐对象的信息作为所述推荐模型的输入，以所述第一训练样本的插补预测标签作为所述推荐模型的目标输出值进行训练得到的，包括所述推荐模型的模型参数是以所述第一用户的属性信息和所述第一推荐对象的信息以及第三训练样本的第三用户的属性信息和第三推荐对象的信息作为推荐模型的输入，以所述第一训练样本的插补预测标签和所述第三训练样本的样本标签作为所述推荐模型的目标输出值基于目标训练模型得到的，其中，所述第三训练样本的样本标签用于表示所述第三用户是否对所述第三推荐对象有操作动作。

根据本申请实施例的方案，利用第一训练样本和第三训练样本一起对推荐模型进行训练，兼顾了插补模型得到的插补预测标签和实际的样本标签在训练过程中的作用，避免了推荐模型的准确性仅依赖于插补预测标签的准确率，进一步提高推荐模型的准确性，利用训练好的推荐模型预测目标推荐用户对目标推荐用户有操作动作的概率的准确率更高。

结合第二方面，在第二方面的某些实现方式中，第一训练样本可以为当第一推荐对象没有被展示给第一用户的情况下获得的，第三训练样本可以为当第三推荐对象被展示给第三用户的情况下获得的。

根据本申请实施例的方案，在第一推荐对象没有被展示给第一用户的情况下，通过为第一训练样本增加插补预测标签，能够将没有发生过的事实纳入建模中，与发生过的事实一起用于推荐模型的训练，也就是将没有样本标签的第一训练样本与有样本标签的第三训练样本一起用于推荐模型的训练，可以使样本分布更加合理，提高推荐模型的准确性，利用训练好的推荐模型预测目标推荐用户对目标推荐用户有操作动作的概率的准确率更高。

结合第二方面，在第二方面的某些实现方式中，目标训练模型包括第一损失函数和第二损失函数，所述第一损失函数用于指示所述第一训练样本的插补预测标签与所述第一训练样本的预测标签之间的差异，所述第二损失函数用于指示所述第三训练样本的样本标签与所述第三训练样本的预测标签之间的差异。

结合第二方面，在第二方面的某些实现方式中，目标训练模型为：

为所述第一训练样本，

表示训练样本x ^l的预测标签，

表示所述第二损失函数，

为

个不同的第一训练样本。

根据本申请实施例的方案，采用第二训练样本训练插补模型，也就是采用没有偏置的训练样本训练插补模型，同时在目标训练模型中引入第一损失函数和第二损失函数，通过设置不同的超参数能够调整第一损失函数和第二损失函数在目标训练模型中所占的比重，进一步提高推荐模型的准确率。例如，插补模型的模型参数是根据第二训练样本进行训练得到的，当第二训练样本的数量较多时，该第二训练样本相对具有代表性，使插补模型能够更准确地拟合无偏数据分布，得到的插补模型的准确率较高，在该情况下，第二损失函数的权重可以高于第一损失函数的权重，也就是ω的值可以大于1。只需少量的第二训练样本就能减轻偏置问题带来的影响，提升推荐模型的准确率，避免由于大规模采集第二训练样本而大规模随机展示推荐对象，导致系统整体收入下降。利用该推荐模型预测目标推荐用户对候选推荐对象有操作动作的概率的准确率更高。

结合第二方面，在第二方面的某些实现方式中，插补模型是根据所述第二训练样本的数量选择的。

第三方面，提供了一种推荐模型的训练装置，该装置包括用于执行第一方面以及第一方面中任意一种实现方式中的方法的各个模块/单元。

第四方面，提供了一种推荐装置，该装置包括用于执行第二方面以及第二方面中任意一种实现方式中的方法的各个模块/单元。

第五方面，提供一种推荐模型的训练装置，包括输入输出接口、处理器和存储器。该处理器用于控制输入输出接口收发信息，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得该训练装置执行上述第一方面以及第一方面中的任意一种实现方式中的方法。

可选地，上述训练装置可以是终端设备/服务器，也可以是终端设备/服务器内的芯片。

可选地，上述存储器可以位于处理器内部，例如，可以是处理器中的高速缓冲存储器(cache)。上述存储器还可以位于处理器外部，从而独立于处理器，例如，训练装置的内部存储器(memory)。

第六方面，提供一种推荐装置，包括输入输出接口、处理器和存储器。该处理器用于控制输入输出接口收发信息，该存储器用于存储计算机程序，该处理器用于从存储器中调用并运行该计算机程序，使得装置执行上述第二方面以及第二方面中的任意一种实现方式中的方法。

可选地，上述装置可以是终端设备/服务器，也可以是终端设备/服务器内的芯片。

可选地，上述存储器可以位于处理器内部，例如，可以是处理器中的高速缓冲存储器(cache)。上述存储器还可以位于处理器外部，从而独立于处理器，例如，装置的内部存储器(memory)。

第七方面，提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述各方面中的方法。

需要说明的是，上述计算机程序代码可以全部或者部分存储在第一存储介质上，其中，第一存储介质可以与处理器封装在一起的，也可以与处理器单独封装，本申请实施例对此不作具体限定。

第八方面，提供了一种计算机可读介质，所述计算机可读介质存储有程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述各方面中的方法。

附图说明

图1是本申请实施例提供的应用场景的示意图。

图2是本申请实施例提供的一种推荐系统的架构图。

图3是本申请实施例提供的一种系统架构的结构示意图。

图4是本申请实施例提供的一种系统架构的示意图。

图5是本申请一个实施例提供的推荐模型的训练方法的示意性流程图。

图6是本申请另一个实施例提供的推荐模型的训练方法的示意性流程图。

图7是本申请实施例提供的推荐框架的示意图。

图8是本申请实施例提供的推荐方法的示意性流程图。

图9是本申请实施例提供的应用市场中推荐对象的示意图。

图10是本申请实施例提供的推荐模型的训练装置的示意性框图。

图11是本申请实施例提供的推荐装置的示意性框图。

图12是本申请实施例提供的推荐模型的训练装置的示意性框图。

图13是本申请实施例提供的推荐装置的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

图1示出了本申请实施例的部分应用场景。本申请实施例提供的推荐方法能够应用在所有需要推荐的场景中。例如，如图1所示，本申请实施例提供的推荐方法能够应用在应用市场推荐、音乐应用程序推荐、视频网站推荐、电商推荐、搜索引擎排序等需要进行推荐的场景。下面分别对两种常用的应用场景进行简单的介绍。

应用场景一：应用市场推荐

在应用市场中可以展示部分应用程序。推荐系统可以用于决定被展示的应用程序以及该应用程序相应的展示位置。例如，在点击付费(cost per click，CPC)的系统中只有当应用程序被用户点击时，广告商才需要付费。当用户进入应用市场，会触发一个推荐请求(request)。由于用于应用程序展示的位置有限，当推荐系统收到一个推荐请求时，可以对所有待展示的应用程序都按照期望收入进行排序，然后选择最有价值一个或多个应用程序展示在相应的展示位置。在CPC系统中，每个应用程序的期望收入与该应用程序的预估点击通过率(click-through rate，CTR)有关。在该情况下，CTR可以理解为每个APP被点击的概率。为了得到期望收入的排序，需要得到预估CTR。

具体地，得到所有待展示的应用程序的预估CTR，根据每个应用程序的预估CTR计算每个应用程序的期望收入并进行排序，根据排序结果确定被展示的应用程序以及该应用程序相应的展示位置。

其中，得到所有待展示应用程序的预估CTR可以由本申请实施例中的推荐方法来执行，根据得到的预估CTR能够对所有待展示的应用程序进行排序，进而可以根据该排序结果确定被展示的应用程序以及相应的展示位置。

应用场景二：搜索词推荐

在用户进行搜索时，搜索词通常包括两个来源：用户主动输入的搜索词和系统推荐给用户的搜索词。用户主动输入搜索词的行为是系统无法干预的用户行为。系统推荐给用户的搜索词指的是，当推荐系统收到推荐请求时，可以计算所有待展示的搜索词的分数，并对该分数进行排序，例如，搜索词的分数可以为搜索词的点击率，根据排序结果可以确定被展示的搜索词以及该搜索词相应的展示位置。

其中，计算所有搜索词的分数可以由本申请实施例中的推荐方法来执行，根据得到的分数能够对所有待展示的搜索词进行排序，进而可以根据该排序结果确定被展示的搜索词以及相应的展示位置。

为了便于理解本申请实施例，下面先对本申请实施例涉及的相关术语的相关概念进行介绍。

(1)推荐系统

推荐系统是指根据用户的历史数据，利用机器学习算法进行分析，根据分析结果对新的推荐请求进行预测，得到推荐结果的系统。

例如，图2示出了本申请实施例中提供的一种推荐系统的架构图。当用户进入系统，会触发一个推荐请求，推荐系统将该推荐请求以及相关信息输入推荐模型中，预测用户对系统内的商品的选择率。进一步，根据预测的选择率或基于该选择率的某个函数对商品进行排序。推荐系统可以根据排序结果将要展示给用户的商品以及商品展示的位置作为对用户的推荐结果。用户浏览被展示的商品并可能发生操作动作，例如浏览行为、下载行为等。用户的操作动作可以存入用户行为日志，对用户行为日志进行预处理可以得到训练数据。利用该训练数据可以不断更新推荐模型的参数，以提高推荐模型的预测效果。

例如，用户打开智能终端(例如，手机)中的应用市场可以触发应用市场中的推荐系统，也就是触发一条推荐请求。推荐系统可以根据用户的历史行为日志，例如，用户的历史下载记录，以及应用市场的自身特征，比如时间、地点等环境特征信息，预测用户下载推荐的各个候选应用程序的概率。推荐系统可以按照预测的概率大小降序展示候选应用程序，提高候选应用程序的下载概率。

例如，当应用市场的展示位置为p个时，p为正整数，推荐系统可以选择预测的概率最高的p个候选应用程序进行展示，并将p个候选应用程序中预测的概率较高的应用程序展示在靠前的位置，将p个候选应用程序中预测的用户选择率较低的应用程序展示在靠后的位置。

曝光数据是指记录的用户浏览行为数据。

单类模型是指训练样本中只有一类数据是明确的模型。

上下文信息可以指推荐请求中的用户和/或推荐对象的背景信息，如城市、职业、价格、类别等。

上述推荐模型可以是神经网络模型，下面对本申请实施例中可能涉及的神经网络的相关术语和概念进行介绍。

(2)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x _s和截距1为输入的运算单元，该运算单元的输出可以如公式(1)所示：

其中，s＝1、2、……n，n为大于1的自然数，W _s为x _s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，该激活函数用于对神经网络中的特征进行非线性变换，将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入。激活函数可以是sigmoid函数。神经网络是将许多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(3)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，系数W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例，假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(4)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断的调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(5)反向传播算法

神经网络可以采用误差反向传播(back propagation，BP)算法在训练过程中修正初始的神经网络模型中参数的数值，使得神经网络模型的重建误差损失越来越小。具体地，前向传递输入信号直至输出会产生误差损失，通过反向传播误差损失信息来更新初始的神经网络模型中参数，从而使误差损失收敛。反向传播算法是以误差损失为主导的反向传播运动，旨在得到最优的神经网络模型的参数，例如权重矩阵。

下面结合图3对本申请实施例的系统架构进行详细的介绍。

图3是本申请实施例的系统架构的示意图。如图3所示，系统架构100包括执行设备110、训练设备120、数据库130、客户设备140、数据存储系统150、以及数据采集系统160。

另外，执行设备110包括计算模块111、I/O接口112、预处理模块113和预处理模块114。其中，计算模块111中可以包括目标模型/规则101，预处理模块113和预处理模块114是可选的。

数据采集设备160用于采集训练数据。针对本申请实施例的推荐模型的训练方法来说，可以通过训练数据对推荐模型进行进一步训练。

例如，在本申请实施例中，训练数据可以包括训练样本以及训练样本的样本标签。训练样本可以包括用户的属性信息和推荐对象的信息。样本标签表示用户对推荐对象是否有操作动作。用户对推荐对象是否有操作动作可以理解为训练样本中的用户是否选择推荐对象。

在采集到训练数据之后，数据采集设备160将训练数据存入数据库130，训练设备120基于数据库130中维护的训练数据训练得到目标模型/规则101。

下面对训练设备120基于训练数据得到目标模型/规则101进行描述，训练设备120 对输入的用户的属性信息和推荐对象的信息进行处理，将输出的预测标签与样本标签进行对比，直到训练设备120输出的预测标签与样本标签的差异小于一定的阈值，从而得到训练好的推荐模型，即训练后的推荐模型可以是目标模型/规则101的训练。

上述目标模型/规则101能够用于预测用户是否选择推荐对象或预测用户选择推荐对象的概率。本申请实施例中的目标模型/规则101具体可以为神经网络、逻辑回归模型等。

需要说明的是，在实际应用中，数据库130中维护的训练数据不一定都来自于数据采集设备160的采集，也有可能是从其他设备接收得到的。另外需要说明的是，训练设备120也不一定完全基于数据库130维护的训练数据进行目标模型/规则101的训练，也有可能从云端或其他地方获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

根据训练设备120训练得到的目标模型/规则101可以应用于不同的系统或设备中，如应用于图3所示的执行设备110，所述执行设备110可以是终端，如手机终端，平板电脑，笔记本电脑，增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)，车载终端等，还可以是服务器或者云端等。在图3中，执行设备110配置有输入/输出(input/output，I/O)接口112，用于与外部设备进行数据交互，用户可以通过客户设备140向I/O接口112输入数据，所述输入数据在本申请实施例中可以包括：客户设备输入的训练数据。这里的客户设备140具体可以是终端设备。

预处理模块113和预处理模块114用于根据I/O接口112接收到的输入数据进行预处理，在本申请实施例中，可以没有预处理模块113和预处理模块114或者只有的一个预处理模块。当不存在预处理模块113和预处理模块114时，可以直接采用计算模块111对输入数据进行处理。

在执行设备110对输入数据进行预处理，或者在执行设备110的计算模块111执行计算等相关的处理过程中，执行设备110可以调用数据存储系统150中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统150中。

最后，I/O接口112将处理结果提供给用户，如，目标模型/规则101可以用于推荐系统中预测目标推荐用户是否候选推荐对象或选择候选推荐对象的概率，根据目标推荐用户是否候选推荐对象或选择候选推荐对象的概率得到推荐结果，呈现给客户设备140，从而提供给用户。

例如，在本申请实施例中，上述推荐结果可以为根据目标推荐用户选择候选推荐对象的概率得到的候选推荐对象的推荐排序，或者，上述推荐结果可以为根据目标推荐用户选择候选推荐对象的概率得到的目标推荐对象，目标推荐对象可以为概率最高的一个或多个候选推荐对象。

应理解，当上述系统架构100中不存在预处理模块113和预处理模块114时，计算模块111还可以将处理得到的排序较高的商品传输到I/O接口，然后再由I/O接口将排序较高的商品送入到客户设备140中显示。

值得说明的是，训练设备120可以针对不同的目标或称不同的任务，基于不同的训练样本生成相应的目标模型/规则101，该相应的目标模型/规则101即可以用于实现上述目标或完成上述任务，从而为用户提供所需的结果。

在图3中所示情况下，在一种情况下，用户可以手动给定输入数据，该手动给定可以通过I/O接口112提供的界面进行操作。

另一种情况下，客户设备140可以自动地向I/O接口112发送输入数据，如果要求客户设备140自动发送输入数据需要获得用户的授权，则用户可以在客户设备140中设置相应权限。用户可以在客户设备140查看执行设备110输出的结果，具体的呈现形式可以是显示、声音、动作等具体方式。客户设备140也可以作为数据采集端，采集如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果作为新的样本数据，并存入数据库130。当然，也可以不经过客户设备140进行采集，而是由I/O接口112直接将如图所示输入I/O接口112的输入数据及输出I/O接口112的输出结果，作为新的样本数据存入数据库130。

值得注意的是，图3仅是本申请实施例提供的一种系统架构的示意图，图中所示设备、器件、模块等之间的位置关系不构成任何限制，例如，在图3中，数据存储系统150相对执行设备110是外部存储器，在其它情况下，也可以将数据存储系统150置于执行设备110中。

示例性地，本申请实施例中的推荐模型还可以是逻辑回归(logistic regression)模型，逻辑回归模型是一种用于解决分类问题的机器学习方法，可以用于估计某种事物的可能性。

例如，推荐模型可以是深度因子分解机(deep factorization machines，DeepFM)模型，或者，推荐模型可以是深宽(Wide and Deep)模型。

下面介绍本申请实施例提供的一种芯片硬件结构。

图4示出了本申请实施例提供了一种应用本申请实施例的推荐模型的训练方法以及推荐方法的系统架构200。该系统架构200可以包括本地设备220、本地设备230以及执行设备210和数据存储系统250，其中，本地设备220和本地设备230通过通信网络与执行设备210连接。

执行设备210由一个或多个服务器实现，可选的，与其它计算设备配合，例如：数据存储、路由器、负载均衡器等设备；执行设备210可以布置在一个物理站点上，或者分布在多个物理站点上。执行设备210可以使用数据存储系统250中的数据，或者调用数据存储系统250中的程序代码实现本申请实施例的推荐模型的训练方法以及推荐方法。

示例性地，数据存储系统250可以部署于本地设备220或者本地设备230中，例如，数据存储系统250可以用于存储训练样本。

需要说明的是，上述执行设备210也可以称为云端设备，此时执行设备210可以部署在云端。

具体地，执行设备210可以执行以下过程：获取至少第一训练样本，所述第一训练样本包括第一用户的属性信息和第一推荐对象的信息；通过插补模型对所述第一用户的属性信息和所述第一推荐对象的信息进行处理，获取所述第一训练样本的插补预测标签，所述插补预测标签用于表示向所述第一用户推荐所述第一推荐对象时，所述第一用户是否对所述第一推荐对象有操作动作的预测；其中，所述插补模型的模型参数是基于至少一个第二训练样本进行训练得到的，所述第二训练样本包括第二用户的属性信息和第二推荐对象的信息以及第二训练样本的样本标签，所述第二训练样本的样本标签用于表示所述第二用户是否对所述第二推荐对象有操作动作，所述第二训练样本是在当所述第二推荐对象为随机展示给所述第二用户的情况下获得的；以所述第一训练样本的所述第一用户的属性信息和所述第一推荐对象的信息作为推荐模型的输入，以所述第一训练样本的插补预测标签作为推荐模型的目标输出值进行训练，得到推荐模型。

执行设备210能够通过执行上述过程训练得到推荐模型，通过该推荐模型可以消除训练数据偏置对推荐准确率的影响，更准确地预测目标推荐用户对候选推荐对象有操作动作的概率。

在一种可能的实现方式中，上述执行设备210执行的训练方法可以是在云端执行的训练方法。

用户可以操作各自的用户设备(例如本地设备220和本地设备230)与执行设备210进行交互。每个本地设备可以表示任何计算设备，例如个人计算机、计算机工作站、智能手机、平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶盒、游戏机等。

每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与执行设备210进行交互，通信网络可以是广域网、局域网、点对点连接等方式，或它们的任意组合。

在一种实现方式中，本地设备220、本地设备230可以从执行设备210获取到推荐模型的相关参数，推荐模型在本地设备220、本地设备230上，利用该推荐模型预测目标推荐用户对候选推荐对象有操作动作的概率。

在另一种实现中，执行设备210上可以直接部署推荐模型，执行设备310通过从本地设备220和本地设备230获取待处理数据，并根据推荐模型得到预测目标推荐用户对候选推荐对象有操作动作的概率。

示例性地，数据存储系统250可以是部署在本地设备220或者本地设备230中，用于存储本地设备的训练样本。

示例性地，数据存储系统250可以独立于本地设备220或本地设备230，单独部署在存储设备上，存储设备可以与本地设备进行交互，获取本地设备中用户行为日志，并存入存储设备中。

图5示出了本申请一个实施例的推荐模型的训练方法300，方法300包括步骤310至步骤330。该训练方法300可以由图3中的训练设备120执行。下面对步骤310至步骤330进行详细介绍。

310，获取至少一个第一训练样本，第一训练样本包括第一用户的属性信息和第一推荐对象的信息。

其中，第一训练样本可以是如图4所示的数据存储系统250中获取的数据。

示例性地，第一用户的属性信息和第一推荐对象的信息可以通过第一训练样本的上下文信息获得。

用户的属性信息可以包括用户个性化的一些属性，例如，用户的性别、用户的年龄、用户的职业、用户的收入、用户的爱好、用户的教育情况等。

第一用户的属性信息可以包括上述用户的属性信息中的一项或多项。

推荐对象可以为前述应用场景一中的终端设备的应用市场中的推荐应用程序；或者，推荐对象可以为前述应用场景二中的系统推荐的搜索词。在本申请的实施例中，推荐对象可以是推荐系统能够为用户推荐的信息，对于推荐对象的具体实现方式本申请不作任何限定。

第一推荐对象可以为上述推荐对象中的一种。

推荐对象的信息可以包括推荐对象标识，例如推荐对象ID。推荐对象的信息还可以包括推荐对象的一些属性，例如，推荐对象的名称、推荐对象的类型等。

示例性地，推荐对象可以为前述应用场景一中的终端设备的应用市场中的推荐应用程序，推荐对象的信息可以为推荐应用程序的信息。推荐应用程序的信息可以包括推荐应用程序的标识，例如，推荐应用程序的id。推荐应用程序的信息的还可以包括推荐应用程序的一些属性，例如，推荐应用程序的名称、推荐应用程序的开发者、推荐应用程序的类型、推荐应用程序的安装包大小、推荐应用程序的打分、推荐应用程序的评论等。

第一推荐对象的信息可以包括上述推荐对象的信息中的一项或多项。

311，获取至少一个第三训练样本，第三训练样本包括第三用户的属性信息和第三推荐对象的信息以及所述第三训练样本的样本标签，第三训练样本的样本标签用于表示第三用户是否对第三推荐对象有操作动作。

需要说明的是步骤311为可选步骤。

其中，第三训练样本可以是如图4所示的数据存储系统250中获取的数据。

示例性地，第三用户的属性信息和第三推荐对象的信息可以通过第三训练样本的上下文信息获得。

第一用户和第三用户可以为相同的用户，也可以为不同的用户。

第三用户的属性信息可以包括步骤310中所述的用户的属性信息中的一项或多项。

第三推荐对象可以为步骤310中所述的推荐对象中的一种。

第三推荐对象的信息可以包括上述推荐对象的信息中的一项或多项。

需要说明的是，第一推荐对象的信息和第三推荐对象的信息中所包含的推荐对象的属性类别可以相同，也可以不同。例如，第一推荐对象的信息可以包括第一推荐对象的名称和第一推荐对象的类型。第三推荐对象的信息可以包括第三推荐对象的名称。

标签可以用于标记训练样本为正样本还是负样本。例如，标签可以为0或1，正样本的标签可以为1，负样本的标签可以为0。再例如，标签也可以为具体数值，也就是通过具体数值标记训练样本为正样本或负样本的概率。

样本标签可以基于用户是否对推荐对象有操作动作获得。

用户对推荐对象有操作动作可以包括用户的点击行为、用户的下载行为、用户的购买行为、用户的浏览行为和用户的差评行为等。

样本标签基于用户是否对推荐对象有操作动作获得，具体可以包括以下几种情况。

情况1：用户对推荐对象有操作动作，则样本标签可以为1，用户对推荐对象没有操作动作，样本标签可以为0。

示例性地，在应用市场中，该操作动作可以为下载行为。具体地，当训练样本A1中的用户对训练样本A1中的推荐对象有下载行为，则训练样本A1为正样本，训练样本A1的样本标签可以为1；当训练样本A1中的用户对训练样本A1中的推荐对象没有下载行为，则训练样本A1为负样本，训练样本A1的样本标签可以为0。其中，训练样本A1为第三训练样本的一例。

情况2：用户对推荐对象有操作动作，则样本标签可以为0，用户对推荐对象没有操作动作，样本标签可以为1。

示例性地，在应用市场中，该操作动作可以为差评行为。具体地，当训练样本A1中的用户对训练样本A1中的推荐对象有差评行为，则训练样本A1为负样本，训练样本A1的样本标签可以为0；当训练样本A1中的用户对训练样本A1中的推荐对象没有差评行为，则训练样本A1为正样本，训练样本A1的样本标签可以为1。其中，训练样本A1为第三训练样本的一例。

情况3：用户对推荐对象有第一类操作动作，则样本标签可以为1，用户对推荐对象有第二类操作动作，样本标签可以为0。

示例性地，在付费音乐推荐的应用场景中，该第一类操作动作可以包括购买行为等，该第二类操作动作可以包括浏览行为等。具体地，当训练样本A1中的用户对训练样本A1中的推荐对象有浏览行为，则训练样本A1为负样本，训练样本A1的样本标签可以为0；当训练样本A1中的用户对训练样本A1中的推荐对象有购买行为，则训练样本A1为正样本，训练样本A1的样本标签可以为1。其中，训练样本A1为第三训练样本的一例。应理解，本申请实施例中仅以购买行为和浏览行为为例对确定样本标签的过程进行说明，不应视为对本申请实施例的限制。在实际应用中，可以根据具体的应用场景确定操作动作对应的样本标签。例如，在一些场景中，该第一类操作动作可以包括浏览行为等，该第二类操作动作可以包括差评行为等。

可选地，第一训练样本可以为当第一推荐对象没有被展示给第一用户的情况下获得的，第三训练样本可以为当第三推荐对象被展示给第三用户的情况下获得的。

推荐对象被展示给用户后，可以得到用户对推荐对象是否有操作动作的反馈信息。例如，可以从用户行为日志中可以得到该反馈信息。

下面给出一个第三训练样本的示例。从一个推荐请求和该推荐请求对应的推荐对象中可以得到训练样本。该训练样本包括该推荐请求中的用户的属性信息和该推荐对象的信息。

例如，在应用市场的应用场景中，推荐系统向用户推荐应用程序。训练样本A1(训练样本A1为第三训练样本的一例)可以包括训练样本A1中的用户的性别、用户的职业、训练样本A1中的推荐应用程序id和推荐应用程序的类型这4类属性数据，也就是4个域(field)的数据，还可以理解为该训练样本A1中包括4个训练特征。域表示属性的类别。比如成都、重庆、北京都属于同一个field，该field也就是城市。4类属性分别编号为0～3。

以训练样本A1为正样本为例，该训练样本A1可以表示为x ^l＝[1，0：男，1：教师，2：微信，3：社交]，最前面的1表示该训练样本A1的样本标签为1。样本标签可以表示用户对该推荐应用程序是否有下载行为，样本标签为1可以表示该用户下载了微信。这是一条原始的训练样本，在预处理过程中还可以对训练特征进行数字编号，例如，将“男”编号为0，“教师”编号为1，“微信”编号为2，“社交”编号为3，则原始训练样本可转化为x ^l＝[1，0:0，1:1，2:2，3:3]。

再例如，在音乐推荐的应用场景中，推荐系统向用户推荐音乐。推荐音乐可以为需要付费的音乐。训练样本A2(训练样本A2为第三训练样本的一例)可以包括训练样本A2中的用户的性别、用户的年龄、训练样本A2中的推荐音乐id、推荐音乐的类型和推荐音乐的评分这5类属性数据，也就是5个域。5类属性分别编号为0～4。

以训练样本A2为正样本为例，该训练样本A2可以表示为x ^l＝[1，0：男，1：20岁，2：音乐1，3：摇滚，4：4分]，最前面的1表示该训练样本A2的样本标签为1，样本标签可以表示用户对该推荐音乐是否有购买行为，样本标签为1可以表示该用户购买了音乐1。这是一条原始的训练样本，在预处理过程中还可以对训练特征进行数字编号，例如，将“男”编号为0，“20岁”编号为1，“音乐1”编号为2，“摇滚”编号为3，“4分”编号为4，则原始训练样本可转化为x ^l＝[1，0:0，1:1，2:2，3:3，4:4]。

下面以推荐对象为应用市场中的推荐应用程序为例对第一训练样本和第三训练样本进行说明。

第一训练样本可以为当第一推荐对象没有被展示给第一用户的情况下获得的，第三训练样本可以为当第三推荐对象被展示给第三用户的情况下获得的。在该情况下，第一推荐对象可以为没有被投放(或者说是没有被展示给第一用户)的推荐应用程序。第三推荐对象可以为已经被投放(或者说是已经被展示给第三用户)的推荐应用程序。例如，针对一个推荐请求，候选推荐应用程序中的一个或多个推荐应用程序被展示给该推荐请求对应的用户，进而可以得到用户对推荐应用程序是否有操作动作的反馈信息。被展示给该推荐请求对应的用户A的推荐应用程序A即为第三推荐对象，具备用户A对推荐应用程序A是否有操作动作的反馈信息的训练样本即为第三训练样本。也就是说，该第三训练样本包括用户A的属性信息和推荐应用程序A的信息以及第三训练样本的样本标签。候选推荐应用程序中没有被展示给用户A的推荐应用程序B无法得到用户A对推荐应用程序B是否有操作动作的反馈信息。没有被展示给该推荐请求对应的用户A的推荐应用程序B即为第一推荐对象，不具备用户A对推荐应用程序B是否有操作动作的反馈信息的训练样本即为第一训练样本。该第一训练样本包括用户A的属性信息和推荐应用程序B的信息。应理解，以上仅以第一训练样本和第三训练样本对应相同的推荐请求为例进行说明，第一用户和第三用户均为用户A仅为示例。对于一个推荐请求，候选推荐应用程序的数量为m个，被展示给推荐请求对应的用户的推荐应用程序的数量为n个，没有被展示给推荐请求对应的用户的推荐应用程序的数量为m-n个。相应地，该n个推荐应用程序可以对应n条第三训练样本，也就是由该推荐请求和该n个推荐应用程序可以构建n条第三训练样本。该m-n个推荐应用程序可以对应m-n条第一训练样本，也就是由该推荐请求和该m-n个推荐应用程序可以构建m-n条第一训练样本。

320，通过插补模型对第一用户的属性信息和第一推荐对象的信息进行处理，获取第一训练样本的插补预测标签，插补预测标签用于表示向第一用户推荐第一推荐对象时，第一用户是否对第一推荐对象有操作动作的预测。

其中，插补模型的模型参数是基于至少一个第二训练样本进行训练得到的，第二训练样本包括第二用户的属性信息和第二推荐对象的信息以及第二训练样本的样本标签，第二训练样本的样本标签用于表示第二用户是否对第二推荐对象有操作动作，第二训练样本是在当第二推荐对象为随机展示给第二用户的情况下获得的。

插补模型可以用于预测当向第一用户推荐第一推荐对象时，第一用户是否对第一推荐对象有操作动作。该插补预测标签可以为0或1，也就是用0或1表示第一用户是否对第一推荐对象有操作动作。该插补预测标签也可以为概率值，也就是用概率值表示第一用户对第一推荐对象有操作动作的概率。

例如，插补模型可以为广告平均CTR模型、逻辑回归(logistic regression，LR)模型、域感知因子分解机(field-aware factorization machines，FFM)或DNN等。

其中，第二训练样本可以是如图4所示的数据存储系统250中获取的数据。

示例性地，第二用户的属性信息和第二推荐对象的信息可以通过第二训练样本的上下文信息获得。

第一用户和第二用户可以为相同的用户，也可以为不同的用户。

第二用户的属性信息可以包括步骤310中所述的用户的属性信息中的一项或多项。

第二推荐对象可以为步骤310中所述的推荐对象中的一种。

第二推荐对象的信息可以包括上述推荐对象的信息中的一项或多项。

需要说明的是，第一推荐对象的信息和第二推荐对象的信息中所包含的推荐对象的属性类别可以相同，也可以不同。例如，第一推荐对象的信息可以包括第一推荐对象的名称和第一推荐对象的类型。第二推荐对象的信息可以包括第二推荐对象的名称。

关于第二样本的样本标签的描述可以如步骤311中所述，此处不再赘述。

如上所述，第二训练样本可以为当第二推荐对象被展示给第二用户的情况下获得的，也就是说第二训练样本中具备第二用户对第二推荐对象是否有操作动作的反馈信息，第二训练样本有实际的样本标签。

该第二训练样本可以与上述步骤311中的第三训练样本相同，也可以与第三训练样本不同。

第二训练样本为没有偏置的训练样本。该第三训练样本可以为没有偏置的训练样本，也可以为有偏置的训练样本。

有偏置的训练样本可以理解为在当推荐对象为按照一定规则展示给用户的情况下获得的。例如，在收到推荐请求时，将候选的推荐对象按照期望收入进行排序，按照排序确定被展示给用户的推荐对象，也就是说在该情况下，各个推荐对象被展示给用户的概率是不同的，期望收入较高的推荐对象被展示给用户的概率较高，在该情况下得到的训练样本即为有偏置的训练样本。

下面以推荐对象为应用市场中的推荐应用程序为例对没有偏置的训练样本和有偏置的训练样本进行说明。

针对一条推荐请求，通过随机投放策略展示推荐应用程序，也就是将多个候选推荐应用程序中的推荐应用程序随机展示给该推荐请求对应的用户，各个推荐应用程序被展示给该推荐请求对应的用户的概率相同，在该情况下得到的训练样本即为没有偏置的训练样本。针对一条推荐请求，将候选推荐应用程序中的推荐程序按照期望收入进行排序，按照排序决定被展示给用户的推荐应用程序，在该情况下得到的训练样本为有偏置的训练样本。

采用第二训练样本训练插补模型，也就是采用没有偏置的训练样本训练插补模型可以避免偏置问题对插补模型的训练带来的影响，提高插补模型的准确率，使得到的插补预测标签更加准确。

可选地，插补模型可以根据第二训练样本的数量选择。

例如，在应用市场的应用场景下，当第二训练样本的数量为10万以上时，插补模型可以为域感知因子分解机或深度神经网络等；当第二训练样本的数量为1万至10万之间时，插补模型可以为逻辑回归模型；当第二训练样本的数量为一万以下时，插补模型可以为广告平均点击通过率模型。

训练特征可以为从用户的属性信息和推荐对象的信息中得到的特征。

330，以第一训练样本的第一用户的属性信息和第一推荐对象的信息作为推荐模型的输入，以第一训练样本的插补预测标签作为推荐模型的目标输出值进行训练，得到推荐模型。

在方法300包括步骤311的情况下，步骤330可以为根据所述第一训练样本和所述第三训练样本进行训练，得到推荐模型。

具体地，根据所述第一训练样本和所述第三训练样本进行训练可以为，以第一用户的属性信息和第一推荐对象的信息以及第三用户的属性信息和第三推荐对象的信息作为推荐模型的输入，以第一训练样本的插补预测标签和第三训练样本的样本标签作为所述推荐模型的目标输出值基于目标训练模型进行训练，得到训练后的推荐模型。

应理解，上述训练过程是以第一用户的属性信息和第一推荐对象的信息作为推荐模型的输入，以第一训练样本的插补预测标签作为该输入对应的目标输出值，且以第三用户的属性信息和第三推荐对象的信息作为推荐模型的输入，以第三训练样本的样本标签作为该输入对应的目标输出值，基于目标训练模型进行训练。

可选地，目标训练模型包括第一损失函数和第二损失函数，第一损失函数用于指示第一训练样本的插补预测标签与第一训练样本的预测标签之间的差异，第二损失函数用于指示第三训练样本的样本标签与第三训练样本的预测标签之间的差异。

示例性地，基于目标训练模型对推荐模型进行训练可以为通过反向传播算法多次迭代，不断减小第一损失函数和第二损失函数，得到推荐模型的模型参数。

具体地，第一损失函数和第二损失函数之间可以为相加的关系。第一损失函数与第二损失函数之间也可以为相乘的关系。

可选地，目标训练模型可以为：

中的训练样本x ¹至训练样本x ^L为第三训练样本，训练样本x ^L+1至训练样本

为第一训练样本，

表示训练样本集中的训练样本的数量，L表示所述训练样本集中的第三训练样本的数量，σ _l表示训练样本x ^l的插补预测标签σ(x ^l)，y _l表示训练样本x ^l的样本标签，

表示训练样本x ^l的预测标签，

表示第二损失函数，

所述第一损失函数，ω为超参数，用于所述第一损失函数和第二损失函数的比重。

为

个不同的第一训练样本。

示例性地，步骤320还可以通过插补模型对第三训练样本进行处理，得到第三训练样本的插补预测标签，然后以第三训练样本和第一训练样本作为推荐模型的输入样本，以第三训练样本的样本标签、第三训练样本的插补预测标签和第一训练样本的插补预测标签作为推荐模型的目标输出值基于上述目标训练模型对推荐模型进行训练。

该目标训练模型可以为：

应理解，上述两个目标训练模型为相同的目标训练模型，仅在实现方式上有区别。

需要说明的是，在上述两个目标训练模型中，超参数与第二损失函数相乘仅为示意。也就是说目标训练模型中，超参数也可以设置于第一损失函数之前，即超参数可以与第一损失函数相乘。或者，在目标训练模型中，可以设置两个超参数，两个超参数分别设置于第一损失函数之前和第二损失函数之前，基于该目标训练模型进行训练的方法可以称为无倾向双鲁棒(propensity-free doubly robust)法。

通过设置不同的超参数能够调整第一损失函数和第二损失函数在目标训练模型中所占的比重，进一步提高推荐模型的准确率。当插补模型的准确率较高时，第二损失函数的权重可以高于第一损失函数的权重，也就是ω的值可以大于1。例如，用于训练插补模型的第二训练样本的数量较多时，该第二训练样本相对具有代表性，使插补模型能够更准确地拟合第二训练样本分布，得到的插补模型的准确率较高，在该情况下，第二损失函数的权重可以高于第一损失函数的权重，也就是ω的值可以大于1。这样，基于该目标训练模型对推荐模型进行训练，能够提高推荐模型的准确率。

具体地，推荐模型可以为低秩模型。例如，推荐模型可以为矩阵分解(matrix factorization，MF)模型、因子分解机(factorization machine，FM)或FFM等。

这样在求解的过程中可以把训练样本分解为推荐请求中的用户的属性信息和推荐对象的信息两部分，有助于降低计算训练样本的时间复杂度。

需要说明的是，用于插补模型的训练特征可以和用于推荐模型的训练特征不同。训练特征可以从用户的属性信息和推荐对象的信息中确定。例如，用户的属性信息可以包括用户的性别和用户的职业；推荐对象的信息可以包括推荐对象的类型、推荐对象的打分和推荐对象的评论。用于插补模型的训练特征可以包括推荐对象的类型和用户性别。用于推荐模型的训练特征可以包括推荐对象的类型、推荐对象的打分、推荐对象的评论、用户性别和用户的职业。

根据本申请实施例的方案，第二训练样本为没有偏置的训练样本，利用第二训练样本对插补模型进行训练，可以避免偏置问题对插补模型的训练带来的影响，提高插补模型的准确率，使得到的插补预测标签更加准确，进而利用更准确的插补预测标签对推荐模型进行训练，能够提高推荐模型的准确性。

此外，利用第一训练样本和第三训练样本一起对推荐模型进行训练，兼顾了插补模型得到的插补预测标签和实际的样本标签在训练过程中的作用，避免了推荐模型的准确性仅依赖于插补预测标签的准确率，进一步提高推荐模型的准确性。

在第一推荐对象没有被展示给第一用户的情况下，通过为第一训练样本增加插补预测标签，能够将没有发生过的事实纳入建模中，与发生过的事实一起用于推荐模型的训练，也就是将没有样本标签的第一训练样本与有样本标签的第三训练样本一起用于推荐模型的训练，可以使样本分布更加合理，提高推荐模型的准确性。

在第一推荐对象为没有展示给用户的推荐对象的情况下，无法根据用户的操作动作得到第一训练样本对应的样本标签，也就无法利用第一训练样本对推荐模型进行训练。将第一训练样本纳入建模中也就是利用反事实的学习方法对推荐模型进行训练，反事实学习是指将过去未发生的事实进行表征，纳入建模过程中的方法，在本申请实施例中，第一训练样本可以理解为过去未发生的事实。利用反事实学习的方法，将未被展示给用户的推荐对象纳入训练样本中，使样本分布更加合理，进而对推荐模型进行训练，减轻偏置问题带来的影响，提高了推荐模型的准确度。

图6示出了本申请实施例提供的一种推荐模型的训练方法400。方法400包括步骤410至步骤440。下面对步骤410至步骤440进行详细介绍。应理解，步骤410至步骤440的具体实现方式可以参照前述方法300，为了避免不必要的重复，下面在介绍方法400时适当省略重复的描述。

410，获取第一训练样本、第二训练样本和第三训练样本。

其中，第一训练样本、第二训练样本和第三训练样本可以为多个。

第一训练样本包括第一用户的属性信息和第一推荐对象的信息。第二训练样本包括第二用户的属性信息和第二推荐对象的信息以及第二训练样本的样本标签，第二训练样本的样本标签用于表示第二用户是否对第二推荐对象有操作动作，第二训练样本是在当第二推荐对象为随机展示给第二用户的情况下获得的。第三训练样本包括第三用户的属性信息和第三推荐对象的信息以及第三训练样本的样本标签，第三训练样本的样本标签用于表示第三用户是否对第三推荐对象有操作动作。

第一训练样本可以为当第一推荐对象没有被展示给第一用户的情况下获得的，第三训练样本可以为当第三推荐对象被展示给第三用户的情况下获得的。

上述多个第二训练样本可以为多个第三训练样本中的一部分。也就是说多个第三训练样本中可以包括没有偏置的训练样本和有偏置的训练样本。

420，根据第二训练样本对插补模型进行训练，得到插补模型。

430，通过插补模型对第一训练样本进行处理，得到第一训练样本的插补预测标签。

440，以第一训练样本中的第一用户的属性信息和第一推荐对象的信息以及第三训练样本中的第三用户的属性信息和第三推荐对象的信息作为推荐模型的输入，以第一训练样本的插补预测标签和第三训练样本的样本标签作为推荐模型的目标输出值基于目标训练模型对推荐模型进行训练，得到训练后的推荐模型。

其中，目标训练模型可以为：

为所述第一训练样本，

表示训练样本x ^l的预测标签，

表示所述第二损失函数，

根据本申请实施例的方案，采用第二训练样本训练插补模型，也就是采用没有偏置的训练样本训练插补模型，可以避免偏置问题对插补模型的训练带来的影响，提高插补模型的准确率，使得到的插补预测标签更加准确。此外，在第一推荐对象为没有展示给用户的推荐对象的情况下，无法得到第一训练样本的样本标签。通过插补模型为第一训练样本补充对应的插补预测标签，将没有展示给用户的推荐对象纳入训练样本中，也就是利用反事实的学习方法将没有发生的事实纳入建模中对推荐模型进行训练，使样本分布更加合理。利用无倾向双鲁棒法对推荐模型进行训练，只需少量的第二训练样本就能减轻偏置问题带来的影响，提升推荐模型的准确率，避免由于大规模采集第二训练样本而大规模随机展示推荐对象，导致系统整体收入下降。

通过负对数损失(negative logarithmic loss，NLL)和观测者操作特性(receiver operating characteristic，ROC)曲线下的面积(area under the ROC curve，AUC)两个指标对现有方法训练得到的推荐模型以及本申请提出的推荐模型进行测试，本申请实施例中的推荐模型的准确率相对于现有的二分类建模的推荐模型有10％以上的提升。

除了图6所描述的训练方案，本申请的训练方式在实现时，还可以是，获取第一训练样本和第二训练样本，其中第一训练样本为通过插补模型进行标签预测的样本，插补预测模型为预先训练生成的，其训练方式和上述实施例中的训练方式相同，再此不再赘述，基于第一训练样本和第三训练样本训练获取推荐模型。

图7示出了本申请实施例提供的一种推荐框架500示意图。推荐框架500中包括插补模块501和推荐模块502。其中，可以利用插补模块对不具备样本标签的训练样本进行处理，得到插补预测标签，将不具备样本标签的训练样本纳入到建模中，使样本分布更加合理，消除有偏置问题对推荐结果准确率的影响，得到更准确的推荐模块502。

需要说明的是，插补模块501可以对应于图5或图6中的插补模型，推荐模块502可以对应于图5或图6中的推荐模型。

插补模块501可以用于为没有样本标签的训练样本补充插补预测标签。

推荐模块502可以用于预测训练样本中的用户对训练样本中的推荐对象有操作动作的概率。

示例性地，推荐框架500可以分为两个阶段，训练阶段和推荐阶段。下面分别对训练阶段和推荐阶段进行说明。

训练阶段：

步骤A-1：获取至少一个第一训练数据和至少一个第二训练样本。第一训练样本包括第一用户的属性信息和第一推荐对象的信息。

步骤A-2：通过插补模块601对第一用户的属性信息和第一推荐对象的信息进行处理，获取第一训练样本的插补预测标签，插补预测标签用于表示向第一用户推荐第一推荐对象时，第一用户是否对第一推荐对象有操作动作的预测。

插补模块601的参数是基于第二训练样本进行训练得到的，第二训练样本包括第二用户的属性信息和第二推荐对象的信息以及第二训练样本的样本标签，第二训练样本的样本标签用于表示第二用户是否对第二推荐对象有操作动作，第二训练样本是在当第二推荐对象为随机展示给第二用户的情况下获得的。

步骤A-3：获取至少一个第三训练样本。该步骤为可选步骤。

第三训练样本包括第三用户的属性信息和第三推荐对象的信息以及所述第三训练样本的样本标签，第三训练样本的样本标签用于表示第三用户是否对第三推荐对象有操作动作。

步骤A-4：以所述第一训练样本的所述第一用户的属性信息和所述第一推荐对象的信息作为推荐模型的输入，以所述第一训练样本的插补预测标签作为推荐模型的目标输出值进行训练，得到推荐模块502。

在包含步骤A-3的情况下，步骤A-4可以为，根据所述第一训练样本和所述第三训练样本基于目标训练模型进行训练，得到推荐模块502。

目标推荐模型可以为上述步骤330或步骤440中目标推荐模型，此处不再赘述。

示例性地，上述插补模块可以为广告平均CTR模型、逻辑回归模型、FFM或DNN等。

示例性地，上述推荐模块可以为MF、FM或FFM等。

根据本申请实施例的方案，通过插补模型得到第二类训练样本的插补预测标签，进而可以将第二类训练样本和对应的插补预测标签作为一部分训练数据的对推荐模型进行训练。将没有样本标签的第二类训练样本纳入建模中，可以使样本分布更加合理，提高推荐模型的准确性。

推荐阶段：

在推荐阶段，只需要部署推荐模块502，推荐系统构建基于用户的属性信息和推荐对象的信息的输入向量，通过推荐模块502预测用户对推荐对象有操作动作的概率。

图8是本申请实施例提供的推荐方法600的示意图。方法600包括步骤610和步骤620。下面对步骤610至步骤620进行详细介绍。

610，获取目标推荐用户的属性信息和候选推荐对象的信息。

例如，推荐系统收到一条待处理的推荐请求时，基于该待处理的推荐请求可以确定目标推荐用户的属性信息。

示例性地，目标推荐用户的属性信息可以包括用户个性化的一些属性，例如，目标推荐用户的性别、目标推荐用户的年龄、目标推荐用户的职业、目标推荐用户的收入、目标推荐用户的爱好、目标推荐用户的教育情况等。

示例性地，候选推荐对象的信息可以包括候选推荐对象标识，例如候选推荐对象ID。候选推荐对象的信息还可以包括候选推荐对象的一些属性，例如，候选推荐对象的名称、候选推荐对象的类型等。

620，将目标推荐用户的属性信息和候选推荐对象的信息输入至推荐模型，预测目标推荐用户对候选推荐对象有操作动作的概率。

示例性地，候选推荐对象可以为候选推荐对象集合中的推荐对象。可以根据预测目标推荐用户对候选推荐对象有操作动作的概率对候选推荐集合中的候选推荐对象进行排序，从而得到候选推荐对象的推荐结果。例如，选择概率最高的候选推荐对象展示给用户。比如，候选推荐对象可以是候选推荐应用程序。

如图9所示，图9示出了应用市场中的“推荐”页，该页面上可以有多个榜单，比如，榜单可以包括精品应用和精品游戏。以精品游戏为例，应用市场的推荐系统根据用户的属性信息和候选推荐应用程序的信息预测用户对候选推荐应用程序有下载(安装)行为的概率，并以此概率将候选推荐应用程序降序排列，将最可能被下载的应用程序排在最靠前的位置。

示例性地，在精品应用中推荐结果可以是App5位于精品游戏中的推荐位置一、App6位于精品游戏中的推荐位置二、App7位于精品游戏中的推荐位置三、App8位于精品游戏中的推荐位置四。当用户看到应用市场的推荐结果之后，可以根据自身的兴趣爱好对上述推荐结果进行操作动作，用户的操作动作执行后会被存入用户行为日志中。

例如，图9所示的应用市场可以通过用户行为日志作为训练数据训练推荐模型。

应理解，上述举例说明是为了帮助本领域技术人员理解本申请实施例，而非要将本申请实施例限于所例示的具体数值或具体场景。本领域技术人员根据所给出的上述举例说明，显然可以进行各种等价的修改或变化，这样的修改或变化也落入本申请实施例的范围内。

推荐模型可以是图7中的推荐模块501，推荐模型的训练方法可以采用图5或图6所示的训练方法以及图7的训练阶段的方法，此处不再赘述。

推荐模型的模型参数是通过以第一训练样本的第一用户的属性信息和第一推荐对象的信息作为推荐模型的输入，以第一训练样本的插补预测标签作为推荐模型的目标输出值进行训练得到的。第一训练样本的插补预测标签是通过插补模型对第一用户的属性信息和第一推荐对象的信息进行处理得到的，插补预测标签用于表示向第一用户推荐第一推荐对象时，所述第一用户是否对所述第一推荐对象有操作动作的预测，插补模型的模型参数是基于至少一个第二训练样本进行训练得到的，第二训练样本包括第二用户的属性信息和第二推荐对象的信息以及第二训练样本的样本标签，第二训练样本的样本标签用于表示第二用户是否对第二推荐对象有操作动作，第二训练样本是在当第二推荐对象为随机展示给第二用户的情况下获得的。

可选地，推荐模型的模型参数是通过以第一训练样本的第一用户的属性信息和第一推荐对象的信息作为所述推荐模型的输入，以所述第一训练样本的插补预测标签作为所述推荐模型的目标输出值进行训练得到的，包括所述推荐模型的模型参数是以所述第一用户的属性信息和所述第一推荐对象的信息以及第三训练样本的第三用户的属性信息和第三推荐对象的信息作为推荐模型的输入，以所述第一训练样本的插补预测标签和所述第三训练样本的样本标签作为所述推荐模型的目标输出值基于目标训练模型得到的，其中，所述第三训练样本的样本标签用于表示所述第三用户是否对所述第三推荐对象有操作动作。

可选地，目标训练模型为：

为所述第一训练样本，

表示训练样本x ^l的预测标签，

表示所述第二损失函数，

可选地，插补模型是根据所述第二训练样本的数量选择的。

下面结合附图对本申请实施例的训练装置和推荐装置进行详细的描述，应理解，下面描述的推荐装置能够执行前述本申请实施例的推荐模型的训练方法，推荐装置可以执行前述本申请实施例的推荐方法，为了避免不必要的重复，下面在介绍本申请实施例的推荐装置时适当省略重复的描述。

图10是本申请实施例的推荐模型的训练装置的示意性框图。图10所示的推荐模型的训练装置700包括获取单元710和处理单元720。

获取单元710和处理单元720可以用于执行本申请实施例的推荐模型的训练方法，具体地，获取单元710可以执行上述步骤310或步骤410，处理单元720可以执行上述步骤320至步骤330或步骤420至步骤440。

获取单元710用于获取至少一个第一训练样本，所述第一训练样本包括第一用户的属性信息和第一推荐对象的信息。处理单元720用于通过插补模型对第一用户的属性信息和第一推荐对象的信息进行处理，获取第一训练样本的插补预测标签，插补预测标签用于表示向第一用户推荐第一推荐对象时，第一用户是否对第一推荐对象有操作动作的预测；其中，插补模型的模型参数是基于至少一个第二训练样本进行训练得到的，至少一个第二训练样本包括第二用户的属性信息和第二推荐对象的信息以及第二训练样本的样本标签，第二训练样本的样本标签用于表示第二用户是否对第二推荐对象有操作动作，第二训练样本是在当第二推荐对象为随机展示给第二用户的情况下获得的。处理单元720还用于以第一训练样本的第一用户的属性信息和第一推荐对象的信息作为所述推荐模型的输入，以第一训练样本的插补预测标签作为推荐模型的目标输出值进行训练，得到训练后的推荐模型。

可选地，作为一个实施例，获取单元710还用于获取至少一个第三训练样本，第三训练样本包括第三用户的属性信息和第三推荐对象的信息以及第三训练样本的样本标签，第三训练样本的样本标签用于表示第三用户是否对第三推荐对象有操作动作。处理单元720 还用于以第一用户的属性信息和第一推荐对象的信息以及第三用户的属性信息和第三推荐对象的信息作为推荐模型的输入，以第一训练样本的插补预测标签和第三训练样本的样本标签作为所述推荐模型的目标输出值基于目标训练模型进行训练，得到训练后的推荐模型。

可选地，作为一个实施例，第一训练样本可以为当第一推荐对象没有被展示给第一用户的情况下获得的，第三训练样本可以为当第三推荐对象被展示给第三用户的情况下获得的。

可选地，作为一个实施例，目标训练模型包括第一损失函数和第二损失函数，所述第一损失函数用于指示所述第一训练样本的插补预测标签与所述第一训练样本的预测标签之间的差异，所述第二损失函数用于指示所述第三训练样本的样本标签与所述第三训练样本的预测标签之间的差异。

可选地，作为一个实施例，目标训练模型为：

为所述第一训练样本，

表示训练样本x ^l的预测标签，

表示所述第二损失函数，

可选地，作为一个实施例，插补模型是根据所述第二训练样本的数量选择的。

图11是本申请实施例提供的推荐装置800的示意性框图。图11所示的推荐装置800包括获取单元810和处理单元820。

获取单元810和处理单元820可以用于执行本申请实施例的推荐方法，具体地，获取单元810可以执行上述步骤610，处理单元820可以执行上述步骤620。

获取单元810用于获取目标推荐用户的属性信息和候选推荐对象的信息；处理单元820用于将所述目标推荐用户的属性信息和所述候选推荐对象的信息输入至推荐模型，预测所述目标推荐用户对所述候选推荐对象有操作动作的概率。推荐模型的模型参数是通过以第一训练样本的第一用户的属性信息和第一推荐对象的信息作为所述推荐模型的输入，以所述第一训练样本的插补预测标签作为所述推荐模型的目标输出值进行训练得到的；所述第一训练样本的插补预测标签是通过插补模型对所述第一用户的属性信息和所述第一推荐对象的信息进行处理得到的，所述插补预测标签用于表示向所述第一用户推荐所述第一推荐对象时，所述第一用户是否对所述第一推荐对象有操作动作的预测，所述插补模型的模型参数是基于至少一个第二训练样本进行训练得到的，所述第二训练样本包括第二用户的属性信息和第二推荐对象的信息以及第二训练样本的样本标签，所述第二训练样本的样本标签用于表示所述第二用户是否对所述第二推荐对象有操作动作，所述第二训练样本是在当所述第二推荐对象为随机展示给所述第二用户的情况下获得的。

可选地，作为一个实施例，推荐模型的模型参数是通过以第一训练样本的第一用户的属性信息和第一推荐对象的信息作为所述推荐模型的输入，以所述第一训练样本的插补预测标签作为所述推荐模型的目标输出值进行训练得到的，包括：推荐模型的模型参数是以所述第一用户的属性信息和所述第一推荐对象的信息以及第三训练样本的第三用户的属性信息和第三推荐对象的信息作为推荐模型的输入，以所述第一训练样本的插补预测标签和所述第三训练样本的样本标签作为所述推荐模型的目标输出值基于目标训练模型得到的，其中，所述第三训练样本的样本标签用于表示所述第三用户是否对所述第三推荐对象有操作动作。

可选地，作为一个实施例，所述目标训练模型包括第一损失函数和第二损失函数，所述第一损失函数用于指示所述第一类训练样本的样本标签与所述第一类训练样本的预测标签之间的差异，所述第二损失函数用于指示所述第二类训练样本的插补预测标签与所述第二类训练样本的预测标签之间的差异。

可选地，作为一个实施例，目标训练模型为：

为所述第一训练样本，

表示训练样本x ^l的预测标签，

表示所述第二损失函数，

可选地，作为一个实施例，所述插补模型是根据所述第二训练样本的数量选择的。

需要说明的是，上述训练装置700以及装置800以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现，对此不作具体限定。

例如，“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。

因此，在本申请的实施例中描述的各示例的单元，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

图12是本申请实施例提供的一种推荐模型的训练装置的硬件结构示意图。图12所示的训练装置900(该装置900具体可以是一种计算机设备)包括存储器901、处理器902、通信接口903以及总线904。其中，存储器901、处理器902、通信接口903通过总线1004实现彼此之间的通信连接。

存储器901可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器901可以存储程序，当存储器901中存储的程序被处理器902执行时，处理器902用于执行本申请实施例的推荐模型的训练方法的各个步骤，例如，执行图5或图6所示的各个步骤。

应理解，本申请实施例所示的训练装置可以是服务器，例如，可以是云端的服务器，或者，也可以是配置于云端的服务器中的芯片。

处理器902可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请方法实施例的推荐模型的训练方法。

处理器902还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的推荐模型的训练方法的各个步骤可以通过处理器902中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器902还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器901，处理器902读取存储器901中的信息，结合其硬件完成本申请实施中图9所示的训练装置中包括的单元所需执行的功能，或者，执行本申请方法实施例的图5或图6所示的推荐模型的训练方法。

通信接口903使用例如但不限于收发器一类的收发装置，来实现训练装置900与其他设备或通信网络之间的通信。

总线904可包括在训练装置900各个部件(例如，存储器901、处理器902、通信接口903)之间传送信息的通路。

图13是本申请实施例提供的推荐装置的硬件结构示意图。图13所示的推荐装置1000(该装置1000具体可以是一种计算机设备)包括存储器1001、处理器1002、通信接口1003以及总线004。其中，存储器1001、处理器1002、通信接口1003通过总线1004实现彼此之间的通信连接。

存储器1001可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器1001可以存储程序，当存储器1001中存储的程序被处理器1002执行时，处理器1002用于执行本申请实施例的推荐方法的各个步骤，例如，执行图8所示的各个步骤。

应理解，本申请实施例所示的装置可以是智能终端，或者，也可以是配置于智能终端中的芯片。

处理器1002可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请方法实施例的预测选择概率的方法。

处理器1002还可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，本申请的预测选择概率的方法的各个步骤可以通过处理器1002中的硬件的集成逻辑电路或者软件形式的指令完成。

上述处理器1002还可以是通用处理器、数字信号处理器(digital signal processing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器1001，处理器1002读取存储器1001中的信息，结合其硬件完成本申请实施中图10所示的装置中包括的单元所需执行的功能，或者，执行本申请方法实施例的图8所示的推荐方法。

通信接口1003使用例如但不限于收发器一类的收发装置，来实现装置1000与其他设备或通信网络之间的通信。

总线1004可包括在装置1000各个部件(例如，存储器1001、处理器1002、通信接口1003)之间传送信息的通路。

应注意，尽管上述训练装置900和装置1000仅仅示出了存储器、处理器、通信接口，但是在具体实现过程中，本领域的技术人员应当理解，训练装置900和装置1000还可以包括实现正常运行所必须的其他器件。同时，根据具体需要本领域的技术人员应当理解，上述训练装置900和装置1000还可包括实现其他附加功能的硬件器件。此外，本领域的技术人员应当理解，上述训练装置900和装置1000也可仅仅包括实现本申请实施例所必需的器件，而不必包括图12或图13中所示的全部器件。

还应理解，本申请实施例中，该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。处理器的一部分还可以包括非易失性随机存取存储器。例如，处理器还可以存储设备类型的信息。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(USB flash disk，UFD)，UFD也可以简称为U盘或者优盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种推荐模型的训练方法，其特征在于，包括：

获取至少一个第一训练样本，所述第一训练样本包括第一用户的属性信息和第一推荐对象的信息；

通过插补模型对所述第一用户的属性信息和所述第一推荐对象的信息进行处理，获取所述第一训练样本的插补预测标签，所述插补预测标签用于表示向所述第一用户推荐所述第一推荐对象时，所述第一用户是否对所述第一推荐对象有操作动作的预测；

其中，所述插补模型的模型参数是基于至少一个第二训练样本进行训练得到的，所述第二训练样本包括第二用户的属性信息和第二推荐对象的信息以及所述第二训练样本的样本标签，所述第二训练样本的样本标签用于表示所述第二用户是否对所述第二推荐对象有操作动作，所述第二训练样本是在当所述第二推荐对象为随机展示给所述第二用户的情况下获得的；

以所述第一用户的属性信息和所述第一推荐对象的信息作为推荐模型的输入，以所述第一训练样本的插补预测标签作为所述推荐模型的目标输出值进行训练，得到训练后的推荐模型。
如权利要求1所述的方法，其特征在于，所述方法还包括：

获取至少一个第三训练样本，所述第三训练样本包括第三用户的属性信息和第三推荐对象的信息以及所述第三训练样本的样本标签，所述第三训练样本的样本标签用于表示所述第三用户是否对所述第三推荐对象有操作动作，以及

所述以所述第一用户的属性信息和所述第一推荐对象的信息作为推荐模型的输入，以所述第一训练样本的插补预测标签作为所述推荐模型的目标输出值进行训练，得到训练后的推荐模型，包括：

以所述第一用户的属性信息和所述第一推荐对象的信息以及所述第三用户的属性信息和所述第三推荐对象的信息作为推荐模型的输入，以所述第一训练样本的插补预测标签和所述第三训练样本的样本标签作为所述推荐模型的目标输出值基于目标训练模型进行训练，得到训练后的推荐模型。
如权利要求2所述的方法，其特征在于，所述目标训练模型包括第一损失函数和第二损失函数，所述第一损失函数用于指示所述第一训练样本的插补预测标签与所述第一训练样本的预测标签之间的差异，所述第二损失函数用于指示所述第三训练样本的样本标签与所述第三训练样本的预测标签之间的差异。
如权利要求3所述的方法，其特征在于，所述目标训练模型为：

其中，W为所述推荐模型的参数，R(W)为正则项，λ表示决定正则项权重的超参，训练样本集
中的训练样本x ¹至训练样本x ^L为所述第三训练样本，训练样本x ^L+1至训练样本
为所述第一训练样本，
表示所述训练样本集中的训练样本的数量，L表示所述训练样本集中的所述第三训练样本的数量，σ _l表示训练样本x ^l的插补预测标签σ(x ^l)，y _l表示训练样本x ^l的样本标签，
表示训练样本x ^l的预测标签，
表示所述第二损失函数，
表示所述第一损失函数，ω为超参数，用于调节所述第一损失函数和所述第二损失函数的比重。
如权利要求1至4任一项所述的方法，其特征在于，所述插补模型是根据所述第二训练样本的数量选择的。
一种推荐方法，其特征在于，包括：

获取目标推荐用户的属性信息和候选推荐对象的信息；

将所述目标推荐用户的属性信息和所述候选推荐对象的信息输入至推荐模型，预测所述目标推荐用户对所述候选推荐对象有操作动作的概率；

其中，所述推荐模型的模型参数是通过以第一训练样本的第一用户的属性信息和第一推荐对象的信息作为所述推荐模型的输入，以所述第一训练样本的插补预测标签作为所述推荐模型的目标输出值进行训练得到的；所述第一训练样本的插补预测标签是通过插补模型对所述第一用户的属性信息和所述第一推荐对象的信息进行处理得到的，所述插补预测标签用于表示向所述第一用户推荐所述第一推荐对象时，所述第一用户是否对所述第一推荐对象有操作动作的预测，所述插补模型的模型参数是基于第二训练样本进行训练得到的，所述第二训练样本包括第二用户的属性信息和第二推荐对象的信息以及第二训练样本的样本标签，所述第二训练样本的样本标签用于表示所述第二用户是否对所述第二推荐对象有操作动作，所述第二训练样本是在当所述第二推荐对象为随机展示给所述第二用户的情况下获得的。
如权利要求6所述的方法，其特征在于，所述推荐模型的模型参数是通过以第一训练样本的第一用户的属性信息和第一推荐对象的信息作为所述推荐模型的输入，以所述第一训练样本的插补预测标签作为所述推荐模型的目标输出值进行训练得到的，包括

所述推荐模型的模型参数是以所述第一用户的属性信息和所述第一推荐对象的信息以及第三训练样本的第三用户的属性信息和第三推荐对象的信息作为推荐模型的输入，以所述第一训练样本的插补预测标签和所述第三训练样本的样本标签作为所述推荐模型的目标输出值基于目标训练模型得到的，其中，所述第三训练样本的样本标签用于表示所述第三用户是否对所述第三推荐对象有操作动作。
如权利要求7所述的方法，其特征在于，所述目标训练模型包括第一损失函数和第二损失函数，所述第一损失函数用于指示所述第一训练样本的插补预测标签与所述第一训练样本的预测标签之间的差异，所述第二损失函数用于指示所述第三训练样本的样本标签与所述第三训练样本的预测标签之间的差异。
如权利要求8所述的方法，其特征在于，所述目标训练模型为：

其中，W为所述推荐模型的参数，R(W)为正则项，λ表示决定正则项权重的超参，训练样本集
中的训练样本x ¹至训练样本x ^L为所述第三训练样本，训练样本x ^L+1至训练样本
为所述第一训练样本，
表示所述训练样本集中的训练样本的数量，L表示所述训练样本集中的所述第三训练样本的数量，σ _l表示训练样本x ^l的插补预测标签σ(x ^l)，y _l表示训练样本x ^l的样本标签，
表示训练样本x ^l的预测标签，
表示所述第二损失函数，
表示所述第一损失函数，ω为超参数，用于调节所述第一损失函数和所述第二损失函数的比重。
如权利要求6至9任一项所述的方法，其特征在于，所述插补模型是根据所述第二训练样本的数量选择的。
一种推荐模型的训练装置，其特征在于，包括：

获取单元，用于获取至少一个第一训练样本，所述第一训练样本包括第一用户的属性信息和第一推荐对象的信息；

处理单元，通过插补模型对所述第一用户的属性信息和所述第一推荐对象的信息进行处理，获取所述第一训练样本的插补预测标签，所述插补预测标签是用于表示向所述第一用户推荐所述第一推荐对象时，所述第一用户是否对所述第一推荐对象有操作动作的预测；

其中，所述插补模型的模型参数是基于至少一个第二训练样本进行训练得到的，所述第二训练样本包括第二用户的属性信息和第二推荐对象的信息以及第二训练样本的样本标签，所述第二训练样本的样本标签用于表示所述第二用户是否对所述第二推荐对象有操作动作，所述第二训练样本是在当所述第二推荐对象为随机展示给所述第二用户的情况下获得的；以及

所述处理单元，还用于以所述第一训练样本的所述第一用户的属性信息和所述第一推荐对象的信息作为推荐模型的输入，以所述第一训练样本的插补预测标签作为所述推荐模型目标输出值进行训练，得到训练后的推荐模型。
如权利要求11所述的训练装置，其特征在于，所述获取单元还用于

获取至少一个第三训练样本，所述第三训练样本包括第三用户的属性信息和第三推荐对象的信息以及所述第三训练样本的样本标签，所述第三训练样本的样本标签用于表示所述第三用户是否对所述第三推荐对象有操作动作，以及所述处理单元用于

以所述第一用户的属性信息和所述第一推荐对象的信息以及所述第三用户的属性信息和所述第三推荐对象的信息作为推荐模型的输入，以所述第一训练样本的插补预测标签和所述第三训练样本的样本标签作为所述推荐模型的目标输出值基于目标训练模型进行训练，得到训练后的推荐模型。
如权利要求12所述的训练装置，其特征在于，所述目标训练模型包括第一损失函数和第二损失函数，所述第一损失函数用于指示所述第一训练样本的插补预测标签与所述第一训练样本的预测标签之间的差异，所述第二损失函数用于指示所述第三训练样本的样本标签与所述第三训练样本的预测标签之间的差异。
如权利要求13所述的训练装置，其特征在于，所述目标训练模型为：

其中，W为所述推荐模型的参数，R(W)为正则项，λ表示决定正则项权重的超参，训练样本集
中的训练样本x ¹至训练样本x ^L为所述第三训练样本，训练样本x ^L+1至训练样本
为所述第一训练样本，
表示所述训练样本集中的训练样本的数量，L表示所述训练样本集中的所述第三训练样本的数量，σ _l表示训练样本x ^l的插补预测标签σ(x ^l)，y _l表示训练样本x ^l的样本标签，
表示训练样本x ^l的预测标签，
表示所述第二损失函数，
表示所述第一损失函数，ω为超参数，用于调节所述第一损失函数和所述第二损失函数的比重。
如权利要求11至14任一项所述的训练装置，其特征在于，所述插补模型是根据所述第二训练样本的数量选择的。
一种推荐装置，其特征在于，包括：

获取单元，用于获取目标推荐用户的属性信息和候选推荐对象的信息；

处理单元，用于将所述目标推荐用户的属性信息和所述候选推荐对象的信息输入至推荐模型，预测所述目标推荐用户对所述候选推荐对象有操作动作的概率；

其中，所述推荐模型的模型参数是通过以第一训练样本的第一用户的属性信息和第一推荐对象的信息作为所述推荐模型的输入，以所述第一训练样本的插补预测标签作为所述推荐模型的目标输出值进行训练得到的；所述第一训练样本的插补预测标签是通过插补模型对所述第一用户的属性信息和所述第一推荐对象的信息进行处理得到的，所述插补预测标签用于表示向所述第一用户推荐所述第一推荐对象时，所述第一用户是否对所述第一推荐对象有操作动作的预测，所述插补模型的模型参数是基于第二训练样本进行训练得到的，所述第二训练样本包括第二用户的属性信息和第二推荐对象的信息以及第二训练样本的样本标签，所述第二训练样本的样本标签用于表示所述第二用户是否对所述第二推荐对象有操作动作，所述第二训练样本是在当所述第二推荐对象为随机展示给所述第二用户的情况下获得的。
如权利要求16所述的推荐装置，其特征在于，所述推荐模型的模型参数是通过以第一训练样本的第一用户的属性信息和第一推荐对象的信息作为所述推荐模型的输入，以所述第一训练样本的插补预测标签作为所述推荐模型的目标输出值进行训练得到的，包括，

所述推荐模型的模型参数是以所述第一用户的属性信息和所述第一推荐对象的信息以及第三训练样本的第三用户的属性信息和第三推荐对象的信息作为推荐模型的输入，以所述第一训练样本的插补预测标签和所述第三训练样本的样本标签作为所述推荐模型的目标输出值基于目标训练模型得到的，其中，所述第三训练样本的样本标签用于表示所述第三用户是否对所述第三推荐对象有操作动作。
如权利要求17所述的推荐装置，其特征在于，所述目标训练模型包括第一损失函数和第二损失函数，所述第一损失函数用于指示所述第一训练样本的插补预测标签与所述第一训练样本的预测标签之间的差异，所述第二损失函数用于指示所述第三训练样本的样本标签与所述第三训练样本的预测标签之间的差异。
如权利要求18所述的推荐装置，其特征在于，所述目标训练模型为：

其中，W为所述推荐模型的参数，R(W)为正则项，λ表示决定正则项权重的超参，训练样本集
中的训练样本x ¹至训练样本x ^L为所述第三训练样本，训练样本x ^L+1至训练样本
为所述第一训练样本，
表示所述训练样本集中的训练样本的数量，L表示所述训练样本集中的所述第三训练样本的数量，σ _l表示训练样本x ^l的插补预测标签σ(x ^l)，y _l表示训练样本x ^l的样本标签，
表示训练样本x ^l的预测标签，
表示所述第二损失函数，
表示所述第一损失函数，ω为超参数，用于调节所述第一损失函数和所述第二损失函数的比重。
如权利要求16至19任一项所述的推荐装置，其特征在于，所述插补模型是根据所述第二训练样本的数量选择的。
一种推荐模型的训练装置，其特征在于，包括至少一个处理器和存储器，所述至少一个处理器与所述存储器耦合，用于读取并执行所述存储器中的指令，以执行如权利要求1至5中任一项所述的训练方法。
一种推荐装置，其特征在于，包括至少一个处理器和存储器，所述至少一个处理器与所述存储器耦合，用于读取并执行所述存储器中的指令，以执行如权利要求6至10中任一项所述的推荐方法。
一种计算机可读介质，其特征在于，所述计算机可读介质存储有程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如权利要求1至5中任一项所述的训练方法。
一种计算机可读介质，其特征在于，所述计算机可读介质存储有程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如权利要求6至10中任一项所述的推荐方法。