WO2023174099A1

WO2023174099A1 - 推荐模型的训练方法以及物品推荐方法、系统和相关设备

Info

Publication number: WO2023174099A1
Application number: PCT/CN2023/080078
Authority: WO
Inventors: 张晓颖; 李航
Original assignee: 北京有竹居网络技术有限公司
Priority date: 2022-03-18
Filing date: 2023-03-07
Publication date: 2023-09-21
Also published as: CN114579866A

Abstract

本公开涉及一种推荐模型的训练方法以及物品推荐方法、系统和相关设备。推荐模型的训练方法包括：利用推荐模型，对包括用户的特征和物品的特征的、用于训练的数据进行处理，获得类别无关表征和类别相关表征，用于训练的数据预先标记有推荐信息、以及物品的类别；利用判别器，分别对类别无关表征和类别相关表征进行处理，以获得相应的判别结果，其中，判别结果表示判别器所处理的表征与多个类别的相关性；根据类别无关表征或类别相关表征中的至少一个，确定预测结果；以类别无关表征不对应多个类别中的任意一个、类别相关表征对应预先标记的类别、以及预测结果与预先标记的推荐信息匹配为训练目标，对推荐模型和判别器进行训练。

Description

推荐模型的训练方法以及物品推荐方法、系统和相关设备

相关申请的交叉引用

本申请是以中国申请号为202210268805.9，申请日为2022年3月18日的申请为基础，并主张其优先权，该中国申请的公开内容在此作为整体引入本申请中。

技术领域

本公开涉及机数据处理领域，特别涉及一种推荐模型的训练方法以及物品推荐方法、系统和相关设备。

背景技术

在信息推荐技术中，推荐准确性(recommendation accuracy)和推荐多样性(recommendation diversity)是两种不同的目标。以推荐准确性为主要优化目标的推荐算法倾向推荐比较热门的商品(popular item)或者热门类别中的商品(item in popular category)。以推荐多样性为主要优化目标的推荐算法倾向要求推荐结果覆盖越多类越好(diversifying across all item categories)。

目前，解决推荐多样性的方法主要以下三类。

第一类是以行列式点过程方法(Determinantal Point Process，简称：DPP)、最大边际相关性方法(Maximal Marginal Relevance，简称：MMR)为代表的排列(post-ranking)算法，其以多样性为目标，对推荐算法产出的前K个商品重新排序。

第二类是排序学习(Learning to Rank，简称：LTR)推荐算法，其直接推荐一个商品列表给用户。

第三类是纠偏推荐算法，其主要通过去除类别特征(Unawareness)、逆概率加权法(IPS)或者去除混淆因素(DecRS)来避免推荐算法推荐更多热门商品或者热门类别中的商品。

发明内容

根据本公开一些实施例的第一个方面，提供一种推荐模型的训练方法，包括：利用推荐模型，对包括用户的特征和物品的特征的、用于训练的数据进行处理，获得类别无关表征和类别相关表征，用于训练的数据预先标记有推荐信息、以及物品的类别；利用判别器，分别对类别无关表征和类别相关表征进行处理，以获得相应的判别结果，其中，判别结果表示判别器所处理的表征与多个类别的相关性；根据类别无关表征或类别相关表征中的至少一个，确定预测结果；以类别无关表征不对应多个类别中的任意一个、类别相关表征对应预先标记的类别、以及预测结果与预先标记的推荐信息匹配为训练目标，对推荐模型和判别器进行训练。

在一些实施例中，判别器的判别结果具有与多个类别一一对应的多个维度，每个维度的值表示判别器所处理的表征与相应类别相关的概率。

在一些实施例中，对推荐模型和判别器进行训练包括：根据利用判别器对类别无关表征的判别结果、与类别无关目标结果，确定第一损失值，其中，在类别无关目标结果中，每个维度的值低于低门限；利用第一损失值，对推荐模型和判别器的参数进行调整。

在一些实施例中，确定预测结果包括：利用第一映射模型对类别无关表征进行处理，获得第一预测结果；对推荐模型和判别器进行训练还包括：根据第一预测结果和预先标记的推荐信息，确定第二损失值，以便利用第一损失值和第二损失值，对推荐模型、判别器和第一映射模型的参数进行调整。

在一些实施例中，对推荐模型和判别器进行训练包括：根据利用判别器对类别相关表征的判别结果、与类别相关目标结果，确定第三损失值，其中，在类别相关目标结果中，预先标记的类别对应的维度的值高于高门限、其他维度的值低于低门限；利用第三损失值，对推荐模型和判别器的参数进行调整。

在一些实施例中，确定预测结果包括：利用第二映射模型对类别无关表征和类别相关表征进行处理，获得第二预测结果；对推荐模型和判别器进行训练还包括：根据第二预测结果和预先标记的推荐信息，确定第四损失值，以便利用第三损失值和第四损失值，对推荐模型、判别器和第二映射模型的参数进行调整。

在一些实施例中，在对推荐模型、判别器和第二映射模型的参数进行调整的过程中，保持类别无关表征的值不变。

在一些实施例中，推荐信息表示用户是否对物品进行反馈。

根据本公开一些实施例的第二个方面，提供一种物品推荐方法，包括：利用推荐模型，对包括目标用户的特征和备选物品的特征的、待测的数据进行处理，获得类别无关表征和类别相关表征；根据待测的数据，确定待测的数据的预测结果；根据待测的数据的预测结果，确定是否为目标用户推荐备选物品。

在一些实施例中，备选物品位于备选物品集合，并且确定是否为目标用户推荐备选物品包括：确定待测的数据的预测结果在备选物品集合中所有物品对应的预测结果中的参考排名；在参考排名高于参考排名的情况下，为目标用户推荐备选物品。

在一些实施例中，推荐模型是通过前述任意一种推荐模型的训练方法训练的。

根据本公开一些实施例的第三个方面，提供一种推荐模型的训练装置，包括：表征获得模块，被配置为利用推荐模型，对包括用户的特征和物品的特征的、用于训练的数据进行处理，获得类别无关表征和类别相关表征，用于训练的数据预先标记有推荐信息、以及物品的类别；判别模块，被配置为利用判别器，分别对类别无关表征和类别相关表征进行处理，以获得相应的判别结果，其中，判别结果表示判别器所处理的表征与多个类别的相关性；预测模块，被配置为根据类别无关表征或类别相关表征中的至少一个，确定预测结果；训练模块，被配置为以类别无关表征不对应多个类别中的任意一个、类别相关表征对应预先标记的类别、以及预测结果与预先标记的推荐信息匹配为训练目标，对推荐模型和判别器进行训练。

根据本公开一些实施例的第四个方面，提供一种物品推荐装置，包括：表征获得模块，被配置为利用推荐模型，对包括目标用户的特征和备选物品的特征的、待测的数据进行处理，获得类别无关表征和类别相关表征；预测模块，被配置为根据待测的数据中的类别无关表征和类别相关表征，确定待测的数据的预测结果；推荐模块，被配置为根据待测的数据的预测结果，确定是否为目标用户推荐备选物品。

根据本公开一些实施例的第五个方面，提供种物品推荐系统，包括：前述推荐模型的训练装置；以及，前述物品推荐装置。

根据本公开一些实施例的第六个方面，提供一种电子设备，包括：存储器；以及耦接至存储器的处理器，处理器被配置为基于存储在存储器中的指令，执行前述任意一种方法。

根据本公开一些实施例的第七个方面，提供一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现前述任意一种方法。

根据本公开一些实施例的第八个方面，提供一种程序，包括指令，所述指令当由处理器执行时使所述处理器执行前述任意一种方法。

通过以下参照附图对本公开的示例性实施例的详细描述，本公开的其它特征及其优点将会变得清楚。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了根据本公开一些实施例的推荐模型的训练方法的流程示意图。

图2示出了根据本公开一些实施例的基于类别无关表征的训练方法的流程示意图。

图3示出了根据本公开一些实施例的基于类别相关表征的训练方法的流程示意图。

图4示出了根据本公开一些实施例的物品推荐方法的流程示意图。

图5示出了预测时的数据处理过程示意图。

图6示出了根据本公开一些实施例的推荐模型的训练装置的结构示意图。

图7示出了根据本公开一些实施例的物品推荐装置的结构示意图。

图8示出了根据本公开一些实施例的物品推荐系统的结构示意图。

图9示出了根据本公开另一些实施例的电子设备的结构示意图。

图10示出了根据本公开另一些实施例的电子设备的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为授权说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

发明人经过分析后发现，以推荐准确性为主要优化目标的推荐算法倾向推荐比较热门的商品或者热门类别中的商品，导致推荐结果多样性变差。并且，由于反馈循环(feedback loop)的存在，推荐结果的多样性进一步变差，导致信息茧房等问题。

然而，如果单纯地提高推荐多样性，即要求推荐结果覆盖越多类越好，会很大程度地降低推荐准确性并影响用户体验。

因此，本公开实施例所要解决的一个技术问题是：如何同时提升推荐准确性和推荐多样性。

图1示出了根据本公开一些实施例的推荐模型的训练方法的流程示意图。如图1所示，该实施例的推荐模型的训练方法包括步骤S102～S108。

在步骤S102中，利用推荐模型，对包括用户的特征和物品的特征的、用于训练的数据进行处理，获得类别无关表征和类别相关表征，用于训练的数据预先标记有推荐信息、以及物品的类别。

例如，将用于训练的数据输入到推荐模型中，获得输出表征，输出表征包括类别无关表征和类别相关表征。

推荐模型的输出表征包括类别无关表征和类别相关表征。例如，采用多维向量表示输出表征，输出表征的第1至M维表示类别无关表征、第M+1至N维表示类别相关表征，或者，输出表征的第1至M维表示类别相关表征、第M+1至N维表示类别无关表征，M和N为正整数且M<N。

类别无关表征用于从用户特征和物品特征中提取通用于各个类别的表征(representation)，从而可以提升推荐的多样性；类别相关表征用于确定用户所感兴趣的类别，以提高推荐的准确性。从而，二者联合构成的输出表征能够用于从用户感兴趣的类别中推荐多样化的物品。

在初始阶段，推荐模型的输出表征可能无法较准确地将类别无关表征和类别相关表征进行分离。而经过后续的训练过程后，推荐模型输出表征的准确性能够得到提升，即，将类别无关表征和类别相关表征进行分离的准确性能够得到提升。

用于训练的数据预先标记有推荐信息、以及物品的类别。

推荐信息表示是否为用户推荐物品。在一些实施例中，推荐信息表示用户是否对物品进行反馈，该反馈例如包括点击物品、收藏物品或购买物品等等。例如，如果用户对物品进行了反馈，则使用1标记；如果用户未对物品进行反馈，则使用0标记。

在对训练数据进行标记时，可以根据已知的用户对物品的反馈来确定推荐信息，例如根据用户在电子商务平台的历史数据、浏览数据、或操作数据等确定。物品除了可以为电子商务平台的商品、即实体物品以外，还可以是网站或应用中的文章、音乐、电影等虚拟物品。

在步骤S104中，利用判别器，分别对类别无关表征和类别相关表征进行处理，以获得相应的判别结果，其中，判别结果表示判别器所处理的表征与多个类别的相关性。

例如，分别将类别无关表征和类别相关表征输入到判别器中，获得相应的判别结果。

当判别结果表示，判别器所处理的表征与每个类别的相关性都非常低时(例如相关性低于下限、或者相关性为0)，则可以确定该表征不对应任意一个类别；当判别结果表示，判别器所处理的表征与多个类别中的至少部分类别存在一定的相关性(例如相关性高于上限、或者相关性不为0)，则可以将其中相关性最高的一个或多个类别确定为该表征对应的类别。

在一些实施例中，判别器的判别结果具有与多个类别一一对应的多个维度，每个维度的值表示判别器所处理的表征与相应类别相关的概率。例如，存在C个物品类别，则判别器的判别结果可以是具有C个维度的向量。

在步骤S106中，根据类别无关表征或类别相关表征中的至少一个，确定预测结果。

在一些实施例中，采用映射模型获得预测结果。映射模型例如为一个全连接层，用于将多个维度的数据映射为数值。

该预测结果与预先标记的推荐信息是对应的，用于表示向用户推荐物品的推荐程度。例如，假设推荐信息表示用户是否对物品进行反馈，如果用户对物品进行了反馈，则使用1标记；如果用户未对物品进行反馈，则使用0标记。那么预测结果可以表示用户对物品进行反馈的概率，该概率越大、则推荐程度越高。

在一些实施例中，在基于类别无关表征进行训练时，根据类别无关表征确定预测结果。例如，将类别无关表征输入到第一映射模型中，得到第一预测结果，其中，第一映射模型的输入数据的维度数等于类别无关表征的维度数。

在一些实施例中，在基于类别相关表征进行训练时，根据类别无关表征和类别相关表征确定预测结果。例如，将推荐模型的输出表征(包括类别无关表征和类别相关表征)输入到第二映射模型中，得到第二预测结果，其中，第二映射模型的输入数据的维度数等于类别无关表征和类别相关表征的维度数的总和，即，等于推荐模型的输出表征的维度数。

在步骤S108中，以类别无关表征不对应多个类别中的任意一个、类别相关表征对应预先标记的类别、以及预测结果与预先标记的推荐信息匹配为训练目标，对推荐模型和判别器进行训练。

例如，基于训练目标确定损失值，并通过反向传播算法调整推荐模型和判别器的参数。

上述训练过程基于对抗学习的方法。该训练过程可以是迭代执行的。例如，利用一批训练数据，基于上述训练目标对推荐模型和判别器的参数进行一次调整后，推荐模型和判别器的预测准确性都得到了提升。当判别器能够更准确地判别所处理的表征与类别的相关性时，能够在利用下一批训练数据调整参数的过程中，促使推荐模型更准确地分离类别相关表征和类别无关表征，从而推荐模型的预测效果也得到了提升。

在上述实施例中，推荐模型在输出表征时，基于将类别无关表征和类别相关表征进行分离的目标进行训练，可以同时提升推荐模型的推荐多样性和准确性。该过程没有额外增加复杂度、也没有引入与用户和物品无关的噪声，并且充分利用了物品类别这一重要的信息，从而具备较好的训练效果。

下面分别基于类别无关表征和类别相关表征，描述在获得类别无关表征和类别相关表征后的训练方法。

图2示出了根据本公开一些实施例的基于类别无关表征的训练方法的流程示意图。如图2所示，该实施例的训练方法包括步骤S202～S208。

在步骤S202中，根据利用判别器对类别无关表征的判别结果、与类别无关目标结果，确定第一损失值，其中，在类别无关目标结果中，每个维度的值低于低门限。

例如，类别无关目标结果为(0,0,…,0)，即，理想情况是类别无关表征与每个类别都不相关。然后，可以根据判别结果和类别无关目标结果的差距确定第一损失值，该差距例如通过交叉熵来衡量。

然后，可以利用第一损失值，对推荐模型和判别器的参数进行调整。

通过利用第一损失值调整推荐模型和判别器的参数，一方面使得推荐模型能够更准确地分离出类别无关表征，另一方面也提高了判别器识别输入表征与类别相关性的准确度。

在一些实施例中，在进行参数调整时，还结合推荐模型的预测准确性，例如通过步骤S204～S208实现。

在步骤S204中，利用第一映射模型对类别无关表征进行处理，获得第一预测结果。例如，将类别无关表征输入到第一映射模型。

在一些实施例中，第一映射模型的输入数据的维度数等于类别无关表征的维度数。第一映射模型例如为第一全连接层。

在步骤S206中，根据第一预测结果和预先标记的推荐信息，确定第二损失值。

例如，计算第一预测结果和预先标记的推荐信息的交叉熵，获得第二损失值。

在步骤S208中，利用第一损失值和第二损失值，对推荐模型、判别器和第一映射模型的参数进行调整。

上述实施例利用第一损失值和第二损失值调整推荐模型、判别器和第一映射模型的参数，即，通过两个优化目标进行训练，第一个优化目标是判别器判别类别无关表征不和多个类别中的任意一个相关，第二个优化目标是推荐模型可以用于正确地预测推荐信息，例如用户对物品的反馈。从而，能够提升判别器和推荐模型的准确率。并且，在训练过程中，第一映射模型的参数也在不断地进行优化，以便在迭代训练的过程中辅助得到更好的训练效果。

图3示出了根据本公开一些实施例的基于类别相关表征的训练方法的流程示意图。如图3所示，该实施例的训练方法包括步骤S302～S308。

在步骤S302中，根据利用判别器对类别相关表征的判别结果、与类别相关目标结果，确定第三损失值，其中，在类别相关目标结果中，预先标记的类别对应的维度的值高于高门限、其他维度的值低于低门限。

例如，设判别器的输出结果的第一维度、第二维度……分别对应多个类别中的第一类别、第二类别……。如果预先标记物品属于第一类别，则类别相关目标结果为(1,0,…,0)，即，理想情况是类别相关表征与第一类别相关、与其他类别都不相关。然后，可以根据判别结果和类别相关目标结果的差距确定第三损失值，该差距例如通过交叉熵来衡量。

然后，可以利用第三损失值，对推荐模型和判别器的参数进行调整。

通过利用第三损失值调整推荐模型和判别器的参数，一方面使得推荐模型能够更准确地分离出类别相关表征，另一方面也提高了判别器识别输入表征与类别相关性的准确度。

在一些实施例中，在进行参数调整时，还结合推荐模型的预测准确性，例如通过步骤S304～S308实现。

在步骤S304中，利用第二映射模型对类别无关表征和类别相关表征进行处理，获得第二预测结果。例如，将由类别无关表征和类别相关表征构成的表征输入到第二映射模型。

在一些实施例中，第二映射模型的输入数据的维度数等于由类别无关表征和类别相关表征构成的表征的维度数。第二映射模型例如为第二全连接层。

在步骤S306中，根据第二预测结果和预先标记的推荐信息，确定第四损失值。

例如，计算第二预测结果和预先标记的推荐信息的交叉熵，获得第四损失值。

在步骤S308中，利用第三损失值和第四损失值，对推荐模型、判别器和第二映射模型的参数进行调整。

在一些实施例中，在对推荐模型、判别器和第二映射模型的参数进行调整的过程中，保持类别无关表征的值不变。例如，在梯度下降的过程中，保持类别无关表征的值不变，从而避免类别无关表征对类别相关表征对应的优化过程产生影响。

上述实施例利用第三损失值和第四损失值调整推荐模型、判别器和第二映射模型的参数，即，通过两个优化目标进行训练，第一个优化目标是判别器能够正确预测类别相关表征所对应的类别，第二个优化目标是推荐模型可以用于正确地预测推荐信息，例如用户对物品的反馈。从而，能够提升判别器和推荐模型的准确率。并且，在训练过程中，第二映射模型的参数也在不断地进行优化，以便在迭代训练的过程中辅助得到更好的训练效果。

发明人利用上述实施例的方法进行了测试。表1-3示例性地示出了测试结果。在测试中，分别使用了数据集ML-1M(MovieLens 1M数据集)、ML-10M(MovieLens10M数据集)和Amazon-Books(亚马逊图书数据集)进行测试，并且对每个数据集，使用NFM、Unawareness、IPS、DecRS算法和本公开的方法，评价指标包括AUC(Area Under Curve，ROC曲线下方的面积大小)、UAUC(用户侧平均AUC)、Relalmpr(相对提升)和CE@5(前五名的类别熵)。

表1

通过表1中的各评价指标结果可见，本公开的方法可以同时提升推荐准确性和多样性。

表2

通过表2中的各评价指标的值可见，本公开能够更好地捕捉用户在同一类别下对物品的偏好。

表3

表3是对于用户未见过的类别的物品推荐测试结果。通过表3中的各评价指标的值可见，本公开的方法能够更好地预测用户对未见过类别的偏好。

下面参考图4描述本公开物品推荐方法的实施例。

图4示出了根据本公开一些实施例的物品推荐方法的流程示意图。如图4所示，该实施例的物品推荐方法包括步骤S402～S406。

在步骤S402中，利用推荐模型，对包括目标用户的特征和备选物品的特征的、待测的数据进行处理，获得类别无关表征和类别相关表征。

例如，将待测的数据输入到推荐模型中，获得输出表征，输出表征包括类别无关表征和类别相关表征。

在一些实施例中，例如从数据库中读取目标用户的特征和备选物品的特征。

在步骤S404中，根据待测的数据，确定待测的数据的预测结果。

在一些实施例中，利用映射模型对待测的数据进行处理以确定预测结果。映射模型例如为全连接层。

在一些实施例中，利用第二映射模型对待测的数据进行处理以确定预测结果。第二映射模型的确定方式例如参考前述实施例，这里不再赘述。

在步骤S406中，根据待测的数据的预测结果，确定是否为目标用户推荐备选物品。

在一些实施例中，将预测结果作为post-ranking算法的输入，以获得推荐结果。例如，确定待测的数据的预测结果在备选物品集合中所有物品对应的预测结果中的参考排名；在参考排名高于参考排名的情况下，为目标用户推荐备选物品。

图5示出了预测时的数据处理过程示意图。如图5所示，将用户的特征和物品的特征共同输入到推荐模型中，获得推荐模型输出的类别无关表征和类别相关表征，然后根据这两个表征得到预测结果。

在上述实施例中，推荐模型在输出表征时，将类别无关表征和类别相关表征进行分离，并基于该分离的表征进行推荐，从而可以同时提升推荐模型的推荐多样性和准确性。

在一些实施例中，可以在服务器端执行前述训练方法和推荐方法。在进行推荐时，服务器可以将确定的、为用户推荐的物品所对应的数据发送给用户的终端设备，从而终端设备可以为用户展示推荐结果。

可以理解的是，在使用本公开各实施例公开的技术方案之前，均应当依据相关法律法规通过恰当的方式对本公开所涉及的信息的类型、使用范围、使用场景等告知用户并获得用户的授权。

图6示出了根据本公开一些实施例的推荐模型的训练装置的结构示意图。如图6所示，该实施例的训练装置600包括：表征获得模块6100，被配置为利用推荐模型，对包括用户的特征和物品的特征的、用于训练的数据进行处理，获得类别无关表征和类别相关表征，用于训练的数据预先标记有推荐信息、以及物品的类别；判别模块6200，被配置为利用判别器，分别对类别无关表征和类别相关表征进行处理，以获得相应的判别结果，其中，判别结果表示判别器所处理的表征与多个类别的相关性；预测模块6300，被配置为根据类别无关表征或类别相关表征中的至少一个，确定预测结果；训练模块6400，被配置为以类别无关表征不对应多个类别中的任意一个、类别相关表征对应预先标记的类别、以及预测结果与预先标记的推荐信息匹配为训练目标，对推荐模型和判别器进行训练。

在一些实施例中，训练模块6400进一步被配置为根据利用判别器对类别无关表征的判别结果、与类别无关目标结果，确定第一损失值，其中，在类别无关目标结果中，每个维度的值低于低门限；利用第一损失值，对推荐模型和判别器的参数进行调整。

在一些实施例中，预测模块6300进一步被配置为利用第一映射模型对类别无关表征进行处理，获得第一预测结果；训练模块6400进一步被配置为根据第一预测结果和预先标记的推荐信息，确定第二损失值，以便利用第一损失值和第二损失值，对推荐模型、判别器和第一映射模型的参数进行调整。

在一些实施例中，训练模块6400进一步被配置为根据利用判别器对类别相关表征的判别结果、与类别相关目标结果，确定第三损失值，其中，在类别相关目标结果中，预先标记的类别对应的维度的值高于高门限、其他维度的值低于低门限；利用第三损失值，对推荐模型和判别器的参数进行调整。

在一些实施例中，预测模块6300进一步被配置为利用第二映射模型对类别无关表征和类别相关表征进行处理，获得第二预测结果；训练模块6400进一步被配置为根据第二预测结果和预先标记的推荐信息，确定第四损失值，以便利用第三损失值和第四损失值，对推荐模型、判别器和第二映射模型的参数进行调整。

在一些实施例中，训练模块6400进一步被配置为在对推荐模型、判别器和第二映射模型的参数进行调整的过程中，保持类别无关表征的值不变。

在一些实施例中，推荐信息表示用户是否对物品进行反馈。

图7示出了根据本公开一些实施例的物品推荐装置的结构示意图。如图7所示，该实施例的物品推荐装置700包括：表征获得模块7100，被配置为利用推荐模型，对包括目标用户的特征和备选物品的特征的、待测的数据进行处理，获得类别无关表征和类别相关表征；预测模块7200，被配置为根据待测的数据中的类别无关表征和类别相关表征，确定待测的数据的预测结果；推荐模块7300，被配置为根据待测的数据的预测结果，确定是否为目标用户推荐备选物品。

在一些实施例中，备选物品位于备选物品集合，并且推荐模块7300进一步被配置为确定待测的数据的预测结果在备选物品集合中所有物品对应的预测结果中的参考排名；在参考排名高于参考排名的情况下，为目标用户推荐备选物品。

在一些实施例中，推荐模型是利用前述任意一种推荐模型的训练装置600训练的。

在一些实施例中，表征获得模块6100和表征获得模块7100可以为同一个模块；预测模块6300和预测模块7200可以为同一个模块。

图8示出了根据本公开一些实施例的物品推荐系统的结构示意图。如图8所示，该实施例的物品推荐系统80包括推荐模型的训练装置600和物品推荐装置700。

图9示出了根据本公开另一些实施例的电子设备的结构示意图。如图9所示，该实施例的电子设备90包括：存储器910以及耦接至该存储器910的处理器920，处理器920被配置为基于存储在存储器910中的指令，执行前述任意一个实施例中的方法。

其中，存储器910例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

图10示出了根据本公开另一些实施例的电子设备的结构示意图。如图10所示，该实施例的电子设备100包括：存储器1010以及处理器1020，还可以包括输入输出接口1030、网络接口1040、存储接口1050等。这些接口1030，1040，1050以及存储器1010和处理器1020之间例如可以通过总线1060连接。其中，输入输出接口1030为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口1040为各种联网设备提供连接接口。存储接口1050为SD卡、U盘等外置存储设备提供连接接口。

本公开的实施例还提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现前述任意一种方法。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

一种推荐模型的训练方法，包括：

利用推荐模型，对包括用户的特征和物品的特征的、用于训练的数据进行处理，获得类别无关表征和类别相关表征，所述用于训练的数据预先标记有推荐信息、以及所述物品的类别；

利用判别器，分别对所述类别无关表征和所述类别相关表征进行处理，以获得相应的判别结果，其中，所述判别结果表示所述判别器所处理的表征与多个类别的相关性；

根据所述类别无关表征或所述类别相关表征中的至少一个，确定预测结果；和

以所述类别无关表征不对应所述多个类别中的任意一个、类别相关表征对应预先标记的类别、以及所述预测结果与预先标记的推荐信息匹配为训练目标，对所述推荐模型和所述判别器进行训练。
根据权利要求1所述的训练方法，其中，所述判别器的判别结果具有与所述多个类别一一对应的多个维度，每个维度的值表示所述判别器所处理的表征与相应类别相关的概率。
根据权利要求2所述的训练方法，其中，所述对所述推荐模型和所述判别器进行训练包括：

根据利用判别器对所述类别无关表征的判别结果、与类别无关目标结果，确定第一损失值，其中，在所述类别无关目标结果中，每个维度的值低于低门限；和

利用所述第一损失值，对所述推荐模型和所述判别器的参数进行调整。
根据权利要求3所述的训练方法，其中：

所述确定预测结果包括：

利用第一映射模型对所述类别无关表征进行处理，获得第一预测结果；并且，

所述对所述推荐模型和所述判别器进行训练还包括：

根据所述第一预测结果和预先标记的推荐信息，确定第二损失值，以便利用所述第一损失值和所述第二损失值，对所述推荐模型、所述判别器和所述第一映射模型的参数进行调整。
根据权利要求2～4中任一项所述的训练方法，其中，所述对所述推荐模型和所述判别器进行训练包括：

根据利用判别器对所述类别相关表征的判别结果、与类别相关目标结果，确定第三损失值，其中，在所述类别相关目标结果中，预先标记的类别对应的维度的值高于高门限、其他维度的值低于低门限；和

利用所述第三损失值，对所述推荐模型和所述判别器的参数进行调整。
根据权利要求5所述的训练方法，其中：

所述确定预测结果包括：

利用第二映射模型对所述类别无关表征和所述类别相关表征进行处理，获得第二预测结果；并且

所述对所述推荐模型和所述判别器进行训练还包括：

根据所述第二预测结果和预先标记的推荐信息，确定第四损失值，以便利用所述第三损失值和所述第四损失值，对所述推荐模型、所述判别器和所述第二映射模型的参数进行调整。
根据权利要求6所述的训练方法，其中，在对所述推荐模型、所述判别器和所述第二映射模型的参数进行调整的过程中，保持所述类别无关表征的值不变。
根据权利要求1-7中任一项所述的训练方法，其中，所述推荐信息表示所述用户是否对所述物品进行反馈。
一种物品推荐方法，包括：

利用推荐模型，对包括目标用户的特征和备选物品的特征的、待测的数据进行处理，获得类别无关表征和类别相关表征；

根据所述待测的数据，确定所述待测的数据的预测结果；和

根据所述待测的数据的预测结果，确定是否为所述目标用户推荐所述备选物品。
根据权利要求9所述的物品推荐方法，其中，所述备选物品位于备选物品集合，并且所述确定是否为所述目标用户推荐所述备选物品包括：

确定所述待测的数据的预测结果在所述备选物品集合中所有物品对应的预测结果中的参考排名；和

在所述参考排名高于参考排名的情况下，为所述目标用户推荐所述备选物品。
根据权利要求9或10所述的物品推荐方法，其中，所述推荐模型是通过权利要求1-8中任一项所述的推荐模型的训练方法训练的。
一种推荐模型的训练装置，包括：

表征获得模块，被配置为利用推荐模型，对包括用户的特征和物品的特征的、用于训练的数据进行处理，获得类别无关表征和类别相关表征，所述用于训练的数据预先标记有推荐信息、以及所述物品的类别；

判别模块，被配置为利用判别器，分别对所述类别无关表征和所述类别相关表征进行处理，以获得相应的判别结果，其中，所述判别结果表示所述判别器所处理的表征与多个类别的相关性；

预测模块，被配置为根据所述类别无关表征或所述类别相关表征中的至少一个，确定预测结果；和

训练模块，被配置为以所述类别无关表征不对应所述多个类别中的任意一个、类别相关表征对应预先标记的类别、以及所述预测结果与预先标记的推荐信息匹配为训练目标，对所述推荐模型和所述判别器进行训练。
一种推荐模型的训练装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求1-8中任一项所述的训练方法。
一种物品推荐装置，包括：

表征获得模块，被配置为利用推荐模型，对包括目标用户的特征和备选物品的特征的、待测的数据进行处理，获得类别无关表征和类别相关表征；

预测模块，被配置为根据所述待测的数据中的所述类别无关表征和所述类别相关表征，确定所述待测的数据的预测结果；和

推荐模块，被配置为根据所述待测的数据的预测结果，确定是否为所述目标用户推荐所述备选物品。
一种物品推荐装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行如权利要求9-11中任一项所述的物品推荐方法。
一种物品推荐系统，包括：

权利要求12或13所述的推荐模型的训练装置；以及，

权利要求14或15所述的物品推荐装置。
一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-8中任一项所述的训练方法、或者权利要求9-11中任一项所述的物品推荐方法。
一种计算机程序，包括：

指令，所述指令当由处理器执行时使所述处理器执行根据权利要求1-8中任一项所述的训练方法、或者权利要求9-11中任一项所述的物品推荐方法。