WO2020220692A1

WO2020220692A1 - 深度神经网络及其训练

Info

Publication number: WO2020220692A1
Application number: PCT/CN2019/125028
Authority: WO
Inventors: 曹雪智; 祝升; 汪非易; 汤彪; 谢睿; 王仲远
Original assignee: 北京三快在线科技有限公司
Priority date: 2019-04-30
Filing date: 2019-12-13
Publication date: 2020-11-05
Also published as: CN110222838B; CN110222838A

Abstract

提供了一种深度神经网络及其训练方法、装置、电子设备及存储介质，所述深度神经网络包括：输入层网络，用于对输入特征进行建模，得到底层特征；隐藏层网络，用于对底层特征进行建模，以提取高阶特征；预测层网络，包括单文档预测子网络、文档列表预测子网络、单文档预测节点和文档列表预测节点，单文档预测子网络用于基于单文档方式对高阶特征进行打分预测并将预测结果通过单文档预测节点输出，文档列表预测子网络用于基于文档列表方式对高阶特征进行打分预测，并将预测结果通过文档列表预测节点输出。

Description

深度神经网络及其训练

技术领域

本申请涉及人工智能技术领域，特别是涉及一种用于排序学习的深度神经网络及其训练方法、装置、电子设备及存储介质。

背景技术

排序学习(Learning To Rank，LTR)是机器学习技术在搜索排序场景中的典型应用，是推荐、搜索以及广告的核心算法，对用户体验等方面有重要影响。排序学习通过有监督学习方法，利用有标记的训练样本训练排序打分模型，对用户请求和被检索文档之间的相关度进行评估，从而将搜索结果进行合理的排序。根据模型结构划分，可以分为线性模型、树模型、深度学习模型，以及他们之间的组合模型，而深度学习模型为现阶段排序学习的主流模型。

在排序学习场景下，常用的评估指标可以被分为两类：全局评估指标和列表评估指标。全局评估指标旨在评估模型对于每一个用户请求和被检索文档之间的相关性是否被合理的估计，通常使用全局AUC(Area Under the ROC Curve，ROC曲线下面积)和RMSE(Root Mean Squared Error，均方根误差)来进行衡量。而列表评估指标旨在评估最终模型给出的排序结果是否合理，通常使用MAP(Mean Average Precision，平均精度均值)和NDCG(Normalized Discounted Cumulative Gain，归一化折损累计增益)来进行衡量。

在训练方式上，排序学习可以分为单文档方式(Pointwise)、文档对方式(Pairwise)、文档列表方式(Listwise)这三类。现有的单文档方式针对全局评估指标进行优化，可以在全局评估指标上取得较好的训练结果，然而在列表评估指标上的表现往往明显不如文档列表方式。现有的文档列表方式针对列表评估指标进行优化，取得了很好地训练结果，然而，该训练方式仅能从有点击的列表数据中获取信息，大量的无点击的搜索日志中蕴藏的信息则无法被模型所利用，而且由于其只考虑列表内的相对排序关系，无法对指定的用户请求和被检索文档对给出具有绝对的相似度评估，故在全局评估指标上表现相对较差。因此，通过现有的单文档方式或文档列表方式训练的模型，不能同时具有较好的全局评估指标和列表评估指标。

发明内容

本申请实施例提供一种用于排序学习的深度神经网络及其训练方法、装置、电子设备及存储介质，以提升模型的列表评估指标和全局评估指标。

本申请实施例提供了一种用于排序学习的深度神经网络，包括：输入层网络，用于对输入特征进行建模，得到底层特征；隐藏层网络，用于对所述底层特征进行建模，以提取高阶特征；预测层网络，包括单文档预测子网络、文档列表预测子网络、单文档预测节点和文档列表预测节点，所述单文档预测子网络用于基于单文档方式对所述高阶特征进行打分预测并将预测结果通过单文档预测节点输出，所述文档列表预测子网络用于基于文档列表方式对所述高阶特征进行打分预测，并将预测结果通过文档列表预测节点输出。

本申请实施例提供了一种用于排序学习的深度神经网络的训练方法，包括：将训练数据分别组织为单文档方式对应的第一训练样本和文档列表方式对应的第二训练样本；随机初始化深度神经网络的输入层网络的参数、隐藏层网络的参数和预测层网络的参数，所述预测层网络的参数包括单文档预测子网络的参数和文档列表预测子网络的参数；根据所述第一训练样本和所述第二训练样本，交替使用单文档方式和文档列表方式对所述深度神经网络进行训练，以更新与当前训练方式对应的预测层网络的参数、所述隐藏层网络的参数和所述输入层网络的参数，直至训练完成，得到多目标排序学习模型。

本申请实施例提供了一种用于排序学习的深度神经网络的训练装置，包括：样本组织模块，用于将训练数据分别组织为单文档方式对应的第一训练样本和文档列表方式对应的第二训练样本；网络参数初始化模块，用于随机初始化深度神经网络的输入层网络的参数、隐藏层网络的参数和预测层网络的参数，所述预测层网络的参数包括单文档预测子网络的参数和文档列表预测子网络的参数；交替训练模块，用于根据所述第一训练样本和所述第二训练样本，交替使用单文档方式和文档列表方式对所述深度神经网络进行训练，以更新与当前训练方式对应的预测层网络的参数、所述隐藏层网络的参数和所述输入层网络的参数，直至训练完成，得到多目标排序学习模型。

本申请实施例还公开了一种电子设备，包括存储器、处理器及存储在所述存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本申请实施例所述的用于排序学习的深度神经网络的训练方法。

本申请实施例提供了一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时本申请实施例公开的用于排序学习的深度神经网络的训练方法的步骤。

本申请实施例公开的用于排序学习的深度神经网络，在预测层网络中包括单文档预测子网络和文档列表预测子网络，单文档预测子网络基于单文档方式对高阶特征进行打分预测并将预测结果通过单文档预测节点输出，文档列表预测子网络用于基于文档列表方式对高阶特征进行打分预测，并将预测结果通过文档列表预测节点输出。实现了单文档方式和文档列表方式在底层网络中网络信息共享，两者相互补充，在高层网络中信息独享，保留各自的特性，可以同时提高全局评估指标和列表评估指标。

附图说明

图1是本申请实施例一提供的用于排序学习的深度神经网络的结构图。

图2是本申请实施例中的三种不同的训练方式对应的AUC评估曲线图。

图3是本申请实施例中的三种不同的训练方式对应的NDCG评估曲线图。

图4是本申请实施例二提供的用于排序学习的深度神经网络的训练方法的流程图。

图5是本申请实施例中的深度神经网络进行交替训练与传统模型使用单文档方式进行训练的AUC评估曲线图。

图6是本申请实施例中的深度神经网络进行交替训练与传统模型使用文档列表方式进行训练的NDCG评估曲线图。

图7是本申请实施例三提供的用于排序学习的深度神经网络的训练方法的流程图。

图8是本申请实施例中的交替训练的流程图。

图9是本申请实施例四提供的用于排序学习的深度神经网络的训练方法的流程图。

图10是本申请实施例五提供的用于排序学习的深度神经网络的训练装置的结构示意图。

图11是本申请实施例提供的用于排序学习的深度神经网络的电子设备示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一

本实施例公开一种用于排序学习的深度神经网络，如图1所示，该用于排序学习的深度神经网络包括输入层网络110、隐藏层网络120和预测层网络130。

输入层网络110，用于对输入特征进行建模，得到底层特征。隐藏层网络120，用于对所述底层特征进行建模，以提取高阶特征。预测层网络130，包括单文档预测子网络131、文档列表预测子网络132、单文档预测节点133和文档列表预测节点134。所述单文档预测子网络131用于基于单文档方式对所述高阶特征进行打分预测并将预测结果通过单文档预测节点133输出，所述文档列表预测子网络132用于基于文档列表方式对所述高阶特征进行打分预测，并将预测结果通过文档列表预测节点134输出。

用于排序学习的深度神经网络包括DNN(Deep Neural Networks，深度神经网络)、 DeepFM、Deep&Wide、PNN(Product-based Neural Network，基于产品的神经网络)等模型。其中，DeepFM包括两部分，即DNN和FM(Factorization Machine，因子分解机)，分别负责低阶特征的提取和高阶特征的提取。Wide&Deep模型中Wide是指广义线性模型(Wide Linear Model)，Deep是指深度神经网络(Deep Netural Networks)，旨在使得训练得到的模型能够同时获得记忆(memorization)能力和泛化(generalization)能力。PNN认为在嵌入特征(embedding)输入到MLP(Multi-Layer Perception，多层感知器)之后学习的交叉特征表达并不充分，提出了一种产品层(product layer)的思想，基于乘法的运算来体现体征交叉的DNN网络结构。

上述深度神经网络均包括输入层网络、隐藏层网络和预测层网络。其中位于底层的输入层网络建模了底层特征，包括离散特征的向量嵌入表示、连续特征的数值变换、归一化等。位于中间的隐藏层网络建模了特征之间的相互关系，从中提取高阶特征。位于高层的预测层网络利用网络所建模出的高阶特征来进行打分预测。在本申请实施例中，预测层网络包括单文档预测子网络和文档列表预测子网络，在对该深度神经网络进行训练时，可以使用单文档方式和文档列表方式交替训练，从而单文档方式和文档列表方式在底层网络(输入层网络和隐藏层网络)中网络信息共享，两者相互补充，在高层网络(预测层网络)中信息独享，可以保留各自的特性。

图2是本申请实施例中的三种不同的训练方式对应的AUC评估曲线图，图3是本申请实施例中的三种不同的训练方式对应的NDCG评估曲线图。在图2和图3中，曲线1都表示单独用单文档方式进行训练，曲线2都表示单独用文档列表方式进行训练，曲线3都表示单文档方式和文档列表方式交替训练同一个模型(即传统的排序学习模型，如DNN模型)。其中，横坐标表示训练的轮数(epoch)。在一轮训练中，训练数据会被分为多个训练批次(batch)进行训练。如图2和图3所示，交替训练的曲线会迅速的收敛到单训练方式的训练曲线上，说明单文档方式和文档列表方式这两种训练方式训练出的模型总体上参数较为接近，仅在那些可以被迅速训练的参数上存在着较大的差异。在模型中，可以被快速训练的就是高层网络中的参数，而不容易被快速训练的是底层网络的参数，因此可以得出结论：单文档方式和文档列表方式这两种训练方式在底层网络中具有较高相似度，高层网络中会具有不同的特性。基于此特性，本申请实施例将单文档方式和文档列表方式共用输入层网络和隐藏层网络，并且单独具有对应的单文档预测子网络和文档列表预测子网络，从而可以形成基于单文档方式和文档列表方式的多目标排序学习模型。

本申请实施例公开的深度神经网络，在预测层网络中包括单文档预测子网络和文档列表预测子网络，单文档预测子网络基于单文档方式对高阶特征进行打分预测并将预测结果通过单文档预测节点输出，文档列表预测子网络用于基于文档列表方式对高阶特征进行打分预测，并将预测结果通过文档列表预测节点输出，从而实现了单文档方式和文档列表方式在底层网络中网络信息共享，两者相互补充，在高层网络中信息独享，保留各自的特性，可以同时提高全局评估指标和列表评估指标。

实施例二

本实施例公开一种用于排序学习的深度神经网络的训练方法，所述深度神经网络为本申请实施例公开的用于排序学习的深度神经网络。如图4所示，该方法包括步骤410至步骤430。

步骤410，将训练数据分别组织为单文档方式对应的第一训练样本和文档列表方式对应的第二训练样本。

将同一份训练数据复制为相同的两份，将一份训练数据组织为单文档方式对应的第一训练样本，将另一份训练数据组织为文档列表方式对应的第二训练样本。其中，所述第一训练样本包括用户请求和该用户请求召回列表中的一个文档，所述第二训练样本包括用户请求和该用户请求召回列表中的所有文档。

将(用户请求，被检索的文档，是否点击)组成的多元组作为一条第一训练样本，(用户请求，被检索的文档)二元组作为深度神经网络的输入，深度神经网络中的输入层网络和隐藏层网络在对(用户请求，被检索的文档)进行特征提取后利用预测层网络预测被检索的文档的点击率。是否点击作为训练数据的标注(label)，用来和模型预测的结果进行对比，计算损失函数(loss function)，从而引导模型的训练方向。最终以模型预测的点击率对各个被检索的文档进行排序。

将(用户请求，被检索的文档1/2/…/N，文档1/2/…/N是否点击)多元组作为一条第二训练样本，其中，N为检索到的文档总数。深度神经网络中的输入层网络和隐藏层网络对(用户请求，被检索的文档1/2/…/N)二元组进行特征提取后利用预测层网络对被检索的文档进行打分预测，目标是使得基于该打分预测排序后的文档列表所对应的列表评价指标最优。

步骤420，随机初始化深度神经网络的输入层网络的参数、隐藏层网络的参数和预测层网络的参数，所述预测层网络的参数包括单文档预测子网络的参数和文档列表预测子网络的参数。

在对深度神经网络进行训练时，对深度神经网络的网络参数进行初始化，可以通过随机方法初始化所有网络参数以及离散特征的嵌入表示，例如采用Xavier方法进行深度神经网络的初始化。特征嵌入是将数据转换(降维)为固定大小的特征表示(矢量)，以便于处理和计算(如求距离)。例如，针对用于说话者识别的语音信号训练的模型可以允许将语音片段转换为数字向量，使得来自相同说话者的另一片段与原始向量具有小的距离(例如，欧几里德距离)。特征嵌入降维的方式可以类比为一个全连接层(没有激活函数)，通过嵌入层的权重矩阵计算来降低维度。Xavier方法是一种很有效的神经网络初始化方法，可以使得每一层输出的方差尽量相等。

步骤430，根据所述第一训练样本和所述第二训练样本，交替使用单文档方式和文档列表方式对所述深度神经网络进行训练，以更新与当前训练方式对应的预测层网络的参数、所述隐藏层网络的参数和所述输入层网络的参数，直至训练完成，得到多目标排序学习模型。

对深度神经网络进行交替训练，可以按如下方式进行。从第一训练样本中选取一个或一定数量的样本，使用单文档方式对深度神经网络进行训练，从单文档预测节点获取输出结果，并根据输出结果使用反向传播的方式依次对预测层网络的参数中的单文档预测子网络的参数、隐藏层网络的参数和输入层网络的参数进行更新。之后再从第二训练样本中选取一个或一定数量的样本，使用文档列表方式对深度神经网络进行训练，基于前一次单文档方式训练时更新后的输入层网络的参数和隐藏层网络的参数对第二训练样本进行特征提取，将提取到的高阶特征使用文档列表预测子网络进行打分预测，从文档列表预测节点获取输出结果，并根据输出结果使用反向传播的方式依次对预测层网络的参数中的文档列表预测子网络的参数、隐藏层网络的参数和输入层网络的参数进行更新。之后再使用单文档方式进行训练，并基于文档列表方式训练时更新的输入层网络的参数和隐藏层网络的参数对第一训练样本进行特征提取，将提取到的高阶特征使用单文档预测子网络进行打分预测，从单文档预测节点获取输出结果，并根据输出结果使用反向传播的方式依次对预测层网络的参数中的单文档预测子网络的参数、隐藏层网络的参数和输入层网络的参数进行更新。以此交替使用单文档方式和文档列表方式对深度神经网络进行训练，直至训练完成一轮。如此训练一轮或多轮，可以得到多目标排序学习模型。

图5是本申请实施例中的深度神经网络进行交替训练与传统模型使用单文档方式进行训练的AUC评估曲线图，如图5所示，横坐标为训练样本的数量，曲线4是本申请实施例中的深度神经网络进行交替训练的AUC曲线，曲线5是传统模型(如DNN模型)使用单文档方式进行训练的AUC曲线，可以看出在曲线收敛时，本申请实施例中的深度神经网络的AUC指标高于传统模型使用单文档方式进行训练的AUC指标，因此，本申请实施例中的用于排序学习的深度神经网络的训练方式相对于传统模型提升了全局评价指标。

图6是本申请实施例中的深度神经网络进行交替训练与传统模型使用文档列表方式进行训练的NDCG评估曲线图，如图6所示，横坐标为训练样本的数量，曲线6是本申请实施例中的深度神经网络进行交替训练的NDCG曲线，曲线7是传统模型(如DNN模型)使用单文档方式进行训练的NDCG曲线，可以看出在曲线收敛时，本申请实施例中的深度神经网络的NDCG指标高于传统模型使用文档列表方式进行训练的NDCG指标，因此，本申请实施例中的用于排序学习的深度神经网络的训练方式相对于传统模型提升了列表评价指标。

本申请实施例公开的深度神经网络的训练方法，将训练数据分别组织为单文档方式对应的第一训练样本和文档列表方式对应的第二训练样本，并根据第一训练样本和第二训练样本交替使用单文档方式和文档列表方式对深度神经网络进行训练，以更新与当前训练方式对应的预测层网络的参数、隐藏层网络的参数和输入层网络的参数，直至训练完成，得到多目标排序学习模型，由于使用单文档方式和文档列表方式进行交替训练，实现了单文档方式和文档列表方式在底层网络中网络信息共享，两者相互补充，在高层网络中信息独享，保留各自的特性，可以同时提高全局评估指标和列表评估指标，从而提高了排序学习模型的准确度。

在上述技术方案的基础上，在所述得到多目标排序学习模型之后，还包括：在接收到用户请求时，获取召回列表，并根据所述用户请求，确定目标场景；根据所述目标场景，确定从所述多目标排序学习模型获取输出结果的预测节点；将所述用户请求和召回列表组织为所述预测节点对应的输入特征，并将所述输入特征输入所述多目标排序学习模型，从所述预测节点获取输出结果。

在进行离线评估或线上打分时，应当根据场景的特性，选择使用文档列表方式或单文档方式所对应的预测节点。例如，当目标场景是搜索排序之类的重列表头部的场景的时候，选取文档列表方式对应的预测节点进行预测，而当目标场景是浏览性的广告推荐时，则选取单文档方式对应的预测节点进行预测。从而根据目标场景选取对应的预测节点进行预测，得到较好的预测结果。

实施例三

本实施例公开一种用于排序学习的深度神经网络的训练方法，所述深度神经网络为本申请实施例公开的用于排序学习的深度神经网络。如图7所示，该方法包括步骤710至步骤740。

步骤710，将训练数据分别组织为单文档方式对应的第一训练样本和文档列表方式对应的第二训练样本。

步骤720，随机初始化深度神经网络的输入层网络的参数、隐藏层网络的参数和预测层网络的参数，所述预测层网络的参数包括单文档预测子网络的参数和文档列表预测子网络的参数。

步骤730，将所述第一训练样本和第二训练样本划分为多个训练批次，其中每个训练批次包括多个第一训练样本或多个第二训练样本。

在本申请的一些实施例中，将所述第一训练样本和第二训练样本划分为多个训练批次，包括：按照第一数量，将所述第一训练样本组织为第一训练批次；按照第二数量，将所述第二训练样本组织为第二训练批次；将所述第一训练批次和所述第二训练批次进行随机排列，得到多个训练批次。

其中，所述第一数量和所述第二数量的选取视数据集和训练的机器条件而定。可以使所述第一数量等于所述第二数量与用户请求平均展示文档数的乘积，从而使得两种训练目标之间达到平衡。

将第一数量的第一训练样本组织为第一训练批次，从而得到多个第一训练批次。将第二数量的第二训练样本组织为第二训练批次，从而得到多个第二训练批次。之后，将多个第一训练批次和多个第二训练批次进行随机打散，使得多个第一训练批次和多个第二训练批次随机排列，得到混合后的多个训练批次。

步骤740，根据所述多个训练批次，交替使用单文档方式和文档列表方式对所述深度神经网络进行训练，以更新与当前训练方式对应的预测层网络的参数、所述隐藏层网络的参数和所述输入层网络的参数，直至训练完成，得到多目标排序学习模型。

可以从多个训练批次中依次或者随机选取一个训练批次，并基于该训练批次对应的训练方式对深度神经网络进行训练，利用反向传播的方式更新与当前训练方式对应的预测层网络的参数、隐藏层网络的参数和输入层网络的参数，直至训练完成，得到多目标排序学习模型。一个训练批次的训练样本训练完成，可以称为训练一轮。

本实施例训练批次的选取可能是随机的。例如，第一次选取出来训练批次可能是属于第一训练批次的，此时使用单文档方式对所述深度神经网络进行训练，第二次选取出来的训练批次可能还是属于第一训练批次的，此时仍使用单文档方式对所述深度神经网络进行训练。因此本实施例所述的交替训练可以使用单文档方式对所述深度神经网络训练一轮或多轮，再使用文档列表方式对所述深度神经网络进行训练一轮或多轮；也可以使用文档列表方式方式对所述深度神经网络训练一轮或多轮，再使用单文档方式对所述深度神经网络进行训练一轮或多轮。

图8是本申请实施例中的交替训练的流程图，如图8所示，所述根据所述多个训练批次，交替使用单文档方式和文档列表方式对所述深度神经网络进行训练，以更新与当前训练方式对应的预测层网络的参数、所述隐藏层网络的参数和所述输入层网络的参数，直至训练完成，得到多目标排序学习模型，包括以下步骤。

步骤741，从所述多个训练批次中随机选取一个训练批次，并基于所述训练批次中的训练样本确定当前训练方式。

从多个训练批次中随机选取一个训练批次，基于该训练批次中的训练样本的组织形式，确定当前训练方式是单文档方式或文档列表方式。若该训练批次中的训练样本包括用户请求和该用户请求召回列表中的一个文档，则确定当前训练方式为单文档方式。若该训练批次中的训练样本包括用户请求和该用户请求召回列表中的所有文档，则确定当前训练方式为文档列表方式。

步骤742，若所述当前训练方式为单文档方式，则基于所述训练批次使用单文档方式对所述深度神经网络进行训练，并从单文档预测节点获取第一输出结果，基于所述第一输出结果使用反向传播方式更新所述单文档预测子网络的参数、所述隐藏层网络的参数和所述输入层网络的参数。

若所述当前训练方式为单文档方式，则将所述训练批次中的训练样本输入深度神经网络，深度神经网络中的输入层网络根据前一次训练(包括单文档方式、文档列表方式或初始化参数)时的输入层网络的参数对所述训练样本进行建模，得到底层特征，深度神经网络中的隐藏层网络根据前一次训练(包括单文档方式或文档列表方式)时的隐藏层网络的参数对所述底层特征之间的相互关系进行建模，以提取高阶特征，预测层网络中的单文档预测子网络对所述高阶特征进行打分预测，并通过单文档预测节点输出第一输出结果，基于所述第一输出结果与所述训练样本对应的真实结果，使用反向传播方式更新所述单文档预测子网络的参数、隐藏层网络的参数和输入层网络的参数。

步骤743，若所述当前训练方式为文档列表方式，则基于所述训练批次使用文档列表方式对所述深度神经网络进行训练，并从文档列表预测节点获取第二输出结果，基于所述第二输出结果使用反向传播方式更新所述文档列表预测子网络的参数、隐藏层网络的参数和输入层网络的参数。

若所述当前训练方式为文档列表方式，则将所述训练批次中的训练样本输入深度神经网络，深度神经网络中的输入层网络根据前一次训练(包括单文档方式、文档列表方式或初始化参数)时的输入层网络的参数对所述训练样本进行建模，得到底层特征，深度神经网络中的隐藏层网络根据前一次训练(包括单文档方式或文档列表方式)时的隐藏层网络的参数对所述底层特征之间的相互关系进行建模，以提取高阶特征，预测层网络中的文档列表预测子网络对所述高阶特征进行打分预测，并通过文档列表预测节点输出第二输出结果，基于所述第二输出结果与所述训练样本对应的真实结果，使用反向传播方式更新所述文档列表预测子网络的参数、隐藏层网络的参数和输入层网络的参数。在训练过程中，以列表评价指标为优化目标，在反向传播计算梯度的过程中会利用列表评价指标的改变量来进行梯度加权，进行反向传播。

步骤744，判断训练是否完成，若否，则再次执行步骤741，若是，则执行步骤745。

步骤745，结束训练，得到多目标排序学习模型。

通过判断全局评价指标和列表评价指标是否收敛来判断训练是否完成，若全局评价指标和列表评价指标均收敛，则确定训练完成，结束训练得到多目标排序学习模型，若全局评价指标或列表评价指标还没有收敛，则确定训练没有完成，再次执行步骤741-步骤744，直至训练完成。其中，多目标排序学习模型是指包括单文档方式和文档列表方式的学习模型。

本实施例公开的深度神经网络的训练方法，将第一训练样本和第二训练样本划分为多个训练批次，每个训练批次保存多个第一训练样本或多个第二训练样本，根据多个训练批次，交替使用单文档方式和文档列表方式对深度神经网络进行训练，以更新与当前训练方式对应的预测层网络的参数、隐藏层网络的参数和输入层网络的参数，直至训练完成，得到多目标排序学习模型，从而实现了单文档方式和文档列表方式的交替训练，并且通过将训练样本划分为多个训练批次，基于训练批次进行训练可以提高训练速度。

实施例四

本实施例公开一种用于排序学习的深度神经网络的训练方法，所述深度神经网络为本申请实施例公开的用于排序学习的深度神经网络。如图9所示，该方法包括步骤910至步骤980。

步骤910，将训练数据分别组织为单文档方式对应的第一训练样本和文档列表方式对应的第二训练样本。

步骤920，随机初始化深度神经网络的输入层网络的参数、隐藏层网络的参数和预测层网络的参数，所述预测层网络的参数包括单文档预测子网络的参数和文档列表预测子网络的参数。

步骤930，对所述第一训练样本和所述第二训练样本进行随机排列，得到训练样本集合。

将第一训练样本和第二训练样本随机排列在一起，得到训练样本集合。

步骤940，从所述训练样本集合中随机选取一个训练样本，并基于所述训练样本确定当前训练方式。

从训练样本集合中随机选取一个训练样本，并基于该训练样本，确定当前训练方式为单文档方式或文档列表方式。若该训练样本包括用户请求和该用户请求召回列表中的一个文档，则确定当前训练方式为单文档方式。若该训练样本包括用户请求和该用户请求召回列表中的所有文档，则确定当前训练方式为文档列表方式。

步骤950，若所述当前训练方式为单文档方式，则基于所述训练样本使用单文档方式对所述深度神经网络进行训练，并从单文档预测节点获取第一输出结果，基于所述第一输出结果使用反向传播方式更新所述单文档预测子网络的参数、所述隐藏层网络的参数和所述输入层网络的参数。

若所述当前训练方式为单文档方式，则将所述训练样本输入深度神经网络，深度神经网络中的输入层网络根据前一次训练(包括单文档方式、文档列表方式或初始化参数)时的输入层网络的参数对所述训练样本进行建模，得到底层特征，深度神经网络中的隐藏层网络根据前一次训练(包括单文档方式或文档列表方式)时的隐藏层网络的参数对所述底层特征之间的相互关系进行建模，以提取高阶特征，预测层网络中的单文档预测子网络对所述高阶特征进行打分预测，并通过单文档预测节点输出第一输出结果，基于所述第一输出结果与所述训练样本对应的真实结果，使用反向传播方式更新所述单文档预测子网络的参数、隐藏层网络的参数和输入层网络的参数。

步骤960，若所述当前训练方式为文档列表方式，则基于所述训练样本使用文档列表方式对所述深度神经网络进行训练，并从文档列表预测节点获取第二输出结果，基于所述第二输出结果使用反向传播方式更新所述文档列表预测子网络的参数、隐藏层网络的参数和输入层网络的参数。

若所述当前训练方式为文档列表方式，则将所述练样本输入深度神经网络，深度神经网络中的输入层网络根据前一次训练(包括单文档方式、文档列表方式或初始化参数)时的输入层网络的参数对所述训练样本进行建模，得到底层特征，深度神经网络中的隐藏层网络根据前一次训练(包括单文档方式或文档列表方式)时的隐藏层网络的参数对所述底层特征之间的相互关系进行建模，以提取高阶特征，预测层网络中的文档列表预测子网络对所述高阶特征进行打分预测，并通过文档列表预测节点输出第二输出结果，基于所述第二输出结果与所述训练样本对应的真实结果，使用反向传播方式更新所述文档列表预测子网络的参数、隐藏层网络的参数和输入层网络的参数。在训练过程中，以列表评价指标为优化目标，在反向传播计算梯度的过程中会利用列表评价指标的改变量来进行梯度加权，进行反向传播。

步骤970，判断训练是否完成，若否，则再次执行步骤940，若是，则执行步骤980。

步骤980，结束训练，得到多目标排序学习模型。

通过判断全局评价指标和列表评价指标是否收敛来判断训练是否完成，若全局评价指标和列表评价指标均收敛，则确定训练完成，结束训练，得到多目标排序学习模型，若全局评价指标或列表评价指标还没有收敛，则确定训练没有完成，再次执行步骤940-步骤970，直至训练完成。其中，多目标排序学习模型是指包括单文档方式和文档列表方式的学习模型。

本实施例公开的深度神经网络的训练方法，对第一训练样本和第二训练样本进行随机排序，得到训练样本集合，从训练样本集合中随机选取一个训练样本，并基于所述训练样本确定当前训练方式，若当前训练方式为单文档方式，则基于所述训练样本使用单文档方式对深度神经网络进行训练，并从单文档预测节点获取第一输出结果，基于所述第一输出结果使用反向传播方式更新单文档预测子网络的参数、隐藏层网络的参数和输入层网络的参数，若当前训练方式为文档列表方式，则基于所述训练样本使用文档列表方式对深度神经网络进行训练，并从文档列表预测节点获取第二输出结果，基于所述第二输出结果使用反向传播方式更新所述文档列表预测子网络的参数、隐藏层网络的参数和输入层网络的参数，再次执行上述选取训练样本并基于选取的训练样本进行训练的操作，直至训练完成，得到多目标排序学习模型，从而实现了单文档方式和文档列表方式的交替训练，可以同时提高全局评估指标和列表评估指标。

实施例五

本实施例公开一种用于排序学习的深度神经网络的训练装置，所述深度神经网络为本申请实施例公开的用于排序学习的深度神经网络。如图10所示，所述装置1000包括：

样本组织模块1010，用于将训练数据分别组织为与单文档方式对应的第一训练样本和与文档列表方式对应的第二训练样本；

网络参数初始化模块1020，用于随机初始化深度神经网络的输入层网络的参数、隐藏层网络的参数和预测层网络的参数，所述预测层网络的参数包括单文档预测子网络的参数和文档列表预测子网络的参数；

交替训练模块1030，用于根据所述第一训练样本和所述第二训练样本，交替使用单文档方式和文档列表方式对所述深度神经网络进行训练，以更新与当前训练方式对应的预测层网络的参数、所述隐藏层网络的参数和所述输入层网络的参数，直至训练完成，得到多目标排序学习模型。

可选的，所述交替训练模块1030包括：训练批次划分单元，用于将所述第一训练样本和第二训练样本划分为多个训练批次，其中每个训练批次包括多个第一训练样本或多个第二训练样本；交替训练单元，用于根据所述多个训练批次，交替使用单文档方式和文档列表方式对所述深度神经网络进行训练，以更新与当前训练方式对应的预测层网络的参数、所述隐藏层网络的参数和所述输入层网络的参数，直至训练完成，得到多目标排序学习模型。

可选的，所述交替训练单元包括：训练批次选取子单元，用于从所述多个训练批次中随机选取一个训练批次，并基于所述训练批次中的训练样本确定当前训练方式；单文档训练子单元，用于若所述当前训练方式为单文档方式，则基于所述训练批次使用单文档方式对所述深度神经网络进行训练，并从单文档预测节点获取第一输出结果，基于所述第一输出结果使用反向传播方式更新所述单文档预测子网络的参数、所述隐藏层网络的参数和所述输入层网络的参数；文档列表训练子单元，用于若所述当前训练方式为文档列表方式，则基于所述训练批次使用文档列表方式对所述深度神经网络进行训练，并从文档列表预测节点获取第二输出结果，基于所述第二输出结果使用反向传播方式更新所述文档列表预测子网络的参数、隐藏层网络参数和输入层网络的参数；交替训练控制子单元，用于再次执行上述选取训练批次并基于选取的训练批次对所述深度神经网络进行训练的操作，直至训练完成，得到多目标排序学习模型。

可选的，所述训练批次划分单元具体用于：按照第一数量，将所述第一训练样本组织为多个第一训练批次；按照第二数量，将所述第二训练样本组织为多个第二训练批次；将所述多个第一训练批次和所述多个第二训练批次进行随机排列，得到多个训练批次。

可选的，所述第一数量等于所述第二数量与用户请求平均展示文档数的乘积。

可选的，所述交替训练模块1030包括：样本排列单元，用于对所述第一训练样本和所述第二训练样本进行随机排列，得到训练样本集合；样本选取单元，用于从所述训练样本集合中随机选取一个训练样本，并基于所述训练样本确定当前训练方式；单文档训练单元，用于若所述当前训练方式为单文档方式，则基于所述训练样本使用单文档方式对所述深度神经网络进行训练，并从单文档预测节点获取第一输出结果，基于所述第一输出结果使用反向传播方式更新所述单文档预测子网络的参数、所述隐藏层网络的参数和所述输入层网络的参数；文档列表训练单元，用于若所述当前训练方式为文档列表方式，则基于所述训练样本使用文档列表方式对所述深度神经网络进行训练，并从文档列表预测节点获取第二输出结果，基于所述第二输出结果使用反向传播方式更新所述文档列表预测子网络的参数、隐藏层网络的参数和输入层网络的参数；交替训练控制单元，用于再次执行上述选取训练样本并基于选取的训练样本对所述深度神经网络进行训练的操作，直至训练完成，得到多目标排序学习模型。

可选的，所述第一训练样本包括用户请求和该用户请求召回列表中的一个文档，所述第二训练样本包括用户请求和该用户请求召回列表中的所有文档。

可选的，在所述得到多目标排序学习模型之后，所述装置还包括：目标场景确定模块，用于在接收到用户请求时，获取召回列表，并根据所述用户请求，确定目标场景；预测节点确定模块，用于根据所述目标场景，确定从所述多目标排序学习模型获取输出结果的预测节点；输出结果获取单元，用于将所述用户请求和召回列表组织为所述预测节点对应的输入特征，并将所述输入特征输入所述多目标排序学习模型，从所述预测节点获取输出结果。

本申请实施例提供的深度神经网络的训练装置，用于实现本申请实施例中所述的深度神经网络的训练方法的各步骤，装置的各模块的具体实施方式参见相应步骤，此处不再赘述。

本申请实施例公开的深度神经网络的训练装置，样本组织模块1010将训练数据分别组织为单文档方式对应的第一训练样本和文档列表方式对应的第二训练样本，交替训练模块1030根据第一训练样本和第二训练样本交替使用单文档方式和文档列表方式对深度神经网络进行训练，以更新与当前训练方式对应的预测层网络的参数、隐藏层网络的参数和输入层网络的参数，直至训练完成。由于使用单文档方式和文档列表方式进行交替训练，实现了单文档方式和文档列表方式在底层网络中网络信息共享，两者相互补充，在高层网络中信息独享，保留各自的特性，从而可以同时提高全局评估指标和列表评估指标。

相应的，如图11所示，本申请实施例还公开了一种电子设备，在硬件层面，该电子设备包括存储器1102、处理器1101及存储在所述存储器1102上并可在处理器1101上运行的计算机程序。所述电子设备还可以包括接口1103和内部总线1104，处理器1101、接口1103、存储器1102通过内部总线1104相互连接。所述处理器1101执行所述计算机程序时实现如本申请实施例所述的深度神经网络的训练方法。所述电子设备可以为PC机、服务器、移动终端、个人数字助理、平板电脑等。

本申请实施例还公开了一种非易失性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请实施例二所述的深度神经网络的训练方法的步骤。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上对本申请实施例提供的一种用于排序学习的深度神经网络及其训练方法、装置、电子设备及存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

Claims

一种用于排序学习的深度神经网络，其特征在于，包括：

输入层网络，用于对输入特征进行建模，得到底层特征；

隐藏层网络，用于对所述底层特征进行建模，以提取高阶特征；

预测层网络，包括单文档预测子网络、文档列表预测子网络、单文档预测节点和文档列表预测节点，其中，所述单文档预测子网络用于基于单文档方式对所述高阶特征进行打分预测并将单文档预测结果通过所述单文档预测节点输出，所述文档列表预测子网络用于基于文档列表方式对所述高阶特征进行打分预测，并将文档列表预测结果通过所述文档列表预测节点输出。
一种如权利要求1所述深度神经网络的训练方法，其特征在于，包括：

将训练数据分别组织为与所述单文档方式对应的第一训练样本和与所述文档列表方式对应的第二训练样本；

随机初始化所述深度神经网络的所述输入层网络的参数、所述隐藏层网络的参数和所述预测层网络的参数，其中，所述预测层网络的所述参数包括所述单文档预测子网络的参数和所述文档列表预测子网络的参数；

根据所述第一训练样本和所述第二训练样本，交替使用所述单文档方式和所述文档列表方式对所述深度神经网络进行训练，以更新与当前训练方式对应的所述预测层网络的所述参数、所述隐藏层网络的所述参数和所述输入层网络的所述参数，直至训练完成，得到多目标排序学习模型。
根据权利要求2所述的方法，其特征在于，得到所述多目标排序学习模型，包括：

将所述第一训练样本和所述第二训练样本划分为多个训练批次，其中，每个训练批次包括多个第一训练样本或多个第二训练样本；

根据所述多个训练批次，交替使用所述单文档方式和所述文档列表方式对所述深度神经网络进行训练，以更新与当前训练方式对应的所述预测层网络的所述参数、所述隐藏层网络的所述参数和所述输入层网络的所述参数，直至训练完成，得到所述多目标排序学习模型。
根据权利要求3所述的方法，其特征在于，得到所述多目标排序学习模型，包括：

从所述多个训练批次中随机选取一个所述训练批次，并基于所述训练批次中的训练样本确定当前训练方式；

若所述当前训练方式为所述单文档方式，则基于所述训练批次使用所述单文档方式对所述深度神经网络进行训练，并从所述单文档预测节点获取第一输出结果，基于所述第一输出结果使用反向传播方式更新所述单文档预测子网络的所述参数、所述隐藏层网络的所述参数和所述输入层网络的所述参数；

若所述当前训练方式为所述文档列表方式，则基于所述训练批次使用所述文档列表方式对所述深度神经网络进行训练，并从所述文档列表预测节点获取第二输出结果，基于所述第二输出结果使用所述反向传播方式更新所述文档列表预测子网络的所述参数、所述隐藏层网络的所述参数和所述输入层网络的所述参数；

再次执行上述选取训练批次并基于选取的训练批次对所述深度神经网络进行训练的操作，直至训练完成，得到所述多目标排序学习模型。
根据权利要求3所述的方法，其特征在于，将所述多个第一训练样本和所述多个第二训练样本划分为多个所述训练批次，包括：

按照第一数量，将所述第一训练样本组织为多个第一训练批次；

按照第二数量，将所述第二训练样本组织为多个第二训练批次；

将所述多个第一训练批次和所述多个第二训练批次进行随机排列，得到多个所述训练批次。
根据权利要求5所述的方法，其特征在于，所述第一数量等于所述第二数量与用户请求平均展示文档数的乘积。
根据权利要求2所述的方法，其特征在于，得到所述多目标排序学习模型，包括：

对所述第一训练样本和所述第二训练样本进行随机排列，得到训练样本集合；

从所述训练样本集合中随机选取一个训练样本，并基于所述训练样本确定当前训练方式；

若所述当前训练方式为所述单文档方式，则基于所述训练样本使用所述单文档方式对所述深度神经网络进行训练，并从所述单文档预测节点获取第一输出结果，基于所述第一输出结果使用反向传播方式更新所述单文档预测子网络的所述参数、所述隐藏层网络的所述参数和所述输入层网络的所述参数；

若所述当前训练方式为所述文档列表方式，则基于所述训练样本使用所述文档列表方式对所述深度神经网络进行训练，并从所述文档列表预测节点获取第二输出结果，基于所述第二输出结果使用所述反向传播方式更新所述文档列表预测子网络的所述参数、所述隐藏层网络的所述参数和所述输入层网络的所述参数；

再次执行上述选取训练样本并基于选取的训练样本对所述深度神经网络进行训练的操作，直至训练完成，得到所述多目标排序学习模型。
根据权利要求2所述的方法，其特征在于，所述第一训练样本包括用户请求和该用户请求召回列表中的一个文档，所述第二训练样本包括用户请求和该用户请求召回列表中的所有文档。
根据权利要求2所述的方法，其特征在于，在得到所述多目标排序学习模型之后，还包括：

在接收到用户请求时，获取召回列表，并根据所述用户请求，确定目标场景；

根据所述目标场景，确定从所述多目标排序学习模型获取输出结果的预测节点；

将所述用户请求和所述召回列表组织为所述预测节点对应的输入特征，并将所述输入特征输入所述多目标排序学习模型，从所述预测节点获取输出结果。
一种如权利要求1所述的深度神经网络的训练装置，其特征在于，包括：

样本组织模块，用于将训练数据分别组织为与所述单文档方式对应的第一训练样本和所述文档列表方式对应的所述第二训练样本；

网络参数初始化模块，用于随机初始化所述深度神经网络的所述输入层网络的参数、所述隐藏层网络的参数和所述预测层网络的参数，所述预测层网络的所述参数包括所述单文档预测子网络的参数和所述文档列表预测子网络的参数；

交替训练模块，用于根据所述第一训练样本和所述第二训练样本，交替使用所述单文档方式和所述文档列表方式对所述深度神经网络进行训练，以更新与当前训练方式对应的所述预测层网络的所述参数、所述隐藏层网络的所述参数和所述输入层网络的所述参数，直至训练完成，得到多目标排序学习模型。
一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求2至9任意一项所述的深度神经网络的训练方法。
一种非易失性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时，促使所述处理器实现权利要求2至9任意一项所述的深度神经网络的训练方法的步骤。