WO2021159448A1

WO2021159448A1 - 一种基于序列推荐系统的通用网络压缩框架和压缩方法

Info

Publication number: WO2021159448A1
Application number: PCT/CN2020/075220
Authority: WO
Inventors: 杨敏; 原发杰; 孙洋
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2021-08-19

Abstract

本发明提供一种基于序列推荐系统的通用网络压缩框架和压缩方法。该通用网络压缩框架包括：基于分块自适应分解的输入嵌入层：用于根据推荐项的频率将推荐项集合划分为多个簇并将输入嵌入矩阵分割为对应的多个块,其中为每个簇的块分配不同维度；分层参数共享的中间层：连接所述输入嵌入层，由多个残差块堆积而成，采用分层参数共享机制进行参数共享；基于分块自适应分解的输出层：与所述输入嵌入层使用相同的分块嵌入的聚簇配置，并采用树型结构表示各簇的块，获得输出序列的概率分布，进而对期望的推荐项进行预测。本发明有效地解决了序列推荐模型参数量庞大的问题，提升了模型的训练和推断效率，缓解了模型过拟合现象。

Description

一种基于序列推荐系统的通用网络压缩框架和压缩方法

技术领域

本发明涉及序列推荐技术领域，更具体地，涉及一种基于序列推荐系统的通用网络压缩框架和压缩方法。

背景技术

序列(又称基于会话)推荐系统已成为推荐领域的研究热点。这是因为现实生活中的用户交互行为通常以时间序列的形式存在。例如，在亚马逊购买电话后，用户很可能在会话中购买手机壳，耳机和屏幕保护膜等。另一个例子来自流行的短视频共享应用程序TikTok，用户可以在一小时内观看数百个视频，这些视频自然形成了一个视频播放序列。在这种情况下，基于递归神经网络(RNN)或卷积神经网络(CNN)(通常使用空洞卷积)的序列推荐模型获得了最好的推荐性能，因为这些深度学习模型在获取用户-推荐项交互序列中的序列依存关系方面更强大。。

一般来说，基于深度神经网络(DNN)的现代序列推荐模型分为三个主要模块：用于表示交互序列的输入嵌入层、用于生成下一项概率分布的输出softmax层以及夹在它们之间的一个或多个隐藏层(循环层或卷积层)。在实际应用中，为了提高模型的容量，通常采用的方法是更大的模型尺寸和更多的模型参数。通过增加序列推荐模型的大小，即使用更大的嵌入维度或更深的网络架构，可以提高其预测精度。虽然大型网络往往会带来明显的精度提高，但也可能成为模型部署和实时预测的主要障碍。特别是对于内存有限的设备，如GPU/TPU或终端用户设备，具有数亿甚至数十亿参数的大型序列模型很容易达到可用硬件的内存限制。另一个缺点是，使用较大的矩阵和较深的网络会影响训练和推理速度。虽然模型并行化可以应用于更大的网络，但通信开销仍然与模型中的参数数量成比例。此外，现有研究表明，在某一点上，进一步增大模型大小可能导致过度拟合问题或意外的模型表现退化问题。因此，模型压缩对于实现能够实时响应和更好的泛化能力的推荐模型至关重要。

事实上，推荐系统领域中的模型压缩问题比其他领域，如计算机视觉(CV)和自然语言处理(NLP)更具挑战性。例如，在CV中，用于ImageNet的ResNet-101只有4450万个参数。其中最大的NLP模型BERT Large(24层，16个注意头)有大约3.4亿个可训练参数。相比之下，在工业推荐系统中，例如YouTube和Amazon，存在着数亿个推荐项。如果简单地假设推荐项数为1亿，并将嵌入维度设为1024，可以得到关于输入嵌入和输出softmax矩阵的2000亿可训练的参数，分别比ResNet-101和BERT-Large大4000和400多倍。另一方面，在中小型推荐系统中，来自中间层的参数不可忽略，例如未来的车载推荐系统，其中内存消耗可能由中间层和嵌入矩阵支配。在实践中，如果用户行为序列较长，则可能需要堆叠更多的中间层以获得更好的精度

随着人们越来越多地关注模型压缩方法。一些相关的研究成果也不断被发表出来。例如，在一项研究成果中，提出了使用标准的低秩分解方法，将输入嵌入层和输出softmax层分别分解为两个较小的矩阵，在中间层采用了跨层参数共享的方法，通过这些方法对模型进行压缩，提高了参数效率。在另外一项研究成果中，提出了基于知识蒸馏的模型用于推荐领域，将知识从大型的、经过预训练的教师模型转移到通常较小的学生模型中，进而实现模型压缩。由于没有明确考虑到序列推荐领域的特点，上述两种方法均存在很大的局限性，如模型压缩过程中存在明显的损失性能，并且压缩效果不够理想。

在工业推荐系统中，例如YouTube和Amazon，存在着数亿个推荐项，为表示推荐项之间错综的复杂关系，导致输入嵌入层和输出softmax层的参数量巨大。另一方面，如果用户-推荐项交互序列较长，则可能需要堆叠更多的中间层以获得更好的模型表现,导致中间层参数量巨大。

目前，模型压缩技术在序列推荐系统中还没有得到很好的研究，这体现在，现有技术倾向于应用非常小的嵌入维数用于研究目的。此外，到目前为止，还没有文献使用深度学习模型高于20层的推荐任务。

总之，目前序列推荐模型存在三个明显缺陷：

1)、大型的推荐模型通常会带来明显的性能提升，但它也可能成为模型部署和实时预测的主要障碍。特别是对于处理具有大规模推荐项的推荐系统，输入嵌入层和输出softmax层的参数量呈爆炸性增长，在训练过程中批处理大小和嵌入大小的增加也会使得所需存储空间呈倍数增加，在输出层估计下一个的推荐项的概率时，由于推荐项的数量庞大，消耗时间过多导致训练和测试时极其缓慢。虽然模型并行化可以应用于大型深度模型加速模型，但通信开销仍然与模型中的参数数量成比例；

2)、在实践中推荐模型在处理长交互序列时，通常需搭建深度架构(即加深的堆叠层)用以获取长距离序列依赖信息，这也将大幅增加中间层的参数量；

3)、在某些情况下，进一步增大模型大小可能会导致过拟合或模型性能下降问题。

发明内容

本发明的一个目的是解决序列推荐领域中模型压缩的问题，提供一种基于序列推荐系统的通用压缩框架和压缩方法。

根据本发明的第一方面，提供一种基于序列推荐系统的通用网络压缩框架，包括：

基于分块自适应分解的输入嵌入层：根据推荐项的频率将推荐项集合划分为多个簇并将输入嵌入矩阵分割为对应的多个块,其中为每个簇的块分配不同维度；

分层参数共享的中间层：连接所述输入嵌入层，由多个残差块堆积而成，采用分层参数共享机制进行参数共享；

基于分块自适应分解的输出层：与所述输入嵌入层使用相同的分块嵌入的聚簇配置，并采用树型结构表示各簇的块，获得输出序列的概率分布，进而对期望的推荐项进行预测。

在一个实施例中，所述根据推荐项的频率将推荐项集合划分为多个簇并将输入嵌入矩阵分割为对应的多个块包括：

根据推荐项的频率对所有推荐项进行排序S＝{x ₁,x ₂,…,x _K}，其中x ₁和x _K分别是频率最高和最低的推荐项；

将推荐项集合S划分为n个簇，表示为S＝S ₁∪S ₂,…,∪S _n-1∪S _n,

其中

每个簇中推荐项的数量为k ₁,k ₂,…,k _n,且

K为所有推荐项的数量；

将输入嵌入矩阵E∈R ^K×d分割为n个块，表示为

其中d是嵌入大小。

在一个实施例中，对于输入嵌入层，还包括：

将块

分解为两个低阶矩阵

其中

d _j是第j个块的因式分解维度；

对于一给定推荐项标签IDx，其嵌入向量v _x∈R ^d表示为：

其中

表示第j个块的第g行的嵌入向量，

在一个实施例中，所述分层参数共享机制包括：

跨块参数共享，表示所有较高层都重复使用第一个残差块的参数；

相邻层参数共享，表示每个残差块中的两个单独的层共享相同的参数集；

相邻块参数共享，表示在每两个相邻残差块之间共享参数。

在一个实施例中，所述采用树型结构表示各簇的块包括：

构建两层树结构，每个树节点代表一个簇，第一个簇的嵌入矩阵被保存在树的根节点，其它簇的嵌入矩阵被保存在树的第二层的叶子节点中；

对于第一个簇，其中每一个推荐项被表示为一个不同的类，而对于其它的簇，为每一个推荐项分配两个节点，包括使用其簇的位置作为该推荐项的父类的根节点和代表其簇中特定位置的叶子节点。

在一个实施例中，所述输出层还执行：

将第一个块矩阵扩展为

其中n-1表示叶子节点所属的父类的数量，第一个簇的标签集合被扩展为S ₁＝{1,2,…,k ₁+n-1},其中 k ₁+1到k ₁+n-1对应于第2个至第n个簇的父类标签；输出层的其它的块矩阵表示为

其中

在一个实施例中，配置为包括多个中间层，并且每两个中间层都使用残差连接，作为一个残差块，通过倍增每一层的空洞因子来获得指数增长的感受野。

根据本发明的第二方面，提供一种利用本发明所提供的基于序列推荐系统的通用网络压缩框架的压缩方法，包括：

根据推荐项的频率将推荐项集合划分为多个簇并将输入嵌入矩阵分割为对应的多个块,其中为每个簇的块分配不同维度；

所述中间层由多个残差块堆积而成，采用分层参数共享机制进行参数共享；

所述输出层使用与所述输入嵌入层相同的分块嵌入的聚簇配置，并采用树型结构表示各簇的块，获得输出序列的概率分布，进而对期望的推荐项进行预测。

相对于现有技术，本发明的优点在于：基于序列推荐领域的特点，利用深度学习模型，提出了一种新的序列推荐的联合压缩框架,从输入嵌入层、输出softmax层和中间层三个方面来综合考虑模型压缩，有效地解决了模型参数量庞大的问题，提升了序列推荐模型的训练和推断效率，缓解了模型过拟合现象。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是根据本发明一个实施例的分块嵌入分解方法的示意图；

图2是根据本发明一个实施例的跨块、相邻层/块参数共享的示意图；

图3是根据本发明一个实施例的通用网络压缩框架的示意图；

附图中，block-块，layer-层。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

简言之，在本发明实施例中，提出两种通用的模型压缩机制来降低序列推荐系统的内存消耗，分别为分块自适应分解方法和分层参数共享方法。具体包括：为减少输入嵌入和输出softmax矩阵中的参数，提出了分块自适应分解方法得到分块嵌入矩阵，以近似原始的嵌入矩阵(输入嵌入矩阵和输出softmax矩阵在下文的描述中也统称为嵌入矩阵)；引入跨块参数共享、相邻层参数共享和相邻块参数共享方法以减少中间层的参数。由于这两种模型压缩机制是正交的，在本发明实施例中可以自然地将它们组合在一起，构成联合模型压缩框架，以实现更高的压缩率。

在本文中，将所提出的联合模型压缩框架命名为CpRec或称为基于序列推荐系统的通用网络压缩框架，该通用网络压缩框架结合序列推荐领域的特点，从输入层、输出层和中间深度架构三个方面来对序列推荐模型进行压缩，在保证模型的推荐精度的前提下，提升了模型工作效率，缓解模型过拟合现象并降低模型所需存储。在下文中，将分布介绍分块自适应分解(包含输入嵌入层和输出softmax层)、分层参数共享的中间层，并基于NextItNet架构来描述本发明所提供的CpRec。

一、关于分块自适应分解

在序列推荐系统中，推荐项的频率分布服从长尾分布，只有少数项目由于其频率高而可能包含丰富的信息，而其他项目可能仅包含有限的信息。例如，一些“头”(或流行)推荐项具有大量的用户交互，但是对于“尾巴”推荐项只有少数交互。鉴于此，对所有推荐项分配固定的嵌入维度是次优且不必要的，可能导致性能欠佳。直观而言，频率较高的推荐项可能比稀有推荐项包含更多的信息，因此应在训练过程中为其分配更多的容量。换句话说，更频繁(或受欢迎)的推荐项的嵌入维度应该比不受欢迎的推荐项的嵌入维度大。

例如，首先根据序列推荐系统的频率对所有推荐项进行排序S＝{x ₁,x ₂,…,x _K}，其中x ₁和x _K分别是频率最高和最低的推荐项。将推荐项集合S划分为n个簇，例如，表示为：S＝S ₁∪S ₂,…,∪S _n-1∪S _n,

其中

每个簇中推荐项的数量为k ₁,k ₂,…,k _n,且

K为所有推荐项的数量。通过这种方式，可以将输入嵌入矩阵E∈R ^K×d(如图1(a)所示)分割为n个块

(如图2(b)所示)，其中d是嵌入大小。采用相似的策略，对输出softmax矩阵P∈R ^d×K分割为n个块

接下来，将分别描述输入嵌入矩阵和输出softmax矩阵的分块自适应分解。

1)、基于分块自适应分解的输入嵌入层

在输入层中，将块

分解为两个低阶矩阵

其中

d _j是第j个块的因式分解维度(也称为秩)。由于高频率的推荐项应具有更高的表达能力，因此随着簇的索引增加，减小对应的d _j。相应地，每个推荐项的嵌入表示与通过原始的look-up操作的嵌入表示是不同的。给定推荐项标签IDx，将嵌入向量v _x∈R ^d表示为：

其中

表示第j个块的第g行的嵌入向量，

通过这种因式分解，能将输入嵌入层的参数量从O(K×d)减少到

当d _i＜＜d ₁，输入嵌入层的参数量会明显减少。参见图2(c)示意的分解过程。

与现有技术的普通输入嵌入层不同，本发明实施例的基于分块自适应分解的输入嵌入层根据所有推荐项的频率将其分为多个簇，每个簇的嵌入矩阵(称为块)由两个低秩矩阵分解，其中秩值也由簇中的推荐项的频率确定，即将较大的秩值分配给具有更多频繁项的块。通过分块自适应分解，能够为每个簇的块分配不同的维度进而大幅减少输入嵌入层的参数量。

2)、基于分块自适应分解的输出softmax层

在输出softmax层，参考class-based softmax(Le H S,Oparin I,Allauzen A,et al.Structured output layer neural network language model[C]//2011 IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP).IEEE,2011:5524-5527.)，在一个实施例中，通过两层树来构造这些块，其中每个树节点代表一个簇。图2(d)是输出softmax层的分块嵌入的示例。第一个簇的嵌入矩阵(第一个块)被保存在树的根节点，其它块被保存在树的第二层的叶子节点中。对于第一个簇，其中每一个推荐项被表示为一个不同的类；然而对于其它的簇，为每一个推荐项分配两个节点：使用其簇的位置作为该推荐项的父类的根节点和代表其簇中特定位置的叶子节点。通过这种方式，同一簇中的推荐项共享相同的父类。更具体地，在输出softmax层中使用与输入嵌入层类似的分块嵌入的聚簇配置。一个主要的不同是，输出层的第一个块矩阵被扩展为

其中n-1表示叶子节点所属的父类的数量。第一个簇的标签集合被扩展为S ₁＝{1,2,…,k ₁+n-1},其中k ₁+1到k ₁+n-1对应于第2个至第n个簇的父类标签。在输出softmax层的其它的块矩阵为

其中

对比于原始的softmax层，输出softmax层的参数量从O(K×d)减少到

通过上述方式，根据所有推荐项的频率将其分为多个簇，每个簇的嵌入矩阵(称为块)由两个低秩矩阵组成，其中秩值也由簇中的推荐项频率确定-将较高的秩值分配给具有更多频繁项的块。通过分块自适应分解方法，能够为每个簇的块分配不同的维度进而降低模型大小。

以下将详细描述在训练过程中建立目标函数以及在推理过程中生成推荐项。

训练过程中，在给定上下文向量h∈R ^d(即序列推荐模型的最终隐藏向量)的情况下，预测下一个用户可能感兴趣的推荐项，需要首先根据下一个推荐的标签(例如x)确定搜索空间。如果x属于第一个簇，则仅计算该簇中的logits。如果x属于其他簇，则将在其父类所属簇(即第一个簇)和当前簇中计算logits。

表示为：

其中，规定属于叶子节点的每个推荐项x在第一个簇中都具有父类标签c(x)。相应地，训练过程包括两个步骤。第一步，计算第一个聚类的logits，这需要O(k ₁+n-1)时间。在第二阶段，如果推荐项标签x属于叶子节点上的簇之一，将计算该簇的logits，这需要O(k _j)时间。通过这种方式，对比于使用原始的softmax，本发明使用分块嵌入的训练时间从O(K)减少到O(k ₁+n-1)和O(k ₁+k _j+n-1)之间。

令

为

通过softmax函数的归一化值，将关于

和真实标签向量y的损失函数f表示为：

与训练阶段不同，在推断过程中，推荐项属于哪个簇是未知的。但是，能够根据条件分布计算所有簇中推荐项的概率分布，表示为：

对于本发明的分块自适应分解的输出softmax层，在输出softmax层使用与输入嵌入层类似的分块嵌入的聚类结构，包括块数和每一个块的大小。并且在输出softmax层中设计了一种基于树表示的概率近似方法取代原始的softmax，从而显著地减少了输出softmax层的参数量，训练时间和推断时间。

综上，本发明提出了一种分块自适应分解方法用于输入嵌入和输出softmax层，以得到分块嵌入矩阵，进而近似序列推荐系统中原始的输入和输出层的嵌入矩阵，并在输出softmax层中基于树表示设计了一种概率近似方法替代原始的softmax。这种方式能够很好的降低输入/输出层的嵌入矩阵参数量，有效地提升序列推荐模型的训练和推断速度，从而解决了现有推荐系统中推荐项过多，使得输入嵌入层和输出softmax层的参数量巨大以及模型训练和推断速度缓慢的缺点。

二、分层参数共享的中间层

在许多实际的推荐系统中，用户交互序列可能非常长，例如短视频和新闻推荐。为了对长距离交互序列进行建模，一种常见的方法是构建更深的网络体系结构。但中间层的参数大小可能会占总体内存消耗的主导，尤其是对于移动或最终用户设备中的小规模应用而言。因此，本发明实施例提出的压缩方法主要集中在序列推荐模型上，该模型具有多个中间层，并且每两个中间层都通过残差连接(参见ResNet结构(He K,Zhang X,Ren S,et al.Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition.2016:770-778.))，例如NextItNet。

为了降低中间层的参数消耗，ALBERT(Lan Z,Chen M,Goodman S,et al.Albert:A lite bert for self-supervised learning of language representations[J].arXiv preprint arXiv:1909.11942,2019.)提出了跨层参数共享方法，如图2(a)所示。在减少大量冗余参数的同时，神经网络模型的表达也受到了一定程度的限制。实际上，使用该跨层共享方案，在推荐任务中，模型性能显著降低了。因此，本发明实施例提出了跨块参数共享，如图2(b)所示，其中所有较高层都重复使用第一个残差块(即两个底层)的参数。

为了充分利用深度模型的堆叠层的优势，同时提高参数效率，本发明实施例还提出了另外两种分层的参数共享方法：相邻层参数共享(如图2c所示)和相邻块参数共享(如图2(d)所示)。具体地，相邻层参数共享表示每个残差块中的两个单独的层共享相同的参数集。相邻块参数共享表示在每两个相邻残差块之间共享参数。这种参数共享策略具有两个主要优点：作为一种正则化方法，可以稳定训练过程并提高模型的泛化能力；可以显著减少参数量，而不会像跨层参数共享那样降低性能。特别是，通过相邻块参数共享，推荐准确率始终比基准模型更好。

综上，本发明提出了三种不同的分层参数共享方式(即跨块参数共享、相邻层参数共享、相邻块参数共享)，以减少中间层的冗余参数。随着模型层数的不断加深，有效地限制了参数量，从而解决了序列推荐领域中提取用户-推荐项交互序列中的长距离依赖信息所需搭建深度架构而造成的参数量庞大的缺点。

三、基于系统推荐系统的通用网络压缩框架的架构

本发明通过使用NextItNet架构实例化CpRec，参见图3所示总体的神经网络模型架构，其中分为三大模块，分别是分块自适应分解的输入嵌入层(对应图3中左方结构图)、分块自适应分解的输出softmax层(对应图3中右方结构图)和分层参数共享的中间层(对应图3的中间结构图)。

对于输入嵌入层，给定用户-推荐项交互序列{x ₁,x ₂,…,x _t+1}，序列推荐模型将通过基于分块嵌入矩阵的查找表检索前t个推荐项{x ₁,x ₂,…,x _t}的嵌入向量。然后可以将这些嵌入向量堆叠到一个新的矩阵中(如图3的左侧，其中t＝5)，该矩阵用作中间层的输入。

对于中间层，如图3的中间部分所示，参照NextItNet为CpRec使用空洞卷积层，其中每两层都使用残差连接，作为一个残差块。CpRec通过倍增每一层的空洞因子来获得指数增长的感受野，例如{1,2,4,8}。此外，为了进一步增强模型的表达能力和提高准确性，可堆叠该结构多次，例如{1,2,4,8,…,1,2,4,8}。然后可以在这些中间层应用所提出的分层参数共享策略，以提高它们的参数效率。

对于输出softmax层，采用树型结构的分块嵌入矩阵来表示每个簇的块。如前所述，对于训练和推理阶段，CpRec都可以通过这种结构实现显著的加速。类似于NextItNet，给定每个输入序列{x ₁,…,x _t}，CpRec估计表示{x ₂,…,x _t+1}的输出序列的概率分布，其中x _t+1是预期的下一个被期望的推荐项。

需要说明的是，在不违背本发明精神的前提下，本领域技术人员对上述实施例可以作适当的变型，例如，根据序列推荐系统的频率对所有推荐项进行排序也可采用频率由小到大的排序方式，又如，在输出层可构建多层树结构等。

综上所述，本发明基于序列推荐领域的特点，在深度学习模型的基础上，提出了一种新的基于深度序列推荐的模型压缩框架CpRec，其是一种用于学习压缩的序列推荐模型的灵活通用的神经网络压缩框架。该框架从输入嵌入层、输出softmax层和中间层三个方面来综合考虑模型压缩，提升了序列推荐模型的训练和推断效率，缓解了模型过拟合现象，降低了模型的存储占有量。CpRec能够实现更快的训练/推断速度，更低的内存并以更好的推荐准确率生成用户感兴趣的推荐项。

为了验证本发明所提出基于序列推荐系统的通用网络压缩框架的有效性和先进性，使用联合压缩框架CpRec在tiktok、movielen这两个广泛使用的推荐数据集上进行了大量实验和消融分析，从而进行推荐性能、参数量和训练\推断时间测试对比。实验结果表明，本发明始终优于现有的NextItNet和RNN等基准模型，可以被广泛应用于序列推荐领域。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是，通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。

以上已经描述了本发明的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims

一种基于序列推荐系统的通用网络压缩框架，包括：

基于分块自适应分解的输入嵌入层：根据推荐项的频率将推荐项集合划分为多个簇并将输入嵌入矩阵分割为对应的多个块,其中为每个簇的块分配不同维度；

分层参数共享的中间层：连接所述输入嵌入层，由多个残差块堆积而成，采用分层参数共享机制进行参数共享；

基于分块自适应分解的输出层：与所述输入嵌入层使用相同的分块嵌入的聚簇配置，并采用树型结构表示各簇的块，获得输出序列的概率分布，进而对期望的推荐项进行预测。
根据权利要求1所述的基于序列推荐系统的通用网络压缩框架，其中，所述根据推荐项的频率将推荐项集合划分为多个簇并将输入嵌入矩阵分割为对应的多个块包括：

根据推荐项的频率对所有推荐项进行排序S＝{x ₁,x ₂,…,x _K}，其中x ₁和x _K分别是频率最高和最低的推荐项；

将推荐项集合S划分为n个簇，表示为S＝S _１∪S _２,…,∪S _n-1∪S _n,

其中
α≠β，每个簇中推荐项的数量为k ₁,k ₂,…,k _n,且
K为所有推荐项的数量；

将输入嵌入矩阵E∈R ^K×d分割为n个块，表示为

其中d是嵌入大小。
根据权利要求2所述的基于序列推荐系统的通用网络压缩框架，其中，对于输入嵌入层，还包括：

将块
分解为两个低阶矩阵
其中
d _j是第j个块的因式分解维度；

对于一给定推荐项标签IDx，其嵌入向量v _x∈R ^d表示为：

其中
表示第j个块的第g行的嵌入向量，
根据权利要求1所述的基于序列推荐系统的通用网络压缩框架，其中，所述分层参数共享机制包括：

跨块参数共享，表示所有较高层都重复使用第一个残差块的参数；

相邻层参数共享，表示每个残差块中的两个单独的层共享相同的参数集；

相邻块参数共享，表示在每两个相邻残差块之间共享参数。
根据权利要求3所述的基于序列推荐系统的通用网络压缩框架，其中，所述采用树型结构表示各簇的块包括：

构建两层树结构，每个树节点代表一个簇，第一个簇的嵌入矩阵被保存在树的根节点，其它簇的嵌入矩阵被保存在树的第二层的叶子节点中；

对于第一个簇，其中每一个推荐项被表示为一个不同的类，而对于其它的簇，为每一个推荐项分配两个节点，包括使用其簇的位置作为该推荐项的父类的根节点和代表其簇中特定位置的叶子节点。
根据权利要求5所述的基于序列推荐系统的通用网络压缩框架，其中，所述输出层还执行：

将第一个块矩阵扩展为
其中n-1表示叶子节点所属的父类的数量，第一个簇的标签集合被扩展为S ₁＝{1,2,…,k ₁+n-1},其中k ₁+1到k ₁+n-1对应于第2个至第n个簇的父类标签；输出层的其它的块矩阵表示为
其中
根据权利要求1所述的基于序列推荐系统的通用网络压缩框架，其中，配置为包括多个中间层，并且每两个中间层都使用残差连接，作为一个残差块，通过倍增每一层的空洞因子来获得指数增长的感受野。
一种利用权利要求1至7任一项所述的基于序列推荐系统的通用网络压缩框架的压缩方法，包括：

根据推荐项的频率将推荐项集合划分为多个簇并将输入嵌入矩阵分割为对应的多个块,其中为每个簇的块分配不同维度；

所述中间层由多个残差块堆积而成，采用分层参数共享机制进行参数共享；

所述输出层使用与所述输入嵌入层相同的分块嵌入的聚簇配置，并采用树型结构表示各簇的块，获得输出序列的概率分布，进而对期望的推荐项进行预测。
一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现根据权利要求8所述的压缩方法的步骤。
一种计算机设备，包括存储器和处理器，在所述存储器上存储有能够在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求8所述的压缩方法的步骤。