WO2021227091A1

WO2021227091A1 - 一种基于图卷积神经网络的多模态分类方法

Info

Publication number: WO2021227091A1
Application number: PCT/CN2020/090879
Authority: WO
Inventors: 王魏
Original assignee: 南京智谷人工智能研究院有限公司
Priority date: 2020-05-15
Filing date: 2020-05-18
Publication date: 2021-11-18
Also published as: CN111985520A; CN111985520B

Abstract

本发明公开了一种基于图卷积神经网络的多模态分类方法，包括以下步骤：(一)首先需要用户准备好一个对象库，其中每个对象包含V个模态，通过人工标注的方法为库中的少量对象提供一个类别标记，这些有类别标记的对象称为初始的有标记训练数据，它们和剩余的大量未标记对象一同构成训练数据集；本发明通过创新的多模态图卷积神经网络综合考虑了不同模态的图结构信息，在多模态图卷积神经网络的每一层中通过分配可训练的权值，使得每个模态所学的表示能够逐步考虑其它模态的结构信息。

Description

一种基于图卷积神经网络的多模态分类方法

技术领域

本发明属于计算机科学与技术中人工智能领域技术领域，具体涉及一种基于图卷积神经网络的多模态分类方法。

背景技术

近年来，实际应用中出现着越来越多的多模态数据，例如，互联网中的多媒体数据往往包含多个模态信息：视频、图像以及周围出现的文本信息；网页数据也包含多个模态信息：网页自身的文本信息和链接到网页的超链接信息。这些多模态数据蕴含着巨大的经济价值，同时利用这些多模态数据往往能够获得比单模态数据更好的结果。例如，在基于信息流的用户内容推荐中，可以同时考虑信息流中的不同模态信息(例如图片、文本)来为用户推荐其感兴趣的内容。在实际应用中，我们很容易从不同模态中发现数据的多重结构信息，例如用户对特定的某一类相似的图片都表现出兴趣，而同时这些用户对另外一类相似的文本表现出兴趣，利用这些基于多模态的结构信息，能够进一步地提升性能。另一方面，图卷积神经网络能够将图结构信息嵌入到神经网络中，且适合处理大规模数据，但并不能被直接应用到多模态场景中，实际应用中的对象经常具有多模态信息，但是传统的多模态方法只是在多个模态上分别训练学习器然后将其集成,这样的方式容易忽略不同模态中有用的结构信息为此我们提出一种基于图卷积神经网络的多模态分类方法。

发明内容

本发明的目的在于提供一种基于图卷积神经网络的多模态分类方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于图卷积神经网络的多模态分类方法，包括以下步骤：

(一)首先需要用户准备好一个对象库，其中每个对象包含V个模态。接下来通过人工标注的方法为库中的少量对象提供一个类别标记，这些有类别标记的对象称为初始的有标记训练数据，它们和剩余的大量未标记对象一同构成训练数据集。

(二)通过特征提取算法，将训练对象库中的对象转化成相应的特征表示，即提取对象库中对象的特征，将所有对象转化成相应的特征向量。由于对象包含V个模态，最终得到的每个对象的特征向量也分为V个部分。

(三)对象的特征提取方法也有很多种，例如对于网页中的一段文本，文本中的每个词出现的次数都可以作为该对象的一个特征，文本的长度也可以作为该网页的一个特征。假设两个模态上特征的个数分别为d ₁和d ₂，那么每个对象就可以对应到d ₁和d ₂维欧式空间的两个特征向量。

(四)将训练数据集和选定的基分类器类型输入到本发明提出的多模态图卷积神经网络训练算法中，经过训练后就可以得到最终的分类器。

(五)在预测阶段，用户根据待测对象在V个模态上的特征向量分别添加k条最近邻边指向对象库，再讲得到的新图与得到特征向量分别输入给训练得到的V个分类器，分类器就会给用户返回该对象的预测结果，然后在V个预测结果中选择置信度较高的那个作为最终标记输出。

与现有技术相比，本发明的有益效果是：本发明通过创新的多模态图卷积神经网络综合考虑了不同模态的图结构信息，在多模态图卷积神经网络的每一层中通过分配可训练的权值，使得每个模态所学的表示能够逐步考虑其它模态的结构信息。此外，本发明虽然需要建图，但是可以被用于归纳式的学习场景，在训练时无需得到待测样本。

附图说明

图1是本发明的流程图；

图2是本发明中多模态图卷积神经网络训练算法的流程图；

图3是本发明中多模态图卷积神经网络预测算法的流程图；

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

步骤1，建立一个包含n个信息的对象库作为训练对象库，通过人工标注的方式为对象库中的少量对象赋予一个类别标记，使用y _i代表第i个对象的类别标记。对于二分类问题，比如说军事新闻网页是第一类，娱乐新闻网页是第二类。如果第i个对象中包含的内容是军事新闻，则y _i＝1，即该对象属于第一类，如果对象中用户包含的内容是娱乐新闻，则y _i＝0，该网页属于第二类。假设初始共有l个网页被赋予了标记，剩下的u＝n-l个对象没有赋予标记。

步骤2，通过特征提取算法，提取对象库中对象的特征，将所有对象转化成相应的双模态特征向量对；使用x _i＝(x _1,i,x _2,i)表示其中经过特征提取后的第i个对象的双模态特征向量对，也可以称其为样本x _i；双模态的特征可以用矩阵X ₁和X ₂表示。

步骤3，让用户选择需要使用的k及距离空间，可以是各种常见的距离空间，包括欧氏距离,Cosine距离等,然后根据所选的k值及距离空间建立k-近邻图,对于模态v用邻接图表示为A _v。假设所使用的距离度量可以表示为d(x _i,x _j)，那么若样本i是样本j的k近邻，则A _v(ij)＝exp(-d(x _i,x _j)/σ ²)，其中σ为超参数，通常从{0.01,0.1,1}中选取；

步骤4，使用多模态图卷积神经网络训练算法训练分类器，其中多模态图卷积神经网络的具体结构为：

1)隐层结构为：

对于k∈{1,2,...,K _v-1}，

D _v＝∑ _jA _v(ij)，其中A _v(ij)代表A _v的第i行第j个元素。

2)输出层结构为：

其中K是卷积层层数。

步骤5，得到待预测样本，用与步骤2相同的特征提取算法提取特征，用与步骤3相同的距离度量建立新图，建图的方法为除了原有的边以外，为每一个待测样本寻找其在原有对象库中的k近邻，并将其连边。

步骤6，将特征与新图一起输入步骤4中训练好的多模态图卷积神经网络。最后根据输出值推断出预测标记。

如图2所示，加权多模态图卷积神经网络方法的训练流程为：

步骤7，最大迭代轮数T，图卷积网络层数；初始化多模态图卷积神经网络f ₁,f ₂,...,f _V，将其中图卷积层中的参数

初始化为

步骤8，若t>T，转到步骤11；否则继续训练转到步骤9

步骤9，分别为模态v＝1,2,...,V，固定

使用有标记数据及损失函数计算损失，并使用优化器例如SGD或者Adam优化算法更新网络中参数

步骤10，通过分别为模态v＝1,2,...,V，固定

使用有标记数据及损失函数计算损失，并使用优化器例如SGD或者Adam更新网络中参数

其中根据对应梯度的计算方法为

之后令迭代计数器t加1，转到步骤8。

步骤11，输出得到的网络f ₁,f ₂,...,f _V。

如图3所示，加权多模态图卷积神经网络方法的预测流程为：

步骤12，对于待预测的t个样本，首先利用步骤2中的方法提取特征

步骤13，再利用步骤3所使用的同样的距离度量为每个待预测样本在对象库中寻找k个最近的邻居并对应的新图A _v′赋权，其中

步骤14，预测时使用f _v(X _v′,A _v′,v＝1,2,...,V)的结果，其中

是待测样本的特征矩阵。

步骤15，先集成各模态预测结果

步骤16，再根据对各类的预测值输出结果

其中i∈n+1,...,n+t对应的是待预测样本。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

一种基于图卷积神经网络的多模态分类方法，包括以下步骤：

(一)建立一个对象库作为训练数据集，其中对象库包含n个对象，给对象库中的少量对象赋予一个类别标记，用l表示有标记的对象数目，u表示未标记的对象数目；

(二)通过特征提取算法，提取对象库中不同模态对应的特征，假设具有V个模态，为每个对象生成特征向量对(特征1，特征2，...，特征V)。

(三)为每一个模态的特征建立一个k-近邻图，对于模态v，其邻接矩阵记作A _v；

(四)将数据的特征向量以及每一个模态的k-近邻图输入到多模态图卷积神经网络中，为每个模态分别训练得到一个分类器；

(五)获取待测对象，用t表示待测对象数目并用步骤(二)中相同的方法得到其特征向量对,用步骤(三)中的建图方法将新的样本加入到图中。

(六)将各个模态上的特征向量及所有更新后的k-近邻图输入步骤(四)所训练得到的对应分类器中，获得V个预测标记，并输出其中置信度较高的那个作为最终标记。
如权利要求1所述的基于图卷积神经网络的多模态分类方法，其特征在于，所述步骤(四)中使用了新的多模态图卷积神经网络，其具体结构为：

在训练时，所实用的在第v个模态中训练的网络：

(1)隐层结构为：
对于k∈{1,2,...,K _v-1}，其中
是第v个网络在第K层的表示，
是可训练参数，

混合图卷积被定义为
其中
是图卷积权重，D _v＝∑ _jA _v(ij)，其中A _v(ij)代表A _v的第i行第j个元素，

(2)输出层结构为：
其中K _v是第v个网络的多模态图卷积层层数。

在预测时，所使用的结构有：

S1先集成各模态输出表示

S2再根据对各类的预测值输出结果
如权利要求1所述的基于图卷积神经网络的多模态分类方法，其特征在于，所述步骤(四)，使用多模态图卷积神经网络作为分类器，其具体步骤为：

S1最大迭代轮数T，图卷积网络层数；初始化多模态图卷积神经网络f ₁,f ₂,...,f _V，将其中图卷积层中的参数
初始化为

S2若t>T，转到步骤5)；否则继续训练转到步骤3)

S3分别为模态v＝1,2,...,V，固定
使用有标记数据及损失函数计算损失，并使用优化器例如SGD或者Adam优化算法更新网络中参数

S4通过分别为模态v＝1,2,...,V，固定
使用有标记数据及损失函数计算损失，并使用优化器例如SGD或者Adam更新网络中参数
其中根据对应梯度的计算方法为
之后令迭代计数器t加1，转到步骤2).

S5输出得到的网络f ₁,f ₂,...,f _V。
如权利要求1所述的基于图卷积神经网络的多模态分类方法，其特征在于，所述步骤(五)，能够归纳式地预测待测样本的标记，无需在训练时得到待测样本信息，其具体步骤为：

S1对于待预测的t个样本，首先利用步骤(二)中的方法提取特征

S2再利用步骤(三)所使用的同样的距离度量为每个待预测样本在对象库中寻找k个最近的邻居并对应的新图A _v′赋权，其中

S3预测时使用f _v(X _v′,A _v′,v＝1,2,...,V)的结果，其中

是待测样本的特征矩阵。

S4先集成各模态输出表示

S5再根据对各类的预测值输出结果
其中i∈n+1,...,n+t对应的是待预测样本。