WO2024032119A1

WO2024032119A1 - 一种多模态信源联合编码方法

Info

Publication number: WO2024032119A1
Application number: PCT/CN2023/098536
Authority: WO
Inventors: 宋晓丹; 李甫; 高大化; 谢雪梅; 石光明
Original assignee: 西安电子科技大学
Priority date: 2022-08-12
Filing date: 2023-06-06
Publication date: 2024-02-15
Also published as: CN115604475A; CN115604475B

Abstract

一种多模态信源联合编码方法，先将多个模态信源经过相应第一编码器提取特征去除每个模态信号内部冗余，得到对应的特征图；然后将多组特征图连接起来输入第二编码器，解耦为共性特征图和个性特征图；共性特征图表示不同模态信源之间的共同部分，个性特征图表示每个模态信源所独有的特征；最后将多个模态信源的个性特征图和共性特征图经过相应解码器解码并重建相应的模态信源，即分别经过熵编码，转换为二进制码流进行存储或者传输；在解码端二进制码流进行熵解码后分别经过相应的解码器恢复得到相应的模态信源；本发明利用不同信源之间的相关性，减少相关信息的重复传输降低传输带宽，降低存储空间；解码端恢复出不同模态信源，具有模态可伸缩性。

Description

一种多模态信源联合编码方法

技术领域

本发明涉及信源编码技术领域，具体涉及一种多模态信源联合编码方法。

背景技术

信源编码作为一种基础技术，被广泛应用于各个领域。信源编码是信息时代多媒体技术和互联网技术结合的产物，旨在允许一定失真或者不允许失真前提下，用最少的比特表示信源。高效率的信源编码技术可以在有限带宽下大大提升解码后的信源质量，降低存储空间。例如，根据输入的不同目前有文本压缩、图像压缩(如PNG，BMP，JPEG，BPG，WEBP等压缩标准)、视频压缩(如H.264/AVC，H.265/HEVC，H.266/VVC，VP9，AV1，AVS1，AVS2，AVS3等)、音频编码(如AAC等)等等，这些标准有一个共同的特点，只针对单一种类的输入，例如文本压缩只针对文本输入，图像压缩只针对图像，视频压缩针对图像或者视频，音频编码只针对音频输入，无法对其他形式的进行处理，即便处理也需要经过前处理，而且效率低下。例如，视频压缩编码标准无法直观对文本进行压缩，尽管可以通过预处理将文本组织成视频形式，但是其内容与正常的视频差异大，无实际物理意义，视频编解码标准中的技术并不针对这种非正常信号设计，因此即便强制编码也会效率低下。

实际中，经常综合几种模态的数据一起进行某种表达，例如，电视剧电影等最常见的模态包含视频、音频和字幕三种模态，按照以上标准，目前的方案几乎都是对三种模态分别编码，但是实际上该三种模态信号之间存在关联，即存在一定程度的冗余，而现有的独立编码方法无法消除此类冗余，因此是对带宽或者存储空间的一种浪费。因此需要一种能够对多种模态的信号进行联合编码的方法，以去除不同模态信号之间的相关性，降低冗余，从而达到减少带宽和节省存储空间的目的。

发明内容

为了克服上述现有技术的缺点，本发明的目的在于提供了一种多模态信源联合编码方法，通过在编码压缩过程中利用不同信源之间的相关性，减少相关信息的重复传输从而降低传输带宽，降低存储空间；解码端根据需要恢复出不同模态信源，即具有模态可伸缩性。

为了达到上述目的，本发明采取的技术方案为：

一种多模态信源联合编码方法，包括以下步骤：

1)将多个模态信源经过相应第一编码器以提取特征去除每个模态信号内部冗余，得到对应的特征图；

2)为了去除不同模态信号之间的相关性，将多组特征图连接起来输入第二编码器，解耦为共性特征图和个性特征图；共性特征图表示不同模态信源之间的共同部分，个性特征图表示每个模态信源所独有的特征；

3)将多个模态信源的个性特征图和共性特征图经过相应解码器解码并重建相应的模态信源，即分别经过熵编码，转换为二进制码流进行存储或者传输；在解码端二进制码流进行熵解码后分别经过相应的解码器恢复得到相应的模态信源。

引入了知识库，对多模态信源进行联合编码；知识库是多模态或单模态，多模态知识库是指知识库中存储包含多种不同形式来自不同模态信源的信息；单个或多个模态信源经过“模态解析”获得检索知识库的索引，“模态解析”为了获取知识库节点实体以进行查询和推理。

所述的多模态知识库一种表现形式中有文本和图像，以节点和边表示，每个节点表示一个实体或者表示文本或者表示图像，每条边表示不同节点之间的关系。

本发明的有益效果为：本发明提出了一种多模态信源联合编码方法，将每个模态信源表征为共性特征和个性特征，不同模态信源之间的共性特征相同，进而实现多个模态信源的联合编码。相比于多个模态信源独立编码，本发明通过在编码压缩过程中利用不同信源之间的相关性，减少相关信息的重复传输从而降低传输带宽和存储空间。同时，解码端可以根据需要恢复出不同模态信源，即具有模态可伸缩性的优点。

本发明在以上多模态联合编码方法基础上，引入了知识库(其中存在与待编码信源的强相关已知信息)，增加了先验知识，显式关联了不同模态的信源，在编码过程利用知识库中的先验知识对多模态编码过程进行指导。因而，相比没有知识库的多模态联合编码，能够进一步节省存储空间，降低带宽。

附图说明

图1为本发明实施例1一种多模态信源联合编码方法的流程图。

图2为本发明实施例2一种知识库辅助的多模态信源联合编码方法的流程图。

图3为本发明实施例2中图像和文本多模态知识库。

图4为本发明实施例3一种知识库辅助的多模态信源联合编码方法的流程图。

具体实施方式

下面结合附图和实施例对本发明做详细描述。

实施例1，实施例1给出了给出了两种信源作为输入的例子，一种多模态信源联合编码方法，包括以下步骤：

1)给定两个模态信源“模态1”和“模态2”，分别记为src₁和src₂，两个模态信号分别经过第一编码器A和第一编码器B以提取特征去除每个模态信号内部冗余，得到特征图feat₁和特征图feat₂，其中第一编码器A和第二编码器B无特殊限制可以是神经网络中的卷积神经网络CNN，也可以是时序循环神经网络RNN；特征图feat₁和特征图feat₂可以是一维向量，也可以是二维矩阵甚至更高维度的张量；

2)为了去除不同模态信号之间的相关性，将两组特征图连接起来输入第二编码器C，解耦为共性特征图和个性特征图；共性特征图表示不同模态信源之间的共同部分，通常为语义层面；个性特征图表示每个模态信源所独有的特征；以视频和音频两个模态信源为例，共性特征可能是视频中人物所说的话语，音频中通常也包含该信息；视频的个性特征可以是视频中人物的外表或者人物以外其他如花草等背景信息，音频的个性特征可能包含其他非相关音频，也可以是视频通常难以表达的语气等；

本实施例进行共性和个性特征解耦，输出模态1的个性特征feati₁，两种模态的共性特征featc和模态2的个性特征feati₂，第二编码器C中可能包含量化过程以实现有损编码，其结构无特殊要求，既可以是CNN，RNN还可以包含hyper prior模型；另外，需要说明的是，feati₁，featc和feati₂三类特征内部特性不一定相同，如feati₁内部可能包含边信息featis₁以及特征featii₁，其中的边信息featis₁用以辅助featii₁生成，featc和feati₂同理；

3)featc，feati₁和feati₂三类特征分别经过熵编码，转换为二进制码流进行存储或者传输；在解码端二进制码流进行熵解码后恢复得到feati₁，featc和feati₂；之后feati₁和featc共同输入解码器A，以恢复模态1，标记为feati₁和featc共同输入解码器B，以恢复模态2，记为

以上为测试时的流程，在训练过程中只需要有成对的多模态数据就可以进行训练，训练过程多个模态的编码器和解码器一起进行端到端训练，损失函数设计为以下形式：

其中的Quality₁(·,·)和Quality₂(·,·)分别用于衡量编码造成的模态1和模态2的质量损失。例如对于对于视频或者图像可以用PSNR(峰值信噪比)，MS-SSIM(多尺度-结构相似性)或者感知损失等进行衡量；和用于衡量和转换为二进制码流所消耗的比特数量，通常可以通过估计获得。例如上述描述中，可以假设featc，feati₁和feati₂三类特征服从高斯分布，用featis₁中的部分特征表示高斯分布的均值，另外部分特征表示方差，即编码器采用变分自编码器VAE结构，则码率和可以用香农熵估计得到；公式中的λ₁，λ，λ₃属于超参数，λ₁控制模态1和模态2重建质量之间的折中，即当更希望模态1的信源失真更小时λ₁可以设置比较小，反之亦然；λ₃在模态1和模态2之间进行码率分配，即两种模态总的带宽或者存储空间要求一定，λ₃较大时倾向于模态1码率更大和模态2码率更小，反之亦然；λ用于控制质量和码率之间的折中，通常质量越高所消耗的码率越大，质量越低所消耗的码率越小，即λ用于选取最终的码率点，λ越大则选取的码率点越低，适用于带宽越低的场景，相应的重建质量会越低，反之亦然。

实施例2，参照图2，实施例2在实施例1的基础上引入了知识库，可以更高效的对多模态信源进行联合编码。

图2中的知识库既可以是多模态也可以是单模态，多模态知识库是指知识库中存储包含不同形式的信息(通常来自不同模态信源)；图3以文本和图像为例给出了一种多模态知识库的例子，其中的多模态知识库有文本和图像，以节点和边表示，每个节点表示一个实体或者表示文本或者表示图像，每条边表示不同节点之间的关系，例如Claude Shannon是World Computer Chess Championship的嘉宾，其中“Claude Shannon”和“World Computer Chess Championship”是节点，边“guestOf”表示两者关系。图3右下角给出了Claude Shannon的图像，“Claude Shannon”和其图像使用带方向的边“imageOf”相连；“Deep Thought”参加“World Computer Chess Championship”比赛，通过两个节点分别表示“Deep Thought”和“World Computer Chess Championship”，通过“attend”表示两者之间的关系。

实施例2在实施例1的基础上引入了知识库，在实施例1的基础上，模态1信源经过“模态1解析”可以获得检索知识库的索引，模态2信源经过“模态2解析”也可以获得检索知识库的索引，两者只有其一也可以，有两种解析可以从知识库中检索到更多的相关信息或者增强鲁棒性，对多模态信源的编码效率提升作用更大。其中“模态1解析”和“模态2解析”主要为了获取知识库节点实体以进行查询和推理。经过知识库的推理和查询后，相关信息可以经过第三编码器D进行嵌入编码得到知识库特征，与信源特征通过第二编码器C进行联合编码，去除信源编码与知识库的冗余，从而提升编码效率。相应的在解码过程解码器A和解码器B也需要输入知识库特征对模态1和模态2信源进行解码。

实施例2所引入的知识库的目的在于增加了先验知识；显式关联了不同模态的信源。

实施例2的具体流程为：一种多模态信源联合编码方法，包括以下步骤：

1)给定两个模态信源“模态1”和“模态2”，分别记为src₁和src₂，两个模态信号分别经过第一编码器A和第一编码器B以提取特征去除每个模态信号内部冗余，得到特征图feat₁和特征图feat₂；

模态1信源经过“模态1解析”获得检索知识库的索引，模态2信源经过“模态2解析”获得检索知识库的索引，其中“模态1解析”和“模态2解析”主要为了获取知识库节点实体以进行查询和推理；经过知识库的推理和查询后，相关信息经过编码器D进行嵌入编码得到知识库特征；

2)为了去除不同模态信号之间的相关性，将两组特征图连接起来输入第二编码器C，解耦为共性特征图和个性特征图；共性特征图表示不同模态信源之间的共同部分，通常为语义层面；个性特征图表示每个模态信源所独有的特征；以视频和音频两个模态信源为例，共性特征可能是视频中人物所说的话语，音频中通常也包含该信息；视频的个性特征可以是视频中人物的外表或者人物以外其他如花草等北京信息，音频的个性特征可能包含其他非相关音频，也可以是视频通常难以表达的语气等；

本实施例进行共性和个性特征解耦，输出模态1的个性特征feati₁，两种模态的共性特征featc和模态2的个性特征feati₂，第二编码器C中可能包含量化过程以实现有损编码；

知识库特征与信源特征通过第二编码器C进行联合编码，去除信源编码与知识库的冗余，从而提升编码效率；

在解码过程解码器A和解码器B也需要输入知识库特征对模态1和模态2信源进行解码。

实施例3，参照图4，实施例3给出了引入知识库的一种实施例，知识库所起的作用在于根据“文本”信源中的“Claude Shannon”关键字查询知识库中可以获得其本人的图像，从而无需编码“图像”信源中的Claude Shannon所对应的图像部分，因而可以更高效的对图像进行图像和文本进行编码。

参照图4，本实施例的输入为“文本”和“图像”两种模态信源，分别对应实施例2的图2中的“模态1”和“模态2”，文本信源中的“命名实体识别：BERT”对应“模态1解析”，即可以借鉴自然语言处理领域中的BERT技术对文本中的命名实体解析得到实体名称，如“Claude Shannon”和“Deep Thought”，输入到知识库中进行查询与推理，经过编码之后生成知识库特征该特征通常是嵌入后的特征向量；图4中未对模态2进行解析，即没有利用图2中的“模态2解析”。对于主分支，“文本”模态经过文本编码器，如GRU可以编码为文本特征，“图像”模态经过场景图生成技术检测图像中的目标并建立目标之间的关系，该场景图经过卷积网络生成图像特征图，标记为图像特征。之后，文本特征、图像特征连接后，与知识库特征共同作为输入送入第二编码器C进行编码，生成文本个性特征、图像个性特征以及文本和图像的共性特征。图4中未展示将特征进行无损编码生成二进制码流的过程，以及对二进制码流进行解码生成对应特征的部分。除此之外，解析到的“实体名称”也需要编码传输到解码端。

在解码端，文本个性特征、共性特征和知识库特征共同作为输入，经过文本解码器输出文本；图像个性特征、共性特征和知识库特征共同作为输入经过图像解码器输出图像。从图4可以看到，通过引入知识库，编码端无需传输图像中Claude Shannon对应的部分，只需传输解析到的Claude Shannon实体，解码端通过知识库可以获得知识库中的Claude Shannon对应的图像；此外，也不需要传输编码“Edmonton”和“1989”，可以通过知识库传输推理得到。编码端图像的个性特征主要包含“Feng-hsiung Hsu”的衣着，姿态和位置特征。文本中的个性特征主要包含“Feng-hsiung Hsu”和“first prize”；共性特征包含“Claude Shannon”和“Deep Thought”等信息。因此，增加知识库后使得编码更加高效。本实施例的训练过程和实施例1类似，损失函数的设计也类似。

Claims

一种多模态信源联合编码方法，其特征在于，包括以下步骤：

1)将多个模态信源经过相应第一编码器以提取特征去除每个模态信号内部冗余，得到对应的特征图；

2)为了去除不同模态信号之间的相关性，将多组特征图连接起来输入第二编码器，解耦为共性特征图和个性特征图；共性特征图表示不同模态信源之间的共同部分，个性特征图表示每个模态信源所独有的特征；

3)将多个模态信源的个性特征图和共性特征图经过相应解码器解码并重建相应的模态信源，即分别经过熵编码，转换为二进制码流进行存储或者传输；在解码端二进制码流进行熵解码后分别经过相应的解码器恢复得到相应的模态信源。
根据权利要求1所述的方法，其特征在于：引入知识库，对多模态信源进行联合编码；知识库是多模态或单模态，多模态知识库是指知识库中存储包含多种不同形式来自不同模态信源的信息；单个或多个模态信源经过“模态解析”获得检索知识库的索引，“模态解析”为了获取知识库节点实体以进行查询和推理。
根据权利要求2所述的方法，其特征在于：所述的多模态知识库一种表现形式中有文本和图像，以节点和边表示，每个节点表示一个实体或者表示文本或者表示图像，每条边表示不同节点之间的关系。