WO2021027238A1

WO2021027238A1 - 基于flash存算阵列的图像压缩系统和方法

Info

Publication number: WO2021027238A1
Application number: PCT/CN2019/130472
Authority: WO
Inventors: 康晋锋; 项亚臣; 黄鹏; 刘晓彦; 韩润泽
Original assignee: 北京大学
Priority date: 2019-08-12
Filing date: 2019-12-31
Publication date: 2021-02-18
Also published as: CN110475119A; US20220321900A1

Abstract

本公开提供了一种基于FLASH存算阵列的图像压缩系统和方法，图像压缩系统包括：基于FLASH存算阵列的编码卷积神经网络、基于FLASH存算阵列的解码卷积神经网络和量化模块；所述基于FLASH存算阵列的编码卷积神经网络对原始图像进行编码，得到特征图像；所述量化模块对所述特征图像进行量化，得到量化图像；所述基于FLASH存算阵列的解码卷积神经网络对所述量化图像进行解码，得到压缩图像。

Description

基于FLASH存算阵列的图像压缩系统和方法

技术领域

本发明属于半导体器件及集成电路领域，具体是一种基于FLASH存算阵列的图像压缩系统和方法。

背景技术

图像压缩是以减少图像中的时间、空间和频谱等冗余为目的，用较少的比特数有损或者无损的表示原来图像，从而实现高效存储与传输图像数据的图像处理技术。图像压缩分为编码、量化和解码三个部分，编码和解码操作在图像压缩中占极大比重。

深度学习和大数据技术的发展导致非结构化数据，如图像、视频等剧增，图像压缩能够减少图像的不相关性和冗余度，从而实现以低比特率存储或传输图像。传统的图像编码标准如JPEG和JPEG2000，当增加图像压缩比时，量化步长随之增加，会导致每像素比特(BPP)减小、解码图像具有块效应或噪声等问题。

公开内容

本公开提出了一种基于FLASH存算阵列的图像压缩系统和方法，主要解决以下技术问题：(1)基于FLASH的存储计算一体化架构与硬件实现；(2)基于FLASH存算阵列实现图像压缩；(3)基于FLASH存算阵列加速图像压缩。

根据本公开的一个方面，提供了基于FLASH存算阵列的图像压缩系统，包括：基于FLASH存算阵列的编码卷积神经网络、基于FLASH存算阵列的解码卷积神经网络和量化模块；

所述基于FLASH存算阵列的编码卷积神经网络对原始图像进行编码，得到特征图像；

所述量化模块对所述特征图像进行量化，得到量化图像；

所述基于FLASH存算阵列的解码卷积神经网络对所述量化图像进行解码，得到压缩图像。

根据本公开的另一个方面，提供了一种基于FLASH存算阵列的图像压缩方法，包括：

分别将编码卷积神经网络和解码卷积神经网络的权重矩阵写入基于FLASH的存算阵列；输入原始图像；

利用基于FLASH存算阵列的编码卷积神经网络对原始图像进行编码，得到特征图像；

利用量化模块对特征图像进行量化，得到量化图像；

利用基于FLASH存算阵列的解码卷积神经网络对量化图像进行解码，得到压缩图像。

本公开的图像压缩系统和方法基于硬件实现，可以极大减少处理器和内存单元间的数据交换，显著提高编码和解码过程的能效比，减少系统硬件开销和降低能量消耗。

为使本公开的上述目的、特征和优点能更明显易懂，下文特举优选实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本公开实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍。应当理解，以下附图仅示出了本公开的某些实施例，因此不应被看作是对范围的限定。对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明第一实施例基于FLASH存算阵列的图像压缩系统的示意图。

图2为基于FLASH存算阵列的示意图；

图3本发明第二实施例基于FLASH存算阵列的图像压缩方法的流程图。

具体实施方式

卷积神经网络经多次训练后，能够从图像中提取特征图像，提取到的特征图像再经卷积神经网络处理后得到的压缩图像能够最大限度反映原始图像特征，有效解决块效应和噪声等问题。本发明的基于FLASH的存储计算一体化阵列(存算阵列)的图像压缩系统和方法，能够并行执行图像编码和解码过程中卷积神经网络中的大量矩阵向量乘法运算，从而可以在硬件层面对图像压缩进行加速，同时极大地降低能量和硬件资源消耗，对图像压缩具有重要意义。

本发明的基于FLASH存算阵列的图像压缩系统和方法，基于CPU/GPU构建并训练用于编码和解码的卷积神经网络，得到卷积神经网络的权重分布。将训练得到的权重编程写入FLASH存算阵列，在硬件层面实现编码和解码卷积神经网络。根据预先设置的压缩比对输入图像进行压缩。本发明的图像压缩系统和方法可以显著提高编码和解码过程的能效比，减少系统硬件开销和降低能量消耗。

下面将结合实施例和实施例中的附图，对本公开实施例中的技术方案进行清楚、完整的描述。显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

本公开第一实施例提供了一种基于FLASH存算阵列的图像压缩系统，如图1所示，包括控制模块、信号产生模块、基于FLASH存算阵列的编码卷积神经网络、基于FLASH存算阵列的解码卷积神经网络和处理器。

控制模块连接信号产生模块、基于FLASH存算阵列的编码卷积神经网络、基于FLASH存算阵列的解码卷积神经网络和处理器，根据处理器的控制指令，向信号产生模块、基于FLASH存算阵列的编码卷积神经网络、基于FLASH存算阵列的解码卷积神经网络输出控制信号，控制图像压缩系统的工作时序。

基于FLASH存算阵列的编码卷积神经网络、基于FLASH存算阵列的解码卷积神经网络分别负责图像压缩中的编码和解码运算。基于FLASH存算阵列的编码卷积神经网络是一个多层神经网络，包括：输入层、多个隐藏层以及输出层。上一层的输出作为本层的输入，本层的输出作为下一层的输入。编码卷积神经网络的每一层包括一个基于FLASH的存算阵列。

如图2所示，所述基于FLASH的存算阵列包括：多个FLASH单元、多条字线、多条源线、多条位线、多个减法器。

多个FLASH单元组成的存算阵列，其中，每一列FLASH单元的栅极连接相同的字线(WL)，源极连接相同的源极线，每一行FLASH单元的漏极连接相同的位线(BL)。

字线的数量对应于存算阵列的列数，输入数据通过字线输入FLASH单元。

源线的数量对应于存算阵列的列数，源线均接固定的驱动电压V _ds，向FLASH单元的源极施加该驱动电压。

位线的数量对应于存算阵列的行数，用于输出FLASH单元漏极的信号，每一行位线叠加该行各列FLASH单元的漏极信号，并将叠加的漏极信号作为输出信号输出。即每一行的FLASH单元的漏极都连接于同一根位线，位线上的总电流值即这一行各列FLASH单元输出值的和。

FLASH单元的阈值电压可以通过编程和擦除进行设置。当对FLASH单元编程时，热电子注入，FLASH单元的阈值电压升高，其存储状态视为“0”，即该FLASH单元存储有数据“0”。当对FLASH单元擦除时，电子隧穿，FLASH单元的阈值电压降低，其存储状态视为“1”，即该FLASH单元存储有数据“1”。由此可见，通过对FLASH单元的编程和擦除，可使FLASH单元存储有“0”和“1”两种数据，通过将卷积神经网络的权值矩阵中的权值转换为二进制数，并用存储状态为“0”的FLASH单元表示二进制权值中的“0”，用存储状态为“1”的FLASH单元表示二进制权值中的“1”，从而多个FLASH单元组成的存算阵列即可表示出权值矩阵。

本实施例的基于FLASH的存算阵列，FLASH单元的源线均接固定的驱动电压V _ds。输入数据转换为二进制数，并通过字线输入FLASH单元。对于输入数据中的“0”，0电压通过字线施加于FLASH单元的栅极，漏极输出电流即为输入数据“0”与该FLASH单元存储数据(“0”或“1”)的乘积；对于输入数据中的“1”，V _g通过字线施加于FLASH单元的栅极，即为输入数据“1”与FLASH单元存储数据的乘积。将多个FLASH单元的漏极连接在一起输出，“和电流”反映了输入向量和FLASH阵列中所存矩阵相乘后的结果，实现矩阵向量乘法运算。

每一行位线叠加该行各列FLASH单元的漏极信号，并将叠加的漏极信号“和电流”作为输出信号输出，即位线上的总电流值即这一行各列FLASH单元输出信号的和，反映了输入向量和FLASH存算阵列中所存权值矩阵相乘后的结果。

减法器的数量对应于存算阵列行数的一半，每个减法器的正极端和负极端分别连接相邻两条位线。考虑到FLASH单元不能存储负的权重值，因此将每相邻的两条位线连接于一个减法器上，其正极端连接的位线上的FLASH单元存储正权重值，负极端连接的位线上的FLASH单元存储负权重值，由此实现矩阵向量乘法运算。

编码卷积神经网络的每一层还包括激活单元，减法器的输出端连接激活单元，激活单元对输出信号进行激活操作，激活结果作为该层的输出数据输送给下一层。

基于FLASH存算阵列的解码卷积神经网络与上述编码卷积神经网络的结构相同，在此不再赘述。

信号产生模块具有两方面功能，其一，根据控制模块的输出信号对FLASH存算阵列进行编程，将训练得到的权值依次写入相应的FLASH单元；其二，图像压缩编码和解码阶段，分别将输入图像和经量化后的图像转变为电压信号并添加至FLASH阵列字线上。

即信号产生模块将卷积神经网络的各层权重矩阵中的权值转换为二进制数，并根据二进制权值对相应的FLASH单元编程或擦除，以将权值矩阵存储至FLASH存算阵列中。同时，还将输入图像和经量化后的图像转换为二进制信号，将二进制信号输送给编码卷积神经网络和解码卷积神经网络的输入层。

处理器包括有量化模块，量化模块采用JPEG和JPEG2000等标准，对编码卷积神经网络的输出数据进行量化。

本实施例的基于FLASH存算阵列的图像压缩系统，基于FLASH存算阵列的编码卷积神经网络对原始图像进行编码，得到特征图像，量化模块对特征图像进行量化，得到量化图像，基于FLASH存算阵列的解码卷积神经网络对量化图像进行解码，得到压缩图像。本实施例的这一硬件实施方案将权值存储在FLASH存算阵列中，并利用存算阵列进行计算，消除了计算过程中对权值的随机访问，从而实现了存算一体化。

本实施例中，在实现图像压缩前，需在软件端构建编码卷积神经网络和解码卷积神经网络模型，根据图像压缩对速度、精度和能耗等要求确定网络模型的层数、维度、通道数、卷积核尺寸等参数。对所构建的编码卷积神经网络模型和解码卷积神经网络模型、以及量化模块协同训练，得到满足图像压缩需求的编码卷积神经网络和解码卷积神经网络。

本公开第二实施例提供了一种基于FLASH存算阵列的图像压缩方法，如图3所示，包括以下步骤：

利用量化模块对特征图像进行量化，得到量化图像；

在进行图像压缩之前，还包括对编码卷积神经网络和解码卷积神经网络的训练步骤：

首先进行网络初始化，构建编码卷积神经网络模型和解码卷积神经网络模型。

然后利用训练数据对编码卷积神经网络模型和解码卷积神经网络模型进行前向传播，并计算网络误差。

接着对编码卷积神经网络模型和解码卷积神经网络模型进行反向传播，对编码卷积神经网络模型和解码卷积神经网络模型的权值进行更新。

最后判断训练是否完成。当训练后的模型达到图像压缩需求，认为训练完成，结束训练步骤，如果训练后的模型尚未达到图像压缩需求，则返回前向传播的步骤，继续进行训练。

以上的详细描述通过使用示意图、流程图和/或示例，已经阐述了上述空净一体机的众多实施例。在这种示意图、流程图和/或示例包含一个或多个功能和/或操作的情况下，本领域技术人员应理解，这种示意图、流程图或示例中的每一功能和/或操作可以通过各种结构、硬件、软件、固件或实质上它们的任意组合来单独和/或共同实现。

除非存在技术障碍或矛盾，本公开的上述各种实施例可以自由组合以形成另外的实施例，这些另外的实施例均在本公开的保护范围中。

虽然结合附图对本公开进行了说明，但是附图中公开的实施例旨在对本公开优选实施方式进行示例性说明，而不能理解为对本公开的一种限制。附图中的尺寸比例仅仅是示意性的，并不能理解为对本公开的限制。

虽然本公开总体构思的一些实施例已被显示和说明，本领域普通技术人员将理解，在不背离本公开公开构思的原则和精神的情况下，可对这些实施例做出改变，本公开的范围以权利要求和它们的等同物限定。

Claims

一种基于FLASH存算阵列的图像压缩系统，其特征在于，包括：基于FLASH存算阵列的编码卷积神经网络、基于FLASH存算阵列的解码卷积神经网络和量化模块；

所述基于FLASH存算阵列的编码卷积神经网络用于对原始图像进行编码，得到特征图像；

所述量化模块用于对所述特征图像进行量化，得到量化图像；

所述基于FLASH存算阵列的解码卷积神经网络用于对所述量化图像进行解码，得到压缩图像。
如权利要求1所述的基于FLASH存算阵列的图像压缩系统，其特征在于，所述编码卷积神经网络和所述解码卷积神经网络的每一层均包括：基于FLASH的存算阵列；所述基于FLASH的存算阵列包括：多个FLASH单元、多条字线、多条源线、多条位线、多个减法器；

多个FLASH单元组成的存算阵列，每一列FLASH单元的栅极连接相同的字线，源极连接相同的源线，每一行FLASH单元的漏极连接相同的位线；每个减法器的正极端和负极端分别连接相邻两条位线。
如权利要求2所述的基于FLASH存算阵列的图像压缩系统，其特征在于，

所述字线的数量对应于所述存算阵列的列数，输入数据通过字线输入FLASH单元；

所述源线的数量对应于所述存算阵列的列数，所述源线均接固定的驱动电压；

所述位线的数量对应于所述存算阵列的行数，每一行位线叠加该行各列FLASH单元的漏极信号，并将叠加的漏极信号作为输出信号输出。
如权利要求2所述的基于FLASH存算阵列的图像压缩系统，其特征在于，所述FLASH单元存储有卷积神经网络的权重值，所述基于FLASH的存算阵列存储卷积神经网络的权重矩阵。
如权利要求4所述的基于FLASH存算阵列的图像压缩系统，其特征在于，对所述FLASH单元编程，所述FLASH单元的存储状态视为“0”；对所述FLASH单元擦除，所述FLASH单元的存储状态视为“1”。
如权利要求2所述的基于FLASH存算阵列的图像压缩系统，其特征在于，所述减法器正极端连接的位线上的FLASH单元存储正权重值，其负极端连接的位线上的FLASH单元存储负权重值。
如权利要求2所述的基于FLASH存算阵列的图像压缩系统，其特征在于，所述编码卷积神经网络和所述解码卷积神经网络的每一层还包括：激活单元；所述减法器的输出端连接激活单元，所述激活单元对输出信号进行激活操作，激活结果作为输出数据输送给下一层。
如权利要求2所述的基于FLASH存算阵列的图像压缩系统，其特征在于，所述量化模块为中央处理器或微处理器，采用JPEG或JPEG2000标准，对所述特征图像进行量化。
一种基于FLASH存算阵列的图像压缩方法，其特征在于，包括：

分别将编码卷积神经网络和解码卷积神经网络的权重矩阵写入基于FLASH的存算阵列，并输入原始图像；

利用基于FLASH存算阵列的编码卷积神经网络对原始图像进行编码，得到特征图像；

利用量化模块对特征图像进行量化，得到量化图像；

利用基于FLASH存算阵列的解码卷积神经网络对量化图像进行解码，得到压缩图像。
如权利要求9所述的基于FLASH存算阵列的图像压缩方法，其特征在于，还包括：

进行网络初始化，构建编码卷积神经网络模型和解码卷积神经网络模型；

利用训练数据对编码卷积神经网络模型和解码卷积神经网络模型进行前向传播，并计算网络误差；

对编码卷积神经网络模型和解码卷积神经网络模型进行反向传播，对编码卷积神经网络模型和解码卷积神经网络模型的权值进行更新；

当训练后的模型达到图像压缩需求，训练完成，结束训练步骤；如果训练后的模型尚未达到图像压缩需求，则返回前向传播的步骤，继续进行训练。