WO2021098620A1

WO2021098620A1 - 一种文件碎片分类方法及系统

Info

Publication number: WO2021098620A1
Application number: PCT/CN2020/128860
Authority: WO
Inventors: 尹凌; 奚桂锴
Original assignee: 中国科学院深圳先进技术研究院
Priority date: 2019-11-21
Filing date: 2020-11-13
Publication date: 2021-05-27
Also published as: CN110928848A

Abstract

一种文件碎片分类方法和文件碎片分类系统。所述方法包括：利用文件数据集，构建文件碎片数据集（S1），所述的文件碎片数据集包括：训练集和测试集；对构建的文件碎片数据集进行预处理（S2）；构建深度卷积神经网络模型（S3）；利用预处理后的训练集和测试集，对上述构建的深度卷积神经网络模型进行训练和评估（S4）；利用所述深度卷积神经网络模型预测文件碎片所属的文件类型（S5）。所述方法和系统无需手动设计特征，无需其他先验知识，能够自动学习到输入的文件碎片的特征，并且设计的深度卷积神经网络能够适用于不同大小的文件碎片的分类任务，具有更好的分类效果。

Description

一种文件碎片分类方法及系统

技术领域

本发明涉及一种文件碎片分类方法及系统。

背景技术

当犯罪嫌疑人删除存储在磁盘中的文件后，磁盘中往往还会有残留的文件内容。如果司法取证人员想要通过磁盘中的文件碎片寻找证据，就需要对这些文件碎片进行重组进而拼接成文件。

如果直接对大量的文件碎片进行两两拼接，则需要耗费巨大的计算量。如果能够提前知道各文件碎片所属文件的文件类型(即，文件碎片的类型)，则可以大大减少所需要尝试的组合数量。

现有文件碎片分类方法中的一类是利用魔幻数字等来识别不同文件类型的文件。这些魔幻数字一般出现在文件头和文件尾，并且不同文件类型的文件会在不同的位置出现不同数值的魔幻数字。由于磁盘中的文件往往以碎片化的形式存储，同属一个文件的多个文件碎片并不总是顺序相连，故通常难以利用文件的文件头信息和文件尾信息来识别不同文件类型的文件碎片。

另一类文件碎片分类方法是基于内容的文件碎片分类方法。基于内容的文件碎片分类方法是直接通过对文件碎片内容的分析进而预测该文件碎片的文件类型。该方法不需要依赖于文件签名或者魔幻数字等。现有基于内容的文件碎片分类方法主要是从统计学角度出发，通过提取各文件碎片的统计学特征，如unigram和bigram的频率分布，以及熵等，建立传统的机器学习模型，如LDA、SVM和KNN等，进而识别出各文件碎片所对应的类型。在基于内容的文件碎片分类方法中，通过提取文件碎片的统计学特征进而建立传统机器学习模型的方法严重依赖于特征的设计，是耗时的并且要求具备大量的专业知识。而且，这类方法目前并不能达到比较好的分类效果。

在基于内容的文件碎片分类方法中，现有基于深度学习的文件碎片分类方法还没有成熟，相应的分类效果不好，低于基于传统机器学习模型的文件碎片分类方法。现有基于深度学习的研究还需针对不同大小的文件碎片设计不同的神经网络架构，因此这类现有方法的适用性也受到了一定的限制。

发明内容

有鉴于此，有必要提供一种文件碎片分类方法及系统。

本发明提供一种文件碎片分类方法，该方法包括如下步骤：a.利用文件数据集，构建文件碎片数据集，所述的文件碎片数据集包括：训练集和测试集；b.对构建的文件碎片数据集进行预处理；c.构建深度卷积神经网络模型；d.利用预处理后的训练集和测试集，对上述构建的深度卷积神经网络模型进行训练和评估；e.利用所述深度卷积神经网络模型预测文件碎片所属的文件类型。

其中，所述的步骤a具体包括：

对公开文件数据集govdocs1包含的所有zip压缩包文件进行解压，将解压后文件夹中的文件按照所属的文件类型划分到不同的类别；

将对应待研究的文件类型所选取的文件划分成两类，以生成分别用于训练集和测试集的文件碎片；

对每个文件根据所选的文件碎片大小进行切片以生成大量文件碎片，并删除每个文件的头一个文件碎片，及每个文件最后一个小于指定文件碎片大小的文件碎片。

所述的步骤b具体包括：

对生成的训练集和测试集中的每一个文件碎片都进行转换，通过简单的形状变化将一维的文件碎片转换为二维灰度图像；

对每个所述二维灰度图像进行归一化处理，计算训练集中每个位置像素点的最大值和最小值，将训练集和测试集中对应的二维灰度图像，依据训练集中求得的所述最大值和最小值将对应的像素点进行缩放，使得所述像素点的灰度值落在-1到1之间。

所述的深度卷积神经网络模型包含L个卷积块，一个全局平均池化层以及两个全连接层。

所述卷积块包括：卷积层、残差单元和最大池化层三个部分；

卷积块的数量L受转换后的灰度图像的大小限制：

L _max＝min(log ₂max(w,h)-1,log ₂min(w,h))

在该式中，L _max指的是所述模型中允许堆叠的卷积块的最大数量，w和h分别指的是转换后的二维灰度图像的宽和高。

所述卷积层使用d个1x1的卷积核，假设卷积块输入了C个IxJ的特征图，则卷积层对输入特征图的通道数进行上采样。

所述残差单元包含两个卷积层，采用残差学习的方法进行跳跃连接。

所述最大池化层对每个输入特征图进行空间上的下采样，减小为原来的

即

所述的步骤d具体包括：

利用预处理后的测试集对所述的深度卷积神经网络进行评估，评估指标包括多个文件碎片类别的平均分类准确率，宏平均的F1分数和微平均的F1分数。

本发明提供一种文件碎片分类系统，该系统包括碎片数据集构建模块、预处理模块、模型构建模块、训练评估模块以及文件类型预测模块，其中：所述碎片数据集构建模块用于利用文件数据集，构建文件碎片数据集，所述的文件碎片数据集包括：训练集和测试集；所述预处理模块用于对构建的文件碎片数据集进行预处理；所述模型构建模块用于构建深度卷积神经网络模型；所述训练评估模块用于利用预处理后的训练集和测试集，对上述构建的深度卷积神经网络模型进行训练和评估；所述文件类型预测模块用于利用所述深度卷积神经网络模型预测文件碎片所属的文件类型。

本申请提供了一种文件碎片分类方法及系统，只需将输入的文件碎片先转换为二维的灰度图像，再输入到模型中即可进行预测。本发明在将文件碎片转换成二维的灰度图像时，并不需要耗费额外的计算量。本发明在预测文件碎片的类型时，完全基于该文件碎片的内容进行判断，无需其他先验知识。本发明可直接从输入的文件碎片中自动学习到特征，不需要先从文件碎片中手动提取特征再进行建模。另外，本发明设计的深度卷积神经网络能够适用于不同大小的文件碎片的分类任务。本发明设计的深度卷积神经网络采用残差结构设计，能够搭建更深的网络模型，适用于处理不同大小的文件碎片分类任务，有效地提高了文件碎片的分类准确率，具有更好的分类效果。

附图说明

图1为本发明文件碎片分类方法的流程图；

图2是本发明实施例将文件碎片转换为灰度图像的过程示意图；

图3是本发明实施例深度卷积神经网络模型的示意图；

图4是本发明实施例深度卷积神经网络模型中卷积块的示意图；

图5是本发明实施例深度卷积神经网络模型中残差单元的示意图。

图6为本发明文件碎片分类系统的硬件架构图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步详细的说明。

参阅图1所示，是本发明文件碎片分类方法较佳实施例的作业流程图。

步骤S1，利用文件数据集，构建文件碎片数据集。所述的文件碎片数据集包括：训练集和测试集。具体而言：

在本实施例中，利用公开的文件数据集govdocs1生成所述的文件碎片数据集。所述文件数据集包含1000个zip压缩包文件。对该文件数据集包含的所有zip压缩包文件进行解压，并将解压后文件夹中的文件按照所属的文件类型划分到不同的类别。

针对需要研究的文件碎片类型，均选取一定数量的文件用于实验。将对应待研究的文件类型所选取的文件分别按照6：4的比例，划分成两类，以生成分别用于训练集和测试集的文件碎片。

对每个文件根据所选的文件碎片大小进行切片以生成大量文件碎片。为了避免文件头中包含可用于识别文件类型的文件签名，删除每个文件的头一个文件碎片，同时，将每个文件最后一个小于指定文件碎片大小的文件碎片删除。针对所述训练集和所述测试集，通过随机抽样的方式限制各文件类型对应的文件碎片数量，以使得数据集尽可能平衡，得到对应不同文件类型分别用于训练和测试的大量文件碎片。

步骤S2，对构建的文件碎片数据集进行预处理，也即，对所述训练集和所述测试集进行预处理。具体而言：

对生成的训练集和测试集中的每一个文件碎片都进行转换，通过简单的形状变化即可将一维的文件碎片转换为二维灰度图像，请参考图2。其中，所述文件碎片由字节序列组成；每个字节对应所述二维灰度图像中的每个像素点。在将文件碎片(一维的字节序列)转换为二维的灰度图像时，应使得灰度图像的形状尽可能接近方形，以利于构建足够深的模型来进行文件碎片的分类。

在本实施例中，将512字节的文件碎片转换为16x32(16x32＝512)的二维灰度图像；将4096字节的文件碎片转换为64x64(64x64＝4096)的二维灰度图像。

最后，对每个所述二维灰度图像进行归一化处理，计算训练集中每个位置像素点的最大值和最小值，将训练集和测试集中对应的二维灰度图像，依据训练集中求得的所述最大值和最小值将对应的像素点进行缩放，使得所述像素点的灰度值落在-1到1之间。

步骤S3，构建深度卷积神经网络模型。具体而言：

如图3所示，所述的深度卷积神经网络模型包含L个卷积块，一个全局平均池化层以及两个全连接层。图3中所述的ReLU(Rectified Linear Unit)均指的是修正线性单元，是一种激活函数。

其中，每个卷积块的结构如图4所示，包含三个部分：卷积层、残差单元和最大池化层。其中：所述卷积层使用d个1x1的卷积核，假设卷积块输入了C个IxJ的特征图，卷积层对输入特征图的通道数进行上采样(从C增大到d)；所述残差单元进行特征学习，而所述最大池化层对每个输入特征图进行空间上的下采样，减小为原来的

即

特征图的数量则保持不变。

卷积块的数量L受到转换后的灰度图像的大小限制，如下式：

L _max＝min(log ₂max(w,h)-1,log ₂min(w,h))

其中，所述残差单元的结构如图5所示，所述残差单元包含两个卷积层，采用残差学习的方法进行跳跃连接。所述两个卷积层均采用d个3x3的卷积核，用于学习输入特征图的特征。输入特征图在输入到所述两个卷积层之前，都先经过ReLU激活函数进行计算。

所述模型的两个全连接层均具有2048个神经元。

尽管本申请在一定的实践基础上构建了如图3、图4、图5的模型结构，给出了模型相关部分的参数，但本发明的模型结构不应仅限于此，也不应局限于所述的模型结构参数。

步骤S4，利用预处理后的训练集和测试集，对上述构建的深度卷积神经网络模型进行训练和评估。评价指标包括多个文件碎片类别的平均分类准确率，宏平均的F1分数和微平均的F1分数。具体而言：

在本实施例中：

采用基于Adam的梯度下降法对所述的深度卷积神经网络进行训练。其中，初始学习率设为0.001，每5个轮次降低学习率为原先的0.2，训练的总轮次设为40。此外，还采用earlystop技术训练所述的深度卷积神经网络。当所述的深度卷积神经网络在测试集上的评价指标连续5轮没有改进，就提前停止训练，取当前的模型参数作为所述的深度卷积神经网络的最佳参数。

步骤S5：利用所述深度卷积神经网络模型预测文件碎片所属的文件类型。具体包括：

给定待预测的文件碎片后，按照步骤S2所示，先将文件碎片转换成二维灰度图像，再将转换后的灰度图像进行归一化处理。

具体的，依据训练集中灰度图像对应位置像素点的最大值和最小值，将该灰度图像对应位置像素点的灰度值缩放至-1到1之间，再将归一化后的二维灰度图像输入所述深度卷积神经网络模型中，以预测所述文件碎片所属的文件类型。

参阅图6所示，是本发明文件碎片分类系统10的硬件架构图。该系统包括：碎片数据集构建模块101、预处理模块102、模型构建模块103、训练评估模块104以及文件类型预测模块105。

所述碎片数据集构建模块101用于利用文件数据集，构建文件碎片数据集。所述的文件碎片数据集包括：训练集和测试集。具体而言：

在本实施例中，所述碎片数据集构建模块101利用公开的文件数据集govdocs1生成所述的文件碎片数据集。所述文件数据集包含1000个zip压缩包文件。对该文件数据集包含的所有zip压缩包文件进行解压，并将解压后文件夹中的文件按照所属的文件类型划分到不同的类别。

所述碎片数据集构建模块101对每个文件根据所选的文件碎片大小进行切片以生成大量文件碎片。为了避免文件头中包含可用于识别文件类型的文件签名，删除每个文件的头一个文件碎片，同时，将每个文件最后一个小于指定文件碎片大小的文件碎片删除。针对所述训练集和所述测试集，通过随机抽样的方式限制各文件类型对应的文件碎片数量，以使得数据集尽可能平衡，得到对应不同文件类型分别用于训练和测试的大量文件碎片。

所述预处理模块102用于对构建的文件碎片数据集进行预处理，也即，对所述训练集和所述测试集进行预处理。具体包括：

所述预处理模块102对生成的训练集和测试集中的每一个文件碎片都进行转换，通过简单的形状变化即可将一维的文件碎片转换为二维灰度图像，请参考图2。其中，所述文件碎片由字节序列组成；每个字节对应所述二维灰度图像中的每个像素点。在将文件碎片(一维的字节序列)转换为二维的灰度图像时，应使得灰度图像的形状尽可能接近方形，以利于构建足够深的模型来进行文件碎片的分类。

在本实施例中，所述预处理模块102将512字节的文件碎片转换为 16x32(16x32＝512)的二维灰度图像；将4096字节的文件碎片转换为64x64(64x64＝4096)的二维灰度图像。

最后，所述预处理模块102对每个所述二维灰度图像进行归一化处理，计算训练集中每个位置像素点的最大值和最小值，将训练集和测试集中对应的二维灰度图像，依据训练集中求得的所述最大值和最小值将对应的像素点进行缩放，使得所述像素点的灰度值落在-1到1之间。

所述模型构建模块103用于构建深度卷积神经网络模型。具体而言：

如图3所示，所述的深度卷积神经网络模型包含L个卷积块，一个全局平均池化层以及两个全连接层。图3中所述的ReLU(Rectified Linear Unit)指的是修正线性单元，是一种激活函数。

即

特征图的数量则保持不变。

卷积块的数量L受到转换后的灰度图像的大小限制，如下式：

L _max＝min(log ₂max(w,h)-1,log ₂min(w,h))

所述模型的两个全连接层均具有2048个神经元。

所述训练评估模块104用于利用预处理后的训练集和测试集，对上述构建的深度卷积神经网络模型进行训练和评估。评价指标包括多个文件碎片类别的平均分类准确率，宏平均的F1分数和微平均的F1分数。具体而言：

在本实施例中：

所述训练评估模块104采用基于Adam的梯度下降法对所述的深度卷积神经网络进行训练。其中，初始学习率设为0.001，每5个轮次降低学习率为原先的0.2，训练的总轮次设为40。此外，还采用earlystop技术训练所述的深度卷积神经网络。当所述的深度卷积神经网络在测试集上的评价指标连续5轮没有改进，就提前停止训练，取当前的模型参数作为所述的深度卷积神经网络的最佳参数。

所述文件类型预测模块105用于利用所述深度卷积神经网络模型预测文件碎片所属的文件类型。具体包括：

所述文件类型预测模块105在给定待预测的文件碎片后，先将文件碎片转换成二维灰度图像，再将转换后的灰度图像进行归一化处理。

具体的，所述文件类型预测模块105依据训练集中灰度图像对应位置像素点的最大值和最小值，将该灰度图像对应位置像素点的灰度值缩放至-1到1之间，再将归一化后的二维灰度图像输入所述深度卷积神经网络模型中，预测所述文件碎片所属的文件类型。

虽然本发明参照当前的较佳实施方式进行了描述，但本领域的技术人员应能理解，上述较佳实施方式仅用来说明本发明，并非用来限定本发明的保护范围，任何在本发明的精神和原则范围之内，所做的任何修饰、等效替换、改进等，均应包含在本发明的权利保护范围之内。

Claims

一种文件碎片分类方法，其特征在于，该方法包括如下步骤：

a.利用文件数据集，构建文件碎片数据集，所述的文件碎片数据集包括：训练集和测试集；

b.对构建的文件碎片数据集进行预处理；

c.构建深度卷积神经网络模型；

d.利用预处理后的训练集和测试集，对上述构建的深度卷积神经网络模型进行训练和评估；

e.利用所述深度卷积神经网络模型预测文件碎片所属的文件类型。
如权利要求1所述的方法，其特征在于，所述的步骤a具体包括：

对公开文件数据集govdocs1包含的所有zip压缩包文件进行解压，将解压后文件夹中的文件按照所属的文件类型划分到不同的类别；

将对应待研究的文件类型所选取的文件划分成两类，以生成分别用于训练集和测试集的文件碎片；

对每个文件根据所选的文件碎片大小进行切片以生成大量文件碎片，并删除每个文件的头一个文件碎片，及最后一个小于指定文件碎片大小的文件碎片。
如权利要求2所述的方法，其特征在于，所述的步骤b具体包括：

对生成的训练集和测试集中的每一个文件碎片都进行转换，通过简单的形状变化将一维的文件碎片转换为二维灰度图像；

对每个所述二维灰度图像进行归一化处理，计算训练集中每个位置像素点的最大值和最小值，将训练集和测试集中对应的二维灰度图像，依据训练集中求得的所述最大值和最小值将对应的像素点进行缩放，使得所述像素点的灰度值落在-1到1之间。
如权利要求3所述的方法，其特征在于，所述的深度卷积神经网络模型包含L个卷积块，一个全局平均池化层以及两个全连接层。
如权利要求4所述的方法，其特征在于，所述卷积块包括：卷积层、残差单元和最大池化层三个部分；

卷积块的数量L受转换后的灰度图像的大小限制：

L _max＝min(log ₂max(w,h)-1,log ₂min(w,h))

在该式中，L _max指的是所述模型中允许堆叠的卷积块的最大数量，w和h分别指的是转换后的二维灰度图像的宽和高。
如权利要求5所述的方法，其特征在于，所述卷积层使用d个1x1的卷积核，假设卷积块输入了C个IxJ的特征图，则卷积层对输入特征图的通道数进行上采样。
如权利要求6所述的方法，其特征在于，所述残差单元包含两个卷积层，采用残差学习的方法进行跳跃连接。
如权利要求7所述的方法，其特征在于，所述最大池化层对每个输入特征图进行空间上的下采样，减小为原来的
即
如权利要求8所述的方法，其特征在于，所述的步骤d具体包括：

利用预处理后的测试集对所述的深度卷积神经网络进行评估，评估指标包括多个文件碎片类别的平均分类准确率，宏平均的F1分数和微平均的F1分数。
一种文件碎片分类系统，其特征在于，该系统包括碎片数据集构建模块、预处理模块、模型构建模块、训练评估模块以及文件类型预测模块，其中：

所述碎片数据集构建模块用于利用文件数据集，构建文件碎片数据集，所述的文件碎片数据集包括：训练集和测试集；

所述预处理模块用于对构建的文件碎片数据集进行预处理；

所述模型构建模块用于构建深度卷积神经网络模型；

所述训练评估模块用于利用预处理后的训练集和测试集，对上述构建的深度卷积神经网络模型进行训练和评估；

所述文件类型预测模块用于利用所述深度卷积神经网络模型预测文件碎片所属的文件类型。