WO2019201295A1

WO2019201295A1 - 文件识别方法和特征提取方法

Info

Publication number: WO2019201295A1
Application number: PCT/CN2019/083200
Authority: WO
Inventors: 顾成杰
Original assignee: 新华三信息安全技术有限公司
Priority date: 2018-04-18
Filing date: 2019-04-18
Publication date: 2019-10-24
Also published as: CN109753987B; CN109753987A

Abstract

一种文件识别方法和特征提取方法，文件识别方法包括：获取待识别文件（101）；根据预设读取规则和预设词组模型，确定待识别文件对应的多个字符串（102）；根据多个字符串构建转移矩阵（103），其中，所述转移矩阵中的元素与字符串种类一一对应；根据转移矩阵中的元素，确定待识别文件对应的目标图像数据（104）；提取目标图像数据的特征，并根据目标图像数据的特征，确定待识别文件是否为恶意文件（105）。

Description

[根据细则37.2由ISA制定的发明名称]　文件识别方法和特征提取方法

本申请要求于2018年4月18日提交中国专利局、申请号为201810349458.6发明名称为“文件识别方法和特征提取方法”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

背景技术

恶意代码为攻击者进行攻击的一种形式。携带恶意代码的文件为恶意文件，也就是，恶意文件为攻击者进行攻击的一种形式。恶意文件利用网络服务的漏洞攻击网络服务器，达到窃取信息、瘫痪服务等目的。

为了提高网络安全，保证服务质量，对准确的识别出恶意文件提出了要求。目前，文件识别的过程包括：获取待识别文件，将待识别文件在沙箱中运行，提取待识别文件的运行特征，对提取的运行特征进行归一化处理，将归一化处理后的运行特征输入深度神经网络(英文：Deep Neutral Network，简称：DNN)模型，得到待识别文件为非恶意文件的概率，以及待识别文件为恶意文件的概率，进而确定待识别文件是否为恶意文件。例如，若待识别文件为非恶意文件的概率大于待识别文件为恶意文件的概率，则确定待识别文件为非恶意文件；否则，确定待识别文件为恶意文件。其中，DNN模型为利用文件的运行特征训练得到的。

附图简要说明

图1为本申请实施例提供的文件识别方法的第一种流程示意图；

图2为本申请实施例提供的转移矩阵的第一种示意图；

图3为本申请实施例提供的转移矩阵的第二种示意图；

图4为基于图3所示转移矩阵的图像数据的一种示意图；

图5为本申请实施例提供的卷积神经网络模型的一种结构示意图；

图6为本申请实施例提供的模型训练方法的一种流程示意图；

图7为本申请实施例提供的文件识别方法的第二种流程示意图；

图8为本申请实施例提供的特征提取方法的一种流程示意图；

图9为本申请实施例提供的文件识别装置的第一种结构示意图；

图10为本申请实施例提供的文件识别装置的第二种结构示意图；

图11为本申请实施例提供的特征提取装置的一种结构示意图；

图12为本申请实施例提供的网络设备的第一种结构示意图；

图13为本申请实施例提供的网络设备的第二种结构示意图；

图14为本申请实施例提供的网络设备的第三种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

目前，在文件识别过程中，待识别文件在沙箱中运行提取的运行特征是用户根据经验设定的，也就是，文件识别依赖于人的主观因素，文件识别的准确性较低。

为了提高文件识别的准确性，本申请实施例提供了一种文件识别方法。该文件识别方法可以应用于网络设备，如防火墙设备、路由器、交换机等。该方法还可以由文件识别装置来执行，该装置可通过硬件和/或软件的方式实现，并一般可集成于用于文件识别的网络设备中。

本申请实施例提供的文件识别方法，将待识别文件转换为图像数据，提取图像数据的特征，之后，根据提取的特征，确定待识别文件是否为恶意文件。其中，图像数据的特征是待识别文件中客观存在的特征，而不是根据经验设定的，依据此客观存在的特征得到文件识别结果，降低了文件识别对人的主观因素的依赖，提高了文件识别的准确性。因此本申请实施例提供的文件识别方法更为准确。

下面通过具体实施例，对本申请进行详细说明。

参考图1，图1为本申请实施例提供的文件识别方法的第一种流程示意图，该方法包括如下过程。

在101部分：获取待识别文件。

以文件识别方法的执行主体为网络设备为例。网络设备获取到的待识别文件可以是：其他网络设备发送给该网络设备的文件。网络设备获取到的待识别文件也可以是：从本地存储的文件中获取的文件。

在102部分：根据预设读取规则和预设词组模型，确定待识别文件对应的多个字符串。

在本申请的一个实施例中，根据预设读取规则和预设词组模型，确定待识别文件对应的多个字符串，可以包括：按照预设读取规则读取待识别文件，得到多个字符，按照预设词组模型组合多个字符中相邻的字符，得到多个字符串。

其中，读取规则可以包括：2进制、8进制或16进制，但不限于这几种读取规则。预设词组模型可以包括二元词组(英文：BiGram)模型和/或三元词语(英文：TriGram)模型。

在103部分：根据待识别文件对应的多个字符串，构建转移矩阵。其中，转移矩阵中的元素与字符串种类一一对应。字符串种类为字符串的种类，根据不同的读取规则和/或词组模型，获取的字符串的种类也不相同。

在本申请的一个实施例中，根据待识别文件对应的多个字符串，构建转移矩阵，可以包括：确定每一字符串在多个字符串中的出现次数，根据每一字符串的出现次数构建转移矩阵。可选的，转移矩阵的行数和列数相同，转移矩阵的行数和列数均为：字符串种类数与字符种类数的比值。其中，字符串种类数为：根据预设读取规则和预设词组模型确定字符串时，获取到的字符串的种类数；字符种类数为：根据预设读取规则读取文件时，获取到的字符的种类数。

例如，预设读取规则为16进制，预设词组模型包括BiGram模型和TriGram模型。

按照16进制读取文件时，可以获取到1-F这16种字符。

按照BiGram模型，组合获取到16种字符中任意两种字符，可以获取到16*16＝256种字符串。

按照TriGram模型，组合获取到16种字符中任意三种字符，可以获取到16*16*16＝4096种字符串。

按照转移矩阵的行数和列数相同，以及转移矩阵中的元素与字符串种类一一对应的规则，转移矩阵的行数和列数可以为：(256+4096)/16＝272。也就是，可以根据待识别文件对应的每一字符串的出现次数，构建272*272的转移矩阵。

在本申请的一个实施例中，根据每一字符串的出现次数，构建转移矩阵，可以包括：针对每一字符串，将该字符串的出现次数作为转移矩阵中该字符串对应的元素的值，得到转移矩阵。

以预设词组模型为BiGram模型为例进行说明。例如，网络设备获取到待识别文件f1，按照预设读取规则读取待识别文件f1，得到多个字符：abcbbcdabcd。

根据BiGram模型，组合待识别文件f1对应的多个字符中相邻的字符，得到的多个字符串为：ab，bc， cb，bb，bc，cd，da，ab，bc，cd。各个字符串的出现次数为：“ab”的出现次数为2，“bc”的出现次数为3，“cb”的出现次数为1，“bb”的出现次数为1，“cd”的出现次数为2，“da”的出现次数为1。其他字符串的出现次数为0。

根据上面确定的出现次数，确定转移矩阵中每一字符串对应的元素的值，得到转移矩阵1，如图2所示，图2中每一方格代表矩阵的一个元素，由方格对应的横向字符与该方格对应的纵向字符组成一个字符串，该字符串为该方格对应的字符串。

在本申请的另一个实施例中，为了提高平滑度和防止过拟合，根据每一字符串的出现次数，构建转移矩阵，可以包括：针对每一字符串，计算该字符串的出现次数与预设初始值的和值，将计算得到的和值作为转移矩阵中该字符串对应的元素的值，得到转移矩阵。

仍以上面的例子进行说明，若预设初始值为10，待识别文件f1对应的各个字符串的出现次数为：

“ab”的出现次数为2+10＝12，

“bc”的出现次数为3+10＝13，

“cb”的出现次数为1+10＝11，

“bb”的出现次数为1+10＝11，

“cd”的出现次数为2+10＝12，

“da”的出现次数为1+10＝11，

其他字符串的出现次数为0+10＝10。

根据上面确定的出现次数，确定转移矩阵中每一字符串对应的元素的值，得到转移矩阵2，如图3所示，图3中每一方格代表矩阵的一个元素，由方格对应的横向字符与该方格对应的纵向字符组成一个字符串，该字符串为该方格对应的字符串。

在104部分：根据转移矩阵中的元素，确定待识别文件对应的目标图像数据。

在确定转移矩阵后，根据转移矩阵中的元素，确定待识别文件对应的目标图像数据。

在本申请的一个实施例中，转移矩阵中的一个元素对应一个图像单元格，确定待识别文件对应的目标图像数据，即将转移矩阵中的每个元素的值转换成图像数据。具体的，根据转移矩阵中各元素的值，计算转移矩阵中各元素对应的图像单元格的颜色深度，得到待识别文件对应的目标图像数据。至此，完成了“待识别文件→字符/字符串→转移矩阵→图像数据”的转换过程。

上述图像单元格为图像处理的最小单元。颜色深度是指黑白图像中点的灰度值。本申请实施例中，将颜色深度作为图像单元格的值。颜色深度的范围一般从0到255，白色为255，黑色为0。本申请实施例中不限定颜色深度的范围，即颜色深度可以为整数，可以为小数，可以为正数，也可以为负数。

可选的，对于转移矩阵中的任一元素，可以采用以下方式确定各元素对应的图像单元格的颜色深度。

具体的，针对转移矩阵中的第一元素，确定第一元素的值为第一数值；其中，第一元素为转移矩阵中的任一元素，第一元素的值根据第一字符串的出现次数确定。第一字符串为转移矩阵中第一元素对应的字符串。

确定所有第二元素的值之和为第二数值。其中，第二元素的值根据第二字符串的出现次数确定，第二字符串的头部词与第一字符串的头部词相同。这里，第二字符串中包括了第一字符串。头部词即为第一个字符。

计算第一数值与第二数值的比值。

之后，根据计算得到的比值，确定转移矩阵中第一元素对应的图像单元格的颜色深度。

一种实现方式中，针对转移矩阵中的每一元素(例如第一元素)，可以将计算得到的比值(即第一数值与第二数值的比值)，作为转移矩阵中第一元素对应的图像单元格的颜色深度。

另一种实现方式中，针对转移矩阵中的每一元素(例如第一元素)，可以根据以下公式确定第一元素的转移概率：

h＝Log T。 (1)

其中，h为第一元素的转移概率，T为计算得到的比值，即第一数值与第二数值的比值。例如，字符串“xy”的出现次数为T _xy，头部词为x的字符串的出现次数之和T _x，则T＝T _xy/T _x。

将计算得到的第一元素的转移概率，确定为第一元素对应的图像单元格的颜色深度。

以图3所示的转移矩阵为例，根据公式(1)，可以确定转移矩阵2中：

“ab”对应的元素的转移概率为：h _ab＝Log[T _ab/T _a]＝Log[12/(10+12+10+10+10)]＝-0.639。

“aa”、“ac”、“ad”和“ae”对应的元素的转移概率为：h _a＝Log[T _ax/T _a]＝Log[10/(10+12+10+10+10)]＝-0.716。

“bb”对应的元素的转移概率为：h _bb＝Log[T _bb/T _b]＝Log[11/(10+11+13+10+10)]＝-0.691。

“bc”对应的元素的转移概率为：h _bc＝Log[T _bc/T _b]＝Log[13/(10+11+13+10+10)]＝-0.618。

“ba”、“bd”和“be”对应的元素的转移概率为：h _b＝Log[T _bx/T _b]＝Log[10/(10+11+13+10+10)]＝-0.732。

“cb”对应的元素的转移概率为：h _cb＝Log[T _cb/T _c]＝Log[11/(10+11+10+12+10)]＝-0.683。

“cd”对应的元素的转移概率为：h _cd＝Log[T _cd/T _c]＝Log[12/(10+11+10+12+10)]＝-0.645。

“ca”、“cc”和“ce”对应的元素的转移概率为：h _c＝Log[T _cx/T _c]＝Log[10/(10+11+10+12+10)]＝-0.724。

“da”对应的元素的转移概率为：h _da＝Log[T _da/T _d]＝Log[11/(11+10+10+10+10)]＝-0.666。

“db”、“dc”、“dd”和“de”对应的元素的转移概率为：h _d＝Log[T _dx/T _d]＝Log[10/(11+10+10+10+10)]＝-0.708。

“ea”“eb”、“ec”、“ed”和“ee”对应的元素的转移概率为：h _e＝Log[T _ex/T _e]＝Log[10/(10+10+10+10+10)]＝-0.699。

确定每一元素的转移概率，也就是，确定了每一元素对应的图像单元格的颜色深度。获得了各图像单元格的颜色深度，也就确定了图像数据，如图4所示。

在105部分：提取目标图像数据的特征，并根据目标图像数据的特征，确定待识别文件是否为恶意文件。

在本申请的一个实施例中，可以采用卷积神经网络(英文：Constitutional Neural Networks，简称：CNN)模型提取目标图像数据的特征。可选地，为了获得更为适用于文件识别的CNN模型，本申请实施例采用的CNN模型可以以经典CNN Lenet-5模型为基础，在经典CNN Lenet-5结构的基础上进行改进得到。其中，Lenet-5为一种经典的CNN网络架构，包括3个卷积层、2个池化层和2个全连接层。一种实现方式中，对Lenet-5结构的改进，如图5所示。

01、第一个卷积层包括32个卷积核，第二个卷积层包括64个卷积核。

02、第二个池化层后面增加0.25的丢弃(英文：DropOut)层，第一个全连接层后面增加0.5的DropOut层。其中，DropOut层又可以称为Discard层。

在本申请的一个实施例中，可以采用DNN模型对目标图像数据的特征进行识别，也就是，采用DNN 模型，利用目标图像数据的特征对待识别文件进行识别，确定待识别文件是否为恶意文件。具体的，将目标图像数据的特征输入预先训练的DNN模型，得到输出结果，其中，输出结果指示待识别文件是否为恶意文件。具体的，输出结果指示待识别文件为恶意文件，或者输出结果指示待识别文件为非恶意文件。非恶意文件即为安全文件。

例如，将目标图像数据的特征输入DNN模型，得到待识别文件为安全文件的第一概率，以及待识别文件为恶意文件的第二概率。若第一概率大于第二概率，则DNN模型的输出结果指示待识别文件为安全文件。否则，DNN模型的输出结果指示待识别文件为恶意文件。

本申请实施例中，利用图像数据的特征确定待识别文件是否为恶意文件。图像数据的特征是待识别文件客观存在的特征，而不是根据经验设定的，依据此客观存在的特征的识别结果，降低了文件识别对人的主观因素的依赖，提高了文件识别的准确性。

本申请实施例中，为了提高文件识别的准确性，在对待识别文件进行识别前，可预先训练DNN模型和CNN模型。具体的可参考图6所示的模型训练方法的一种流程示意图。该方法包括如下过程。

在601部分：针对预设DNN模型，初始化该DNN模型的参数集中的参数，初始化的参数集可以由θ _i表示。为了加快DNN模型的训练，初始化的参数可以根据实际需要和经验进行设置。i为当前已进行前向计算的次数计数/累计次数。

在602部分：针对预设CNN模型，初始化该CNN模型的参数集中的参数，初始化的参数集可以由

表示。为了加快CNN模型的训练，初始化的参数可以根据实际需要和经验进行设置。i为当前已进行前向计算的次数计数/累计次数。

在601或602部分中，还可以对训练相关的高层参数，如学习率、梯度下降算法、反向传播算法等，进行设置。具体可以采用相关技术中的各种方式设置训练相关的高层参数，在此不再进行详细描述。

在603部分：获取预设训练集。预设训练集包括样本文件、以及样本文件的标签，标签可以包括：用于指示文件为恶意文件的第一标签和用于指示文件为非恶意文件的第二标签。样本文件可以为二进制文件。

预设训练集包括的样本文件可以通过网络爬虫等从网络中获取到，也可以从预先获取的样本文件库中获取，本申请实施例对此不进行限定。

为了提高训练获得的CNN模型和DNN模型准确可靠，预设训练集中包括的样本文件越多越好。

本申请实施例中不限定601、602和603部分的执行顺序。

在604部分：将预设训练集中每一样本文件转换为图像数据。

将样本文件转换为图像数据的步骤，可以参考上述将待识别文件转换为目标图像数据的过程，此处不再赘述。

在605部分：进行前向计算，具体如下。

将604部分中获得的每一样本文件的图像数据输入预设CNN模型，得到该样本文件对应的图像数据的特征。将预设CNN模型输出的特征输入预设DNN模型，得到该样本文件对应的输出结果。输出结果指示该样本文件为安全文件，或指示该样本文件为恶意文件。

例如，将一样本文件对应的图像数据的特征输入预设DNN模型进行处理过程中，得到样本文件为安全文件的第三概率，以及样本文件为恶意文件的第四概率。若第三概率大于第四概率，则确定该样本文件对应的输出结果为该样本文件为该安全文件；否则，确定该样本文件对应的输出结果为该样本文件为恶意文件。

第一次进入本605部分处理时，当前参数集为θ ₁、

后续再次进入本605部分处理时，当前参数集θ _i为对上一次使用的参数集θ _i-1进行调整后得到的，当前参数集

为对上一次使用的参数集

进行调整后得到的，详见后续描述。

在606部分：基于各样本文件的标签和预设DNN模型对应的输出结果，计算损失值。

一个例子中，可以使用均方误差(英文：Mean Squared Error，简称：MSE)公式作为损失函数，得到损失值L(θ _i)，详见如下公式：

其中，H表示单次训练中从预设训练集中选取的样本文件个数，I _j表示第j个样本文件对应的图像数据的特征，F(I _j|θ _i)表示针对第j个样本文件、DNN模型在参数集θ _i下前向计算得到的输出结果，X _j表示第j个样本文件的标签，i为当前已进行前向计算的次数计数/累计次数。

在607部分：基于损失值，确定采用当前参数集的预设模型是否收敛。其中，预设模型包括CNN模型和预设DNN模型。

如果预设模型不收敛，进入608部分；如果预设模型收敛，进入609部分。

例如，可以当损失值小于预设损失值阈值时，确定收敛；也可以当本次计算得到损失值与上一次计算得到的损失值之差小于预设变化阈值时，确定收敛，本申请实施例在此不做限定。

在608部分：对当前参数集θ _i和

中的参数进行调整，得到调整后的参数集，然后进入605部分，用于下一次前向计算。

具体可以利用反向传播算法对当前参数集中的参数进行调整。

在609部分：将当前参数集θ _i作为输出的最终参数集θ _final，将当前参数集

作为输出的最终参数集

将采用最终参数集θ _final的该预设DNN模型，作为训练完成的DNN模型。将采用最终参数集

的该预设CNN模型，作为训练完成的CNN模型。

上述CNN模型和DNN模型的训练可以与文件识别在同一网络设备上实现。为了保证降低对文件识别的网络设备的影响，CNN模型和DNN模型的训练的网络设备可以与文件识别的网络设备不同。

在本申请的一个实施例中，可以采用恶意文件特征库对目标图像数据的特征进行识别，确定待识别文件是否为恶意文件。其中，恶意文件特征库包括：多个样本恶意文件对应的图像数据的特征。具体的，将目标图像数据输入CNN模型，获取CNN模型的预设层的输出结果作为目标图像数据的特征。从预设的恶意文件特征库中查找目标图像数据的特征。若查找到，则确定待识别文件为恶意文件。若未查找到，则确定待识别文件为安全文件。

为了进一步提高文件识别的准确性，提高文件识别的效率，一个可选的实施例中，在预先训练获得了CNN模型后，可以将样本恶意文件对应的图像数据输入CNN模型，获取CNN模型的预设层的输出结果，将CNN模型的预设层的输出结果作为样本恶意文件对应的图像数据的特征。由多个样本恶意文件对应的图像数据的特征，构建恶意文件特征库。

可选的，为了避免图像数据的特征过长，增加文件识别的计算量，同时，为了避免图像数据的特征过短，降低文件识别的准确性，预设层可以为CNN模型的第三个卷积层，如图4所示。可选的，第三个卷积层输出的特征长度为512字节。

由于恶意文件特征库中的特征是从恶意文件中直接提取到的，若待识别文件的特征与恶意文件特征库中的特征匹配，可以确定待识别文件为恶意文件，提高了文件识别的准确性。另外，相较于DNN模型识别特征的计算量，匹配恶意文件特征库中的特征计算量要小很多，提高了文件识别的效率。

基于相同的发明构思，本申请实施例还提供了一种文件识别方法。参考图7，图7为本申请实施例提供的文件识别方法的第二种流程示意图，包括如下过程。

在701部分：获取待识别文件。

在702部分：将待识别文件输入预先训练的文件识别模型，确定待识别文件是否为恶意文件。

其中，文件识别模型用于：根据预设读取规则和预设词组模型，确定输入文件对应的多个字符串；根据多个字符串，构建转移矩阵，转移矩阵中的元素与字符串种类一一对应；根据转移矩阵中的元素，确定输入文件对应的目标图像数据；提取目标图像数据的特征，并根据目标图像数据的特征，确定输入文件是否为恶意文件。

这里，输入文件为输入文件识别模型的文件。将待识别文件输入文件识别模型时，输入文件即为待识别文件。字符串种类为字符串的种类，根据不同的读取规则和/或词组模型，获取的字符串的种类也不相同。

在本申请的一个实施例中，根据预设读取规则和预设词组模型，确定输入文件对应的多个字符串，可以包括：按照预设读取规则读取输入文件，得到多个字符，按照预设词组模型，组合多个字符中相邻的字符，得到多个字符串。

其中，读取规则可以包括：2进制、8进制或16进制，但不限于这几种读取规则。预设词组模型可以包括BiGram模型和/或TriGram模型。

在本申请的一个实施例中，根据输入文件对应的多个字符串，构建转移矩阵，可以包括：确定每一字符串在多个字符串中的出现次数，根据每一字符串的出现次数，构建转移矩阵。可选的，转移矩阵的行数和列数相同，转移矩阵的行数和列数均为：字符串种类数与字符种类数的比值。其中，字符串种类数为：根据预设读取规则和预设词组模型确定字符串时，可获取到的字符串的种类数；字符种类数为：根据预设读取规则读取文件时，可获取到的字符的种类数。

例如，预设读取规则为16进制，预设词组模型可以包括BiGram模型和TriGram模型。按照转移矩阵的行数和列数相同，以及转移矩阵中的元素与字符串种类一一对应的规则，转移矩阵的行数和列数可以为272。也就是，可以根据输入文件对应的每一字符串的出现次数，构建272*272的转移矩阵。

在本申请的一个实施例中，转移矩阵中的一个元素对应一个图像单元格，确定输入文件对应的目标图像数据，即将转移矩阵中的每个元素的值转换成图像数据。具体的，根据转移矩阵中的元素，确定输入文件对应的目标图像数据，可以包括：根据转移矩阵中各元素的值，计算转移矩阵中各元素对应的图像单元格的颜色深度，得到输入文件对应的目标图像数据。至此，完成了“输入文件→字符/字符串→转移矩阵→图像数据”的转换过程。

上述图像单元格为图像处理的最小单元。颜色深度是指黑白图像中点的灰度值。本申请实施例中，将颜色深度作为图像单元格的值。

在本申请的一个实施例中，对于转移矩阵中的任一元素，可以采用以下方式确定各元素对应的图像单元格的颜色深度。具体的，根据转移矩阵中各元素的值，计算转移矩阵中各元素对应的图像单元格的颜色深度，可以包括：针对转移矩阵中的第一元素，确定第一元素的值为第一数值。其中，第一元素为转移矩阵中的任一元素，第一元素的值根据第一字符串的出现次数确定。第一字符串为转移矩阵中第一元素对应的字符串。

确定所有第二元素的值之和为第二数值。其中，第二元素的值根据第二字符串的出现次数确定，第二字符串的头部词与第一字符串的头部词相同。头部词即为第一个字符。

计算第一数值与第二数值的比值。

一种实现方式中，针对转移矩阵中的每一元素(例如第一元素)，可以将计算得到的比值，作为转移矩阵中第一元素对应的图像单元格的颜色深度。

h＝Log T；

其中，h为第一元素的转移概率，T为计算得到的比值，即第一数值与第二数值的比值。

在本申请的一个实施例中，提取目标图像数据的特征，可以包括：将目标图像数据输入预先训练的CNN模型，得到目标图像数据的特征。

为了获得更为适用于文件识别的CNN模型，在本申请的一个实施例中，采用的CNN模型可以以经典CNN Lenet-5模型为基础，在经典CNN Lenet-5结构的基础上进行改进得到。其中，Lenet-5为一种经典的CNN网络架构，包括3个卷积层、2个池化层和2个全连接层。一种实现方式中，对Lenet-5结构的改进，如图5所示。

02、第二个池化层后面增加0.25的DropOut层，第一个全连接层后面增加0.5的DropOut层。

在本申请的一个实施例中，可以采用DNN模型对目标图像数据的特征进行识别，也就是，采用DNN模型，利用目标图像数据的特征对待识别文件进行识别，确定输入文件是否为恶意文件。具体的，根据目标图像数据的特征，确定输入文件是否为恶意文件，可以包括：将目标图像数据的特征输入预先训练的DNN模型，得到输出结果；其中，DNN模型用于对图像数据的特征进行识别，确定图像数据对应的文件是否为恶意文件，输出结果指示输入文件是否为恶意文件。

例如，将目标图像数据的特征输入DNN模型，得到输入文件为安全文件的第一概率，以及输入文件为恶意文件的第二概率。若第一概率大于第二概率，则DNN模型的输出结果指示输入文件为安全文件。否则，DNN模型的输出结果指示输入文件为恶意文件。

本申请实施例中，为了提高文件识别的准确性，在对待识别文件进行识别前，可预先训练DNN模型和CNN模型。DNN模型和CNN模型的训练过程可参看图6所示实施例中601-609部分的描述说明。

在本申请的一个实施例中，可以采用恶意文件特征库对目标图像数据的特征进行识别，确定待识别文件是否为恶意文件。其中，恶意文件特征库包括：多个样本恶意文件对应的图像数据的特征。具体的，将目标图像数据输入CNN模型，获取CNN模型的预设层的输出结果作为目标图像数据的特征。从预设的恶意文件特征库中查找目标图像数据的特征。若查找到，则确定输入文件为恶意文件。若未查找到，则确定输入文件为安全文件。

为了进一步提高文件识别的准确性，提高文件识别的效率，一个可选的实施例中，在预先训练获得了CNN模型后，可以将样本恶意文件对应的图像数据输入CNN模型，获取CNN模型的预设层的输出结果，将CNN模型的预设层的输出结果作为样本恶意文件对应的图像数据的特征。由这多个样本恶意文件对应的图像数据的特征，构建恶意文件特征库。

本申请实施例中，进行文件识别时，将待识别文件转换为图像数据，提取图像数据的特征，根据提取的特征，确定待识别文件是否为恶意文件。其中，图像数据的特征是待识别文件客观存在的特征，而不是根据经验设定的，依据此客观存在的特征得到文件识别结果，降低了文件识别对人的主观因素的依赖，提高了文件识别的准确性。

基于相同的发明构思，本申请实施例还提供了一种特征提取方法。参考图8，图8为本申请实施例提供的特征提取方法的一种流程示意图。该方法包括如下过程。

在801部分：将多个样本文件分别输入文件识别模型。

其中，文件识别模型用于：根据预设读取规则和预设词组模型，确定输入文件对应的多个字符串；根据输入文件对应的多个字符串，构建转移矩阵；根据文件的转移矩阵中的元素，确定输入文件对应的目标图像数据，其中，转移矩阵中的元素与字符串种类一一对应；利用CNN模型提取输入目标图像数据的特征，并利用DNN模型对目标图像数据的特征进行识别，确定输入文件是否为恶意文件。其中，字符串种类为字符串的种类，根据不同的读取规则和/或词组模型，获取的字符串的种类也不相同。

这里，输入文件为输入文件识别模型的文件。将多个样本文件分别输入文件识别模型时，这多个样本文件均为输入文件。

本申请实施例中，为了提高提取特征的准确性，在提取特征前训练DNN模型和CNN模型。DNN模型和CNN模型的训练过程可参看图6所示实施例中601-609部分的描述说明。

在802部分：针对每一样本文件，提取CNN模型的预设层的输出结果，作为该样本文件的特征。

在本申请的一个实施例中，根据预设读取规则和预设词组模型，确定输入文件对应的多个字符串，可以包括：按照预设读取规则读取输入别文件，得到多个字符；按照预设词组模型，组合多个字符中相邻的字符，得到多个字符串。

在本申请的一个实施例中，根据输入文件对应的多个字符串，构建转移矩阵，可以包括：确定每一字符串在多个字符串中的出现次数；根据每一字符串的出现次数，构建转移矩阵。可选的，转移矩阵的行数和列数相同，转移矩阵的行数和列数均为：字符串种类数与字符种类数的比值。其中，字符串种类数为：根据预设读取规则和预设词组模型确定字符串时，可获取到的字符串的种类数；字符种类数为：根据预设读取规则读取文件时，可获取到的字符的种类数。

在本申请的一个实施例中，对于转移矩阵中的任一元素，可以采用以下方式确定各元素对应的图像单元格的颜色深度。具体的，根据转移矩阵中各元素的值，计算转移矩阵中各元素对应的图像单元格的颜色深度，可以包括：

针对转移矩阵中的第一元素，确定第一元素的值为第一数值。其中，第一元素为转移矩阵中的任一元素，第一元素的值根据第一字符串的出现次数确定。第一字符串为转移矩阵中第一元素对应的字符串。

计算第一数值与第二数值的比值。

h＝Log T；

将计算得到的第一元素的转移概率确定为第一元素对应的图像单元格的颜色深度。

在本申请的一个实施例中，样本文件为样本恶意文件。这种情况下，在提取文件识别模型中CNN模型的预设层的输出结果，作为样本文件的特征之后，还可以包括：根据提取的多个特征构建恶意文件特征库。

可选的，为了避免图像数据的特征过长，增加文件识别的计算量，同时，为了避免图像数据的特征过短，降低文件识别的准确性，预设层可以为CNN模型的第三个卷积层。可选的，第三个卷积层输出的特征长度为512字节。

在本申请的一个实施例中，可以采用恶意文件特征库对待识别文件进行识别，确定待识别文件是否为恶意文件。具体的，将待识别文件输入文件识别模型；获取文件识别模型中CNN模型的预设层的输出结果，作为目标特征；从恶意文件特征库中查找目标特征。若查找到，则确定待识别文件为恶意文件。若未查找到，则确定待识别文件为安全文件。

本申请实施例中，提取预先训练获得的识别模型中CNN模型的预设层输出的特征，不需要人工分析处理提取文件的特征，提高了特征提取的效率，降低了人工成本。

另外，基于提取的恶意文件的特征构建恶意文件特征库，基于恶意文件特征库对待识别文件进行识别。由于恶意文件特征库中包括的特征是从恶意文件中直接提取到的，若待识别文件的特征与恶意文件特征库中的特征匹配，可以确定待识别文件为恶意文件，提高了文件识别的准确性。另外，相较于DNN模型识别特征的计算量，匹配恶意文件特征库中的特征计算量要小很多，提高了文件识别的效率。

基于相同的发明构思，本申请实施例还提供了一种文件识别装置。参考图9，图9为本申请实施例提供的文件识别装置的第一种结构示意图，该装置包括：

获取模块901，用于获取待识别文件；

第一确定模块902，用于根据预设读取规则和预设词组模型，确定待识别文件对应的多个字符串；

构建模块903，用于根据多个字符串，构建转移矩阵；其中，转移矩阵中的元素与字符串种类一一对应；

第二确定模块904，用于根据转移矩阵中的元素，确定待识别文件对应的目标图像数据；

识别模块905，用于提取目标图像数据的特征，并根据目标图像数据的特征，确定待识别文件是否为恶意文件。

上述字符串种类为字符串的种类，根据不同的读取规则和/或词组模型，获取的字符串的种类也不相同。

在本申请的一个实施例中，第一确定模块902，具体可以用于：

按照预设读取规则读取待识别文件，得到多个字符；

按照预设词组模型，组合多个字符中相邻的字符，得到多个字符串。

在本申请的一个实施例中，构建模块903，具体可以用于：

确定每一字符串在多个字符串中的出现次数；

根据每一字符串的出现次数，构建转移矩阵。

在本申请的一个实施例中，构建模块903，具体可以用于：

针对每一字符串，将该字符串的出现次数作为转移矩阵中该字符串对应的元素的值，得到转移矩阵；或者，

针对每一字符串，计算该字符串的出现次数与预设初始值的和值，将计算得到的和值作为转移矩阵中该字符串对应的元素的值，得到转移矩阵。

在本申请的一个实施例中，第二确定模块904，具体可以用于：

根据转移矩阵中各元素的值，计算转移矩阵中各元素对应的图像模块格的颜色深度，得到待识别文件对应的目标图像数据。

针对转移矩阵中的第一元素，确定第一元素的值为第一数值；其中，第一元素为转移矩阵中的任一元素，第一元素的值根据第一字符串的出现次数确定；

确定所有第二元素的值之和为第二数值；其中，第二元素的值根据第二字符串的出现次数确定，第二字符串的头部词与第一字符串的头部词相同；

计算第一数值与第二数值的比值；

根据计算得到的比值，确定第一元素对应的图像单元格的颜色深度。

上述第一字符串为转移矩阵中第一元素对应的字符串。

针对第一元素，根据以下公式确定第一元素的转移概率：

h＝Log T；

其中，h为第一元素的转移概率，T为计算得到的比值；

将计算得到的第一元素的转移概率，确定为第一元素对应的图像模块格的颜色深度。

在本申请的一个实施例中，识别模块905，具体可以用于：将目标图像数据输入预先训练的CNN模型，得到目标图像数据的特征；

其中，CNN模型以经典CNN Lenet-5模型为基础，第一个卷积层包括32个卷积核，第二个卷积层包括64个卷积核，第二个池化层后面增加0.25的DropOut层，第一个全连接层后面增加0.5的DropOut层。

在本申请的一个实施例中，识别模块905，具体可以用于：

将目标图像数据的特征输入预先训练的DNN模型，得到输出结果；其中，DNN模型用于利用图像数据的特征对文件进行识别，确定图像数据对应的文件是否为恶意文件，输出结果指示待识别文件是否为恶意文件。

在本申请的一个实施例中，目标图像数据的特征为CNN模型的预设层的输出结果；

此时，识别模块905，具体可以用于：

从预设恶意文件特征库中查找目标图像数据的特征；预设恶意文件特征库包括：多个样本恶意文件对应的图像数据的特征；

若查找到，则确定待识别文件为恶意文件；

若未查找到，则确定待识别文件为安全文件。

在一可选的实施例中，多个样本恶意文件对应的图像数据的特征的获取方式可以为：针对每一样本恶意文件，将该样本恶意文件对应的图像数据输入CNN模型，并将CNN模型的预设层对应输出的结果作为对应的图像数据的特征。

基于相同的发明构思，本申请实施例还提供了一种文件识别装置。参考图10，图10为本申请实施例提供的文件识别装置的第二种结构示意图，该装置包括：获取模块1001、输入模块1002和文件识别模型，文件识别模型包括：第一确定模块1003、构建模块1004、第二确定模块1005和识别模块1006；

获取模块1001，用于获取待识别文件；

输入模块1002，用于将待识别文件输入预先训练的文件识别模型；

第一确定模块1003，用于根据预设读取规则和预设词组模型，确定输入文件对应的多个字符串；

构建模块1004，用于根据输入文件对应的多个字符串，构建转移矩阵；转移矩阵中的元素与字符串种类一一对应；

第二确定模块1005，用于根据转移矩阵中的元素，确定输入文件对应的目标图像数据；

识别模块1006，用于提取目标图像数据的特征，并根据目标图像数据的特征，确定输入文件是否为恶意文件。

在本申请的一个实施例中，第一确定模块1003，具体可以用于：

按照预设读取规则读取输入文件，得到多个字符；按照预设词组模型，组合多个字符中相邻的字符，得到多个字符串。

在本申请的一个实施例中，构建模块1004，具体可以用于：

确定每一字符串在多个字符串中的出现次数；根据每一字符串的出现次数，构建转移矩阵。

在本申请的一个实施例中，构建模块1004，具体可以用于：

在本申请的一个实施例中，第二确定模块1005，具体可以用于：

根据转移矩阵中各元素的值，计算转移矩阵中各元素对应的图像模块格的颜色深度，得到输入文件对应的目标图像数据。

计算第一数值与第二数值的比值；

上述第一字符串为转移矩阵中第一元素对应的字符串。

针对第一元素，根据以下公式确定第一元素的转移概率：

h＝Log T；

其中，h为第一元素的转移概率，T为计算得到的比值；

将计算得到的第一元素的转移概率确定为第一元素对应的图像模块格的颜色深度。

在本申请的一个实施例中，识别模块1006，具体可以用于：将目标图像数据输入预先训练的CNN模型，得到目标图像数据的特征；

在本申请的一个实施例中，识别模块1006，具体可以用于：

将目标图像数据的特征输入预先训练的DNN模型，得到输出结果；其中，DNN模型用于利用图像数据的特征对文件进行识别，确定图像数据对应的文件是否为恶意文件，输出结果指示输入文件是否为恶意文件。

此时，识别模块1006，具体可以用于：

若查找到，则确定输入文件为恶意文件；

若未查找到，则确定输入文件为安全文件。

基于相同的发明构思，本申请实施例还提供了一种特征提取装置。参考图11，图11为本申请实施例提供的特征提取装置的一种结构示意图，该装置包括：输入模块1101、提取模块1102和文件识别模型；文件识别模型包括第一确定模块1103、第一构建模块1104、第二确定模块1105和第一识别模块1106。

输入模块1101，用于将多个样本文件分别输入文件识别模型；

第一确定模块1103，用于根据预设读取规则和预设词组模型，确定输入文件对应的多个字符串；

第一构建模块1104，用于根据输入文件对应的多个字符串，构建转移矩阵；转移矩阵中的元素与字符串种类一一对应；

第二确定模块1105，用于根据转移矩阵中的元素，确定输入文件对应的目标图像数据；

第一识别模块1106，用于利用CNN模型提取输入目标图像数据的特征，并利用DNN模型对目标图像数据的特征进行识别，确定输入文件是否为恶意文件；

提取模块1102，用于针对每一样本文件，提取CNN模型的预设层输出的特征的输出结果，作为该样本文件的特征。

上述利用DNN模型对目标图像数据的特征进行识别，确定输入文件是否为恶意文件，即为DNN模型利用图像数据的特征对输入文件进行识别，确定输入文件是否为恶意文件。

在本申请的一个实施例中，第一确定模块1103，具体可以用于：

在本申请的一个实施例中，第一构建模块1104，具体可以用于：

在本申请的一个实施例中，第二确定模块1105，具体可以用于：

根据转移矩阵中各元素的值，计算转移矩阵中各元素对应的图像模块格的颜色深度，得到输入件对应的目标图像数据。

计算第一数值与第二数值的比值；

上述第一字符串为转移矩阵中第一元素对应的字符串。

针对第一元素，根据以下公式确定第一元素的转移概率：

h＝Log T；

其中，h为第一元素的转移概率，T为计算得到的比值；

在本申请的一个实施例中，CNN模型以经典CNN Lenet-5模型为基础，第一个卷积层包括32个卷积核，第二个卷积层包括64个卷积核，第二个池化层后面增加0.25的DropOut层，第一个全连接层后面增加0.5的DropOut层。

在本申请的一个实施例中，样本文件为样本恶意文件；

上述特征提取装置还可以包括：第二构建模块，用于在针对每一样本文件，提取CNN模型的预设层的输出结果，作为该样本文件的特征之后，根据提取的多个特征构建恶意文件特征库。

在本申请的一个实施例中，上述特征提取装置还可以包括：第二识别模块，用于：

将待识别文件输入文件识别模型；获取文件识别模型中CNN模型的预设层的输出结果，作为目标特征；从恶意文件特征库中查找目标特征；若查找到，则确定待识别文件为恶意文件；若未查找到，则确定待识别文件为安全文件。

本申请实施例中，提取文件预先训练获得的识别模型中CNN模型的预设层输出的特征，不需要人工分析处理提取文件的特征，提高了特征提取的效率，降低了人工成本。

基于相同的发明构思，本申请实施例还提供了一种网络设备，如图12所示，包括处理器1201和机器可读存储介质1202，机器可读存储介质1202存储有能够被处理器1201执行的机器可执行指令。处理器1201被机器可执行指令促使实现上述图1所示的文件识别方法。具体的，处理器1201被机器可执行指令促使实现：

获取待识别文件；

根据预设读取规则和预设词组模型，确定待识别文件对应的多个字符串；

根据多个字符串，构建转移矩阵；其中，转移矩阵中的元素与字符串种类一一对应；

根据转移矩阵中的元素，确定待识别文件对应的目标图像数据；

提取目标图像数据的特征，并根据目标图像数据的特征，确定待识别文件是否为恶意文件。

在本申请的一个实施例中，处理器1201被机器可执行指令促使具体可以实现：

按照预设读取规则读取待识别文件，得到多个字符；按照预设词组模型，组合多个字符中相邻的字符，得到多个字符串。

根据转移矩阵中各元素的值，计算转移矩阵中各元素对应的图像指令格的颜色深度，得到待识别文件对应的目标图像数据。

计算第一数值与第二数值的比值；

上述第一字符串为转移矩阵中第一元素对应的字符串。

针对第一元素，根据以下公式确定第一元素的转移概率：

h＝Log T；

其中，h为第一元素的转移概率，T为计算得到的比值；

将目标图像数据输入预先训练的CNN模型，得到目标图像数据的特征；其中，CNN模型以经典CNN Lenet-5模型为基础，第一个卷积层包括32个卷积核，第二个卷积层包括64个卷积核，第二个池化层后面增加0.25的DropOut层，第一个全连接层后面增加0.5的DropOut层。

此时，处理器1201被机器可执行指令促使具体可以实现：

若查找到，则确定待识别文件为恶意文件；

若未查找到，则确定待识别文件为安全文件。

一个可选的实施例中，如图12所示，网络设备还可以包括：通信接口1203和通信总线1204；其中，处理器1201、机器可读存储介质1202、通信接口1203通过通信总线1204完成相互间的通信，通信接口1203用于上述网络设备与其他设备之间的通信。

基于相同的发明构思，本申请实施例还提供了一种网络设备，如图13所示，包括处理器1301和机器可读存储介质1302，机器可读存储介质1302存储有能够被处理器1301执行的机器可执行指令。处理器1301被机器可执行指令促使实现上述图7所示的文件识别方法。具体的，处理器1301被机器可执行指令促使实现：

获取待识别文件；

将待识别文件输入预先训练的文件识别模型，确定待识别文件是否为恶意文件；

其中，文件识别模型用于：根据预设读取规则和预设词组模型，确定输入文件对应的多个字符串；根据多个字符串，构建转移矩阵；转移矩阵中的元素与字符串种类一一对应；根据转移矩阵中的元素，确定输入文件对应的目标图像数据；提取目标图像数据的特征，根据目标图像数据的特征，确定输入文件是否为恶意文件。

在本申请的一个实施例中，处理器1301被机器可执行指令促使具体可以实现：

根据转移矩阵中各元素的值，计算转移矩阵中各元素对应的图像指令格的颜色深度，得到输入文件对应的目标图像数据。

计算第一数值与第二数值的比值；

上述第一字符串为转移矩阵中第一元素对应的字符串。

针对第一元素，根据以下公式确定第一元素的转移概率：

h＝Log T；

其中，h为第一元素的转移概率，T为计算得到的比值；

将目标图像数据输入预先训练的CNN模型，得到目标图像数据的特征；

此时，处理器1301被机器可执行指令促使具体可以实现：

若查找到，则确定输入文件为恶意文件；

若未查找到，则确定输入文件为安全文件。

一个可选的实施例中，如图13所示，网络设备还可以包括：通信接口1303和通信总线1304；其中，处理器1301、机器可读存储介质1302、通信接口1303通过通信总线1304完成相互间的通信，通信接口1303用于上述网络设备与其他设备之间的通信。

基于相同的发明构思，本申请实施例还提供了一种网络设备，如图14所示，包括处理器1401和机器可读存储介质1402，机器可读存储介质1402存储有能够被处理器1401执行的机器可执行指令。处理器1401被机器可执行指令促使实现上述图8所示的特征提取方法。具体的，处理器1401被机器可执行指令促使实现：

将多个样本文件分别输入文件识别模型；其中，文件识别模型用于：根据预设读取规则和预设词组模型，确定输入文件对应的多个字符串；根据输入文件对应的多个字符串，构建转移矩阵，转移矩阵中的元素与字符串种类一一对应；根据转移矩阵中的元素，确定输入文件对应的目标图像数据；利用CNN模型提取输入文件对应的目标图像数据的特征，并利用DNN模型对目标图像数据的特征进行识别，确定输入文件是否为恶意文件；

针对每一样本文件，提取CNN模型的预设层的输出结果，作为该样本文件的特征。

在本申请的一个实施例中，处理器1401被机器可执行指令促使具体可以实现：

计算第一数值与第二数值的比值；

上述第一字符串为转移矩阵中第一元素对应的字符串。

针对第一元素，根据以下公式确定第一元素的转移概率：

h＝Log T；

其中，h为第一元素的转移概率，T为计算得到的比值；

在本申请的一个实施例中，样本文件为样本恶意文件；

处理器1401被机器可执行指令促使还可以实现：在针对每一样本文件，提取CNN模型的预设层的输出结果，作为该样本文件的特征之后，根据获取的多个特征构，构建恶意文件特征库。

在本申请的一个实施例中，机器可执行指令还可以包括：第二识别指令；

处理器1401被机器可执行指令促使还可以实现：将待识别文件输入文件识别模型；获取文件识别模型中CNN模型的预设层的输出结果，作为目标特征；从恶意文件特征库中查找目标特征；若查找到，则确定待识别文件为恶意文件；若未查找到，则确定待识别文件为安全文件。

一个可选的实施例中，如图14所示，网络设备还可以包括：通信接口1403和通信总线1404；其中，处理器1401、机器可读存储介质1402、通信接口1403通过通信总线1404完成相互间的通信，通信接口1403用于上述网络设备与其他设备之间的通信。

上述通信总线可以是外设部件互连标准(英文：Peripheral Component Interconnect，简称：PCI)总线或扩展工业标准结构(英文：Extended Industry Standard Architecture，简称：EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。

上述机器可读存储介质可以包括随机存取存储器(英文：Random Access Memory，简称：RAM)，也可以包括非易失性存储器(英文：Non-Volatile Memory，简称：NVM)，例如至少一个磁盘存储器。另外，机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。

上述处理器可以是通用处理器，包括中央处理器(英文：Central Processing Unit，简称：CPU)、网络处理器(英文：Network Processor，简称：NP)等；还可以是数字信号处理器(英文：Digital Signal Processing，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)、现场可编程门阵列(英文：Field-Programmable Gate Array，简称：FPGA)或其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

基于相同的发明构思，本申请实施例还提供了一种机器可读存储介质，存储有机器可执行指令，在被处理器调用和执行时，机器可执行指令促使处理器实现上述图1所示的文件识别方法。具体的，机器可执行指令促使处理器实现：

获取待识别文件；

基于相同的发明构思，本申请实施例还提供了一种机器可读存储介质，存储有机器可执行指令，在被处理器调用和执行时，机器可执行指令促使处理器实现上述图7所示的文件识别方法。具体的，机器可执行指令促使处理器实现：

获取待识别文件；

基于相同的发明构思，本申请实施例还提供了一种机器可读存储介质，存储有机器可执行指令，在被处理器调用和执行时，机器可执行指令促使处理器实现上述图8所示的特征提取方法。具体的，机器可执行指令促使处理器实现：

基于相同的发明构思，本申请实施例还提供了一种机器可执行指令，在被处理器调用和执行时，机器可执行指令促使处理器实现上述图1所示的文件识别方法。具体的，机器可执行指令促使处理器实现：

获取待识别文件；

基于相同的发明构思，本申请实施例还提供了一种机器可执行指令，在被处理器调用和执行时，机器可执行指令促使处理器实现上述图7所示的文件识别方法。具体的，机器可执行指令促使处理器实现：获取待识别文件；

将待识别文件输入预先训练的文件识别指模型；确定待识别文件是否为恶意文件；

基于相同的发明构思，本申请实施例还提供了一种机器可执行指令，在被处理器调用和执行时，机器可执行指令促使处理器实现上述图8所示的特征提取方法。具体的，机器可执行指令促使处理器实现：

另外，基于提取的恶意文件的特征构建恶意文件特征库，基于恶意文件特征库对待识别文件进行识别。由于恶意文件特征库中包括的特征是从恶意文件中直接提取到的，若待识别文件的特征与恶意文件特征库中的特征匹配，可以确定待识别文件为恶意文件，提高了文件识别的准确性。另外，相较于DNN 模型识别特征的计算量，匹配恶意文件特征库中的特征计算量要小很多，提高了文件识别的效率。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于文件识别装置、特征提取装置、网络设备、机器可读存储介质实施例而言，由于其基本相似于文件识别方法和特征提取方法实施例，所以描述的比较简单，相关之处参见文件识别方法和特征提取方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

一种文件识别方法，所述方法包括：

获取待识别文件；

根据预设读取规则和预设词组模型，确定所述待识别文件对应的多个字符串；

根据所述多个字符串，构建转移矩阵；其中，所述转移矩阵中的元素与字符串种类一一对应；

根据所述转移矩阵中的元素，确定所述待识别文件对应的目标图像数据；

提取所述目标图像数据的特征，并根据所述目标图像数据的特征，确定所述待识别文件是否为恶意文件。
根据权利要求1所述的方法，所述根据预设读取规则和预设词组模型，确定所述待识别文件对应的多个字符串，包括：

按照预设读取规则读取所述待识别文件，得到多个字符；

按照预设词组模型，组合所述多个字符中相邻的字符，得到多个字符串。
根据权利要求1所述的方法，所述根据所述多个字符串，构建转移矩阵，包括：

确定每一字符串在所述多个字符串中的出现次数；

根据每一字符串的出现次数，构建转移矩阵。
根据权利要求3所述的方法，所述根据每一字符串的出现次数，构建转移矩阵，包括：

针对每一字符串，将该字符串的出现次数作为转移矩阵中该字符串对应的元素的值，得到所述转移矩阵；或者，

针对每一字符串，计算该字符串的出现次数与预设初始值的和值，将计算得到的和值作为转移矩阵中该字符串对应的元素的值，得到所述转移矩阵。
根据权利要求1所述的方法，所述根据所述转移矩阵中的元素，确定所述待识别文件对应的目标图像数据，包括：

根据所述转移矩阵中各元素的值，计算所述转移矩阵中各元素对应的图像单元格的颜色深度，得到所述待识别文件对应的目标图像数据。
根据权利要求5所述的方法，所述根据所述转移矩阵中各元素的值，计算所述转移矩阵中各元素对应的图像单元格的颜色深度，包括：

针对所述转移矩阵中的第一元素，确定所述第一元素的值为第一数值；其中，所述第一元素为所述转移矩阵中的任一元素，所述第一元素的值根据所述第一元素对应的第一字符串的出现次数确定；

确定所有第二元素的值之和为第二数值；其中，所述第二元素的值根据第二字符串的出现次数确定，所述第二字符串的头部词与所述第一字符串的头部词相同；

计算所述第一数值与所述第二数值的比值；

根据计算得到的比值，确定所述第一元素对应的图像单元格的颜色深度。
根据权利要求6所述的方法，所述根据计算得到的比值，确定所述第一元素对应的图像单元格的颜色深度，包括：

针对所述第一元素，根据以下公式确定所述第一元素的转移概率：

h＝Log T；

其中，h为所述第一元素的转移概率，T为计算得到的比值；

将计算得到的所述第一元素的转移概率，确定为所述第一元素对应的图像单元格的颜色深度。
根据权利要求1所述的方法，所述提取所述目标图像数据的特征，包括：

将所述目标图像数据输入预先训练的卷积神经网络CNN模型，得到所述目标图像数据的特征；

其中，所述CNN模型以经典CNN Lenet-5模型为基础，第一个卷积层包括32个卷积核，第二个卷积层包括64个卷积核，第二个池化层后面增加0.25的丢弃DropOut层，第一个全连接层后面增加0.5的DropOut层。
根据权利要求8所述的方法，所述根据所述目标图像数据的特征，确定所述待识别文件是否为恶意文件，包括：

将所述目标图像数据的特征输入预先训练的深度神经网络DNN模型，得到输出结果；其中，所述DNN模型用于对图像数据的特征进行识别，确定图像数据对应的文件是否为恶意文件，所述输出结果指示所述待识别文件是否为恶意文件。
根据权利要求8所述的方法，所述目标图像数据的特征为所述CNN模型的预设层的输出结果；

所述根据所述目标图像数据的特征，确定所述待识别文件是否为恶意文件，包括：

从预设恶意文件特征库中查找所述目标图像数据的特征；所述预设恶意文件特征库包括：多个样本恶意文件对应的图像数据的特征；

若查找到，则确定所述待识别文件为恶意文件；

若未查找到，则确定所述待识别文件为安全文件。
一种文件识别方法，所述方法包括：

获取待识别文件；

将所述待识别文件输入预先训练的文件识别模型，确定所述待识别文件是否为恶意文件；

其中，所述文件识别模型用于：根据预设读取规则和预设词组模型，确定输入文件对应的多个字符串；根据所述多个字符串，构建转移矩阵，所述转移矩阵中的元素与字符串种类一一对应；根据所述转移矩阵中的元素，确定所述输入文件对应的目标图像数据；提取所述目标图像数据的特征，并根据所述目标图像数据的特征，确定所述输入文件是否为恶意文件。
一种特征提取方法，所述方法包括：

将多个样本文件分别输入文件识别模型；其中，所述文件识别模型用于：根据预设读取规则和预设词组模型，确定输入文件对应的多个字符串；根据所述多个字符串，构建转移矩阵，所述转移矩阵中的元素与字符串种类一一对应；根据所述转移矩阵中的元素，确定所述输入文件对应的目标图像数据；利用卷积神经网络CNN模型提取所述目标图像数据的特征；利用深度神经网络DNN模型对所述目标图像数据的特征进行识别，确定所述输入文件是否为恶意文件；

针对每一样本文件，提取所述CNN模型的预设层的输出结果，作为该样本文件的特征。
根据权利要求12所述的方法，所述样本文件为样本恶意文件；

在针对每一样本文件，提取所述CNN模型的预设层的输出结果，作为该样本文件的特征之后，还包括：

根据提取的多个特征，构建恶意文件特征库。
根据权利要求13所述的方法，还包括：

将待识别文件输入所述文件识别模型；

获取所述CNN模型的预设层的输出结果，作为目标特征；

从所述恶意文件特征库中查找所述目标特征；

若查找到，则确定所述待识别文件为恶意文件；

若未查找到，则确定所述待识别文件为安全文件。
一种网络设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使实现：

获取待识别文件；

根据预设读取规则和预设词组模型，确定所述待识别文件对应的多个字符串；

根据所述多个字符串，构建转移矩阵；其中，所述转移矩阵中的元素与字符串种类一一对应；

根据所述转移矩阵中的元素，确定所述待识别文件对应的目标图像数据；

提取所述目标图像数据的特征，并根据所述目标图像数据的特征，确定所述待识别文件是否为恶意文件。
根据权利要求15所述的网络设备，所述处理器被所述机器可执行指令促使具体实现：

按照预设读取规则读取所述待识别文件，得到多个字符；

按照预设词组模型，组合所述多个字符中相邻的字符，得到多个字符串。
根据权利要求15所述的网络设备，所述处理器被所述机器可执行指令促使具体实现：

确定每一字符串在所述多个字符串中的出现次数；

根据每一字符串的出现次数，构建转移矩阵。
根据权利要求17所述的网络设备，所述处理器被所述机器可执行指令促使具体实现：

针对每一字符串，将该字符串的出现次数作为转移矩阵中该字符串对应的元素的值，得到所述转移矩阵；或者，

针对每一字符串，计算该字符串的出现次数与预设初始值的和值，将计算得到的和值作为转移矩阵中该字符串对应的元素的值，得到所述转移矩阵。
根据权利要求15所述的网络设备，所述处理器被所述机器可执行指令促使具体实现：

根据所述转移矩阵中各元素的值，计算所述转移矩阵中各元素对应的图像单元格的颜色深度，得到所述待识别文件对应的目标图像数据。
根据权利要求19所述的网络设备，所述处理器被所述机器可执行指令促使具体实现：

针对所述转移矩阵中的第一元素，确定所述第一元素的值为第一数值；其中，所述第一元素为所述转移矩阵中的任一元素，所述第一元素的值根据所述第一元素对应的第一字符串的出现次数确定；

确定所有第二元素的值之和为第二数值；其中，所述第二元素的值根据第二字符串的出现次数确定，所述第二字符串的头部词与所述第一字符串的头部词相同；

计算所述第一数值与所述第二数值的比值；

根据计算得到的比值，确定所述第一元素对应的图像单元格的颜色深度。
根据权利要求20所述的网络设备，所述处理器被所述机器可执行指令促使具体实现：

针对所述第一元素，根据以下公式确定所述第一元素的转移概率：

h＝Log T；

其中，h为所述第一元素的转移概率，T为计算得到的比值；

将计算得到的所述第一元素的转移概率，确定为所述第一元素对应的图像单元格的颜色深度。
根据权利要求15所述的网络设备，所述处理器被所述机器可执行指令促使具体实现：

将所述目标图像数据输入预先训练的卷积神经网络CNN模型，得到所述目标图像数据的特征；

其中，所述CNN模型以经典CNN Lenet-5模型为基础，第一个卷积层包括32个卷积核，第二个卷积层包括64个卷积核，第二个池化层后面增加0.25的丢弃DropOut层，第一个全连接层后面增加0.5的DropOut层。
根据权利要求22所述的网络设备，所述处理器被所述机器可执行指令促使具体实现：

将所述目标图像数据的特征输入预先训练的深度神经网络DNN模型，得到输出结果；其中，所述DNN模型用于对图像数据的特征进行识别，确定图像数据对应的文件是否为恶意文件，所述输出结果指示所述待识别文件是否为恶意文件。
根据权利要求22所述的网络设备，所述目标图像数据的特征为所述CNN模型的预设层的输出结果；

所述处理器被所述机器可执行指令促使具体实现：所述根据所述目标图像数据的特征，确定所述待识别文件是否为恶意文件，包括：从预设恶意文件特征库中查找所述目标图像数据的特征；所述预设恶意文件特征库包括：多个样本恶意文件对应的图像数据的特征；若查找到，则确定所述待识别文件为恶意文件；

若未查找到，则确定所述待识别文件为安全文件。
一种网络设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使实现：

获取待识别文件；

将所述待识别文件输入预先训练的文件识别模型，确定所述待识别文件是否为恶意文件；

其中，所述文件识别模型用于：根据预设读取规则和预设词组模型，确定输入文件对应的多个字符串；根据所述多个字符串，构建转移矩阵，所述转移矩阵中的元素与字符串种类一一对应；根据所述转移矩阵中的元素，确定所述输入文件对应的目标图像数据；提取所述目标图像数据的特征，并根据所述目标图像数据的特征，确定所述输入文件是否为恶意文件。
一种网络设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使实现：

将多个样本文件分别输入文件识别模型；其中，所述文件识别模型用于：根据预设读取规则和预设词组模型，确定输入文件对应的多个字符串；根据所述多个字符串，构建转移矩阵，所述转移矩阵中的元素与字符串种类一一对应；根据所述转移矩阵中的元素，确定所述输入文件对应的目标图像数据；利用卷积神经网络CNN模型提取所述目标图像数据的特征，并利用深度神经网络DNN模型对所述目标图像数据的特征进行识别，确定所述输入文件是否为恶意文件；

针对每一样本文件，提取所述CNN模型的预设层的输出结果，作为该样本文件的特征。
根据权利要求26所述的网络设备，所述样本文件为样本恶意文件；

所述处理器被所述机器可执行指令促使实现：在针对每一样本文件，提取所述CNN模型的预设层的输出结果，作为该样本文件的特征之后，根据提取的多个特征，构建恶意文件特征库。
根据权利要求26所述的网络设备，所述处理器被所述机器可执行指令促使实现：将待识别文件输入所述文件识别模型；获取所述CNN模型的预设层的输出结果，作为目标特征；从所述恶意文件特征库中查找所述目标特征；若查找到，则确定所述待识别文件为恶意文件；若未查找到，则确定所述待识别文件为安全文件。