WO2022021501A1

WO2022021501A1 - 恶意文件的确定方法及装置

Info

Publication number: WO2022021501A1
Application number: PCT/CN2020/110318
Authority: WO
Inventors: 赵烨; 袁巍; 路鹏; 王海旭
Original assignee: 山石网科通信技术股份有限公司
Priority date: 2020-07-30
Filing date: 2020-08-20
Publication date: 2022-02-03
Also published as: CN111881448B; CN111881448A; US20230153432A1

Abstract

一种恶意文件的确定方法及装置。该方法包括：判断接收到的多个文件块是否符合预设要求（S101），多个文件块是待检测文件的所有文件块，预设要求至少包括：多个文件块的大小要求和多个文件块的排序要求；若多个文件块不符合预设要求，则计算首部文件块的哈希特征值（S102），首部文件块是在设备缓存区中已按文件块的顺序缓存的文件块；将多个文件块划分为预设数量的子文件，计算每个子文件的与顺序无关的哈希特征值（S103）；基于首部文件块的哈希特征值和每个子文件的与顺序无关的哈希特征值，判断待检测文件是否为恶意文件（S104）。通过该方法，解决了相关技术中若设备没有足够空间缓存待检测文件的所有文件块，难以检测待检测文件是否为恶意文件的问题。

Description

恶意文件的确定方法及装置

本发明申请要求2020年07月30日申请的，申请号为202010754323.5，名称为“恶意文件的确定方法及装置”的中国专利申请的优先权，在此将其全文引入作为参考。

技术领域

本申请涉及信息处理技术领域，具体而言，涉及一种恶意文件的确定方法及装置。

背景技术

在当前网络安全设备中恶意文件检测技术应用很广泛。通常，网络安全设备中的文件承载层协议(例如，SMB-Server Message Block协议)解码器，从流量中提取文件内容，计算校验和，然后与预先生成的恶意文件校验和比较，如发现匹配则判定是否恶意文件。现有技术方案中判定恶意文件的步骤可以如下：首先，检测引擎按照协议逐层解码，提取文件块。针对文件块顺序计算块的哈希特征值，文件接收完毕后得到整体文件的哈希特征值。然后，使用整体文件的哈希特征值查恶意文件哈希特征值的特征库，确定是否与库中已知恶意文件哈希特征值结果相同，从而确定是否是恶意文件。

然而，业界计算恶意文件哈希特征值的算法(如MD5)，都要求在文件块有序的情况下执行，无法在文件数据块乱序的情况下计算哈希特征值，以检测恶意文件。如果文件乱序，中间网络安全设备最坏情况下需要在缓存全部文件块的情况下，才能计算哈希特征值，对设备内存空间要求过高。若设备没有足够空间缓存文件块，导致无法完成哈希特征值结果的有序计算，无法实现大的恶意文件的检测。

针对相关技术中若设备没有足够空间缓存待检测文件的所有文件块，难以检测待检测文件是否为恶意文件的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种恶意文件的确定方法及装置，以解决相关技术中若设备没有足够空间缓存待检测文件的所有文件块，难以检测待检测文件是否为恶意文件的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种恶意文件的确定方法。该方法包括：判断接收到的多个文件块是否符合预设要求，其中，所述多个文件块是待检测文件的所有文件块，所述预设要求至少包括：所述多个文件块的大小要求和所述多个文件块的排序要求；若所述多个文件块不符合预设要求，则计算首部文件块的哈希特征值，其中，所述首部文件块是在设备缓存区中已按文件块的顺序缓存的文件块；将所述多个文件块划分为预设数量的子文件，计算每个子文件的与顺序无关的哈希特征值；基于所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值，判断所述待检测文件是否为恶意文件。

进一步地，计算每个子文件的与顺序无关的哈希特征值包括：将每个子文件分成多个预设比特的数据块，计算每个预设比特的数据块中与顺序无关的哈希特征值；将每个预设比特的数据块中与顺序无关的哈希特征值进行累加和计算，得到每个子文件的与顺序无关的哈希特征值。

进一步地，所述方法还包括：若每个子文件分成的数据块中存在小于预设比特的数据块，则对所述小于预设比特的数据块进行填充，以使每个数据块是预设比特的数据块。

进一步地，基于所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值，判断所述待检测文件是否为恶意文件，包括：获取所述待检测文件的长度；基于待检测文件的长度、所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值在预设数据库中进行匹配查询，以判断所述待检测文件是否为恶意文件。

进一步地，基于待检测文件的长度、所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值在预设数据库中进行匹配查询，以判断所述待检测文件是否为恶意文件，包括：若预设数据库中存储了与待检测文件的长度相同、所述首部文件块的哈希特征值相同和所述每个子文件的与顺序无关的哈希特征值相同的数据信息，则确定所述待检测文件为恶意文件。

进一步地，在判断接收到的多个文件块是否符合预设要求之前，所述方法还包括：判断所述待检测文件的大小；若所述待检测文件的大小超过预设大小，则执行判断接收到的多个文件块是否符合预设要求的步骤。

进一步地，所述方法应用于网络安全设备中的应用层协议无序传输中获取所述待检测文件的数据块的场景。

为了实现上述目的，根据本申请的一个方面，提供了一种恶意文件的确定装置，包括：第一判断单元，设置为判断接收到的多个文件块是否符合预设要求，其中，所述多个文件块是待检测文件的所有文件块，所述预设要求至少包括：所述多个文件块的大小要求和所述多个文件块的排序要求；第一计算单元，设置为在所述多个文件块不符合预设要求的情况下，则计算首部文件块的哈希特征值，其中，所述首部文件块是在设备缓存区中已按文件块的顺序缓存的文件块；第二计算单元，设置为将所述多个文件块划分为预设数量的子文件，计算每个子文件的与顺序无关的哈希特征值；第二判断单元，设置为基于所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值，判断所述待检测文件是否为恶意文件。

为了实现上述目的，根据本申请的一个方面，提供了一种非易失性存储介质，所述存储介质包括存储的程序，其中，所述程序执行上述任意一项所述的恶意文件的确定方法。

为了实现上述目的，根据本申请的一个方面，提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述任意一项所述的恶意文件的确定方法。

通过本申请，采用以下步骤：判断接收到的多个文件块是否符合预设要求，其中，多个文件块是待检测文件的所有文件块，预设要求至少包括：多个文件块的大小要求和多个文件块的排序要求；若多个文件块不符合预设要求，则计算首部文件块的哈希特征值，其中，首部文件块是在设备缓存区中已按文件块的顺序缓存的文件块；将多个文件块划分为预设数量的子文件，计算每个子文件的与顺序无关的哈希特征值；基于首部文件块的哈希特征值和每个子文件的与顺序无关的哈希特征值，判断待检测文件是否为恶意文件，解决了相关技术中若设备没有足够空间缓存待检测文件的所有文件块，难以检测待检测文件是否为恶意文件的问题。通过根据中已按文件块的顺序缓存的文件块的哈希特征值和每个子文件的与顺序无关的哈希特征值，判断出待检测文件是否为恶意文件，实现了在设备没有足够空间缓存待检测文件的所有文件块的情况下，也可以检测待检测文件是否为恶意文件的效果。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例提供的恶意文件的确定方法的流程图；

图2是根据本申请实施例提供的恶意文件的确定方法中增补特征的计算示意图；

图3是根据本申请实施例提供的恶意文件的确定方法的示意图；以及

图4是根据本申请实施例提供的恶意文件的确定装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了便于描述，以下对本申请实施例涉及的部分名词或术语进行说明：

恶意文件：例如，恶意文件为病毒、木马等用于破坏计算机系统或窃取用户隐私的脚本。

根据本申请的实施例，提供了一种恶意文件的确定方法。

图1是根据本申请实施例的恶意文件的确定方法的流程图。如图1所示，该方法包括以下步骤：

步骤S101，判断接收到的多个文件块是否符合预设要求，其中，多个文件块是待检测文件的所有文件块，预设要求至少包括：多个文件块的大小要求和多个文件块的排序要求。

步骤S102，若多个文件块不符合预设要求，则计算首部文件块的哈希特征值，其中，首部文件块是在设备缓存区中已按文件块的顺序缓存的文件块。

若待检测文件的所有文件块的大小超过预设大小且文件块并不是按照顺序排列的，则认为待检测文件的文件块不符合预设要求。例如，设备缓存区上限为2M，获取到的待检测文件的所有文件块的大小为5M，也即，待检测文件的大小超过2M，且文件块并不是按照顺序排列的，则计算在设备缓存区中已按文件块的顺序缓存的文件块的哈希特征值。如图2所示，虚线框中的部分为设备缓存区中已按文件块的顺序缓存的文件块，对已按文件块的顺序缓存的文件块进行排序，计算设备缓存区中排序后的文件块的哈希特征值(对应图2中的排序后算出首都Hash结果)。

步骤S103，将多个文件块划分为预设数量的子文件，计算每个子文件的与顺序无关的哈希特征值。

需要说明的是，对于待检测文件的大小超过预设大小阈值(例如，检测设备缓冲上限为2M)的恶意文件，除保存原有的恶意文件特征定义外，增补如下表1所示，文件首部Hash值(设备缓存区中已按文件块的顺序缓存的文件块的哈希特征值)和文件累加和(每个子文件的与顺序无关的哈希特征值)作为第二种文件特征，增补的文件特征可用于独立识别恶意文件。

表1

可选地，在本申请实施例提供的恶意文件的确定方法中，计算每个子文件的与顺序无关的哈希特征值包括：将每个子文件分成多个预设比特的数据块，计算每个预设比特的数据块中与顺序无关的哈希特征值；将每个预设比特的数据块中与顺序无关的哈希特征值进行累加和计算，得到每个子文件的与顺序无关的哈希特征值。

需要说的是，计算数据块中与顺序无关的哈希特征值的算法对于输入数据块内的数据单元可以任意顺序参与计算，得到的结果都相同，例如，计算与顺序无关的哈希特征值的算法为累加和。

例如，待检测的文件的大小为10M，设备缓存区能缓存1M的数据，将10M其分为5个子文件。0-2M为第一个子文件，该子文件由于应用层协议无序传输，而乱序被设备接收到，且无法完全缓存。接收到无序传输的数据，设备将它分为若干个64bit的数据块，然后算各个64bit的数据块的与顺序无关的哈希特征值，然后将每个64bit的数据块的与顺序无关的哈希特征值进行累加和计算，得到0-2M子文件的与顺序无关的哈希特征值。计算2-4M子文件，4-6M子文件，6-8M子文件，以及6-8M子文件的哈希特征值方法与计算0-2M子文件的哈希特征值一样，在此不在赘述。计算文件首部Hash值(设备缓存区中已按文件块的顺序缓存的文件块的哈希特征值)和文件累加和(每个子文件的与顺序无关的哈希特征值)的示意，可如下表2所示。

表2

步骤S104，基于首部文件块的哈希特征值和每个子文件的与顺序无关的哈希特征值，判断待检测文件是否为恶意文件。

例如，可以通过表2中的六个值(文件首部Hash值，累加和1，…，累加和5)确定待检测文件是否为恶意文件。

通过上述步骤，实现了在设备没有足够空间缓存待检测文件的所有文件块的情况下，也可以检测待检测文件是否为恶意文件。

可选地，在本申请实施例提供的恶意文件的确定方法中，该方法还包括：若每个子文件分成的数据块中存在小于预设比特的数据块，则对小于预设比特的数据块进行填充，以使每个数据块是预设比特的数据块。

例如，预设比特是64bit，然而，8-10M的数据块中尾部不足64bit，尾部58bit，可以填充0，以补足64bit，从而保证后续计算各个数据块的哈希特征值(表2中的累加和)的准确性，以便更准确的识别恶意文件。

为了提升确定待检测文件是否为恶意文件的效率，可选地，在本申请实施例提供的恶意文件的确定方法中，基于首部文件块的哈希特征值和每个子文件的与顺序无关的哈希特征值，判断待检测文件是否为恶意文件，包括：获取待检测文件的长度；基于待检测文件的长度、首部文件块的哈希特征值和每个子文件的与顺序无关的哈希特征值在预设数据库中进行匹配查询，以判断待检测文件是否为恶意文件。

在上述方案中，预设数据库中已预先存储了历史数据中所有恶意文件的长度、设备缓存区能缓存的文件块的哈希特征值和每个子文件的与顺序无关的哈希特征值。直接基于获取到的待检测文件的长度；基于待检测文件的长度、首部文件块的哈希特征值和每个子文件的与顺序无关的哈希特征值在预设数据库中进行匹配查询，即可快速的判断出待检测文件是否为恶意文件。具体地，若预设数据库中存储了与待检测文件的长度相同、首部文件块的哈希特征值相同和每个子文件的与顺序无关的哈希特征值相同的数据信息，则确定待检测文件为恶意文件。

可选地，在本申请实施例提供的恶意文件的确定方法中，该方法应用于网络安全设备中的应用层协议无序传输中(例如，如服务器消息块协议SMB)获取待检测文件的数据块的场景。

由于SMB协议在文件发送时不保证文件有序，因此，采用上述方法可以实现恶意文件的检测。在检测之前，可以判断待检测文件的大小；若待检测文件的大小超过预设大小，则执行判断接收到的多个文件块是否符合预设要求的步骤。也即，若预先知道传输的文件大小，在本申请实施例提供的恶意文件的确定方法中，仅对待检测文件超过预设大小的文件应用于本申请实施例提供的恶意文件的确定方法。

如图3所示，在接收到多个文件块时，进行数据解析，判断是否是全局失序，需要说明的是，全局失序是指待检测文件的多个文件块无法顺序缓存的情况，若多个文件块无法顺序缓存，则判断缓存区中的文件全局失序。然后计算缓存区中已按文件块的顺序缓存的文件块(首都文件块)的哈希特征值，由于可能多次接收才能接收完缓存区中应该存储的文件块，因此，判断缓存区中已按文件块的顺序缓存的文件块(首都文件块)的哈希特征值是否计算完毕，若计算完毕则计算各个子文件的累加和，若没有计算完毕，则等待缓存区中已按文件块的顺序缓存的文件块(首都文件块)的哈希特征值计算完毕后再计算各个子文件的累加和。若多个文件块能够顺序缓存，也即，缓存区中的文件能够全部属顺序缓存，计算整体文件的哈希特征值。在对待检测文件进行恶意文件判断是，进一步判断多个文件块是否是无法顺序缓存，若是，则通过首都哈希特征值和累加和组成的特征进行判断待检测文件是否为恶意文件。若不是，则基于计算出的整体文件的哈希特征值进行判断待检测文件是否为恶意文件。

通过上述方法，解决了相关技术中若设备没有足够空间缓存待检测文件的所有文件块，难以检测待检测文件是否为恶意文件的问题。通过根据已按文件块的顺序缓存的文件块的哈希特征值和每个子文件的与顺序无关的哈希特征值，判断出待检测文件是否为恶意文件，实现了在设备没有足够空间缓存待检测文件的所有文件块的情况下，也可以检测待检测文件是否为恶意文件的效果。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例还提供了一种恶意文件的确定装置，需要说明的是，本申请实施例的恶意文件的确定装置可以用于执行本申请实施例所提供的用于恶意文件的确定方法。以下对本申请实施例提供的恶意文件的确定装置进行介绍。

图4是根据本申请实施例的恶意文件的确定装置的示意图。如图4所示，该装置包括：第一判断单元401，第一计算单元402，第二计算单元403和第二判断单元404。

具体地，第一判断单元401，设置为判断接收到的多个文件块是否符合预设要求，其中，多个文件块是待检测文件的所有文件块，预设要求至少包括：多个文件块的大小要求和多个文件块的排序要求。

第一计算单元402，设置为在多个文件块不符合预设要求的情况下，则计算首部文件块的哈希特征值，其中，首部文件块是在设备缓存区中已按文件块的顺序缓存的文件块。

第二计算单元403，设置为将多个文件块划分为预设数量的子文件，计算每个子文件的与顺序无关的哈希特征值。

第二判断单元404，设置为基于首部文件块的哈希特征值和每个子文件的与顺序无关的哈希特征值，判断待检测文件是否为恶意文件。

本申请实施例提供的恶意文件的确定装置，第一判断单元401判断接收到的多个文件块是否符合预设要求，其中，多个文件块是待检测文件的所有文件块，预设要求至少包括：多个文件块的大小要求和多个文件块的排序要求；第一计算单元402在多个文件块不符合预设要求的情况下，则计算首部文件块的哈希特征值，其中，首部文件块是在设备缓存区中已按文件块的顺序缓存的文件块；第二计算单元403将多个文件块划分为预设数量的子文件，计算每个子文件的与顺序无关的哈希特征值；第二判断单元404基于首部文件块的哈希特征值和每个子文件的与顺序无关的哈希特征值，判断待检测文件是否为恶意文件。通过根据中已按文件块的顺序缓存的文件块的哈希特征值和每个子文件的与顺序无关的哈希特征值，判断出待检测文件是否为恶意文件，实现了在设备没有足够空间缓存待检测文件的所有文件块的情况下，也可以检测待检测文件是否为恶意文件的效果。

可选地，在本申请实施例提供的恶意文件的确定装置中，第二计算单元403包括：第一计算模块，设置为将每个子文件分成多个预设比特的数据块，计算每个预设比特的数据块中与顺序无关的哈希特征值；第二计算模块，设置为将每个预设比特的数据块中与顺序无关的哈希特征值进行累加和计算，得到每个子文件的与顺序无关的哈希特征值。

可选地，在本申请实施例提供的恶意文件的确定装置中，该装置还包括：填充单元，设置为在每个子文件分成的数据块中存在小于预设比特的数据块的情况下，则对小于预设比特的数据块进行填充，以使每个数据块是预设比特的数据块。

可选地，在本申请实施例提供的恶意文件的确定装置中，第二判断单元404包括：获取模块，设置为获取待检测文件的长度；查询模块，设置为基于待检测文件的长度、首部文件块的哈希特征值和每个子文件的与顺序无关的哈希特征值在预设数据库中进行匹配查询，以判断待检测文件是否为恶意文件。

可选地，在本申请实施例提供的恶意文件的确定装置中，查询模块包括：确定模块，设置为在预设数据库中存储了与待检测文件的长度相同、首部文件块的哈希特征值相同和每个子文件的与顺序无关的哈希特征值相同的数据信息的情况下，则确定待检测文件为恶意文件。

可选地，在本申请实施例提供的恶意文件的确定装置中，该装置还包括：第三判断单元，设置为在判断接收到的多个文件块是否符合预设要求之前，判断待检测文件的大小；执行单元，设置为在待检测文件的大小超过预设大小的情况下，则执行判断接收到的多个文件块是否符合预设要求的步骤。

可选地，在本申请实施例提供的恶意文件的确定装置中，该装置应用于网络安全设备中的应用层协议无序传输中获取待检测文件的数据块的场景。

所述恶意文件的确定装置包括处理器和存储器，上述的第一判断单元401，第一计算单元402，第二计算单元403和第二判断单元404等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来在设备没有足够空间缓存待检测文件的所有文件块的情况下，也可以检测待检测文件是否为恶意文件的效果。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述恶意文件的确定方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述恶意文件的确定方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：判断接收到的多个文件块是否符合预设要求，其中，所述多个文件块是待检测文件的所有文件块，所述预设要求至少包括：所述多个文件块的大小要求和所述多个文件块的排序要求；若所述多个文件块不符合预设要求，则计算首部文件块的哈希特征值，其中，所述首部文件块是在设备缓存区中已按文件块的顺序缓存的文件块；将所述多个文件块划分为预设数量的子文件，计算每个子文件的与顺序无关的哈希特征值；基于所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值，判断所述待检测文件是否为恶意文件。

处理器执行程序时还可以实现以下步骤：计算每个子文件的与顺序无关的哈希特征值包括：将每个子文件分成多个预设比特的数据块，计算每个预设比特的数据块中与顺序无关的哈希特征值；将每个预设比特的数据块中与顺序无关的哈希特征值进行累加和计算，得到每个子文件的与顺序无关的哈希特征值。

处理器执行程序时还可以实现以下步骤：所述方法还包括：若每个子文件分成的数据块中存在小于预设比特的数据块，则对所述小于预设比特的数据块进行填充，以使每个数据块是预设比特的数据块。

处理器执行程序时还可以实现以下步骤：基于所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值，判断所述待检测文件是否为恶意文件，包括：获取所述待检测文件的长度；基于待检测文件的长度、所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值在预设数据库中进行匹配查询，以判断所述待检测文件是否为恶意文件。

处理器执行程序时还可以实现以下步骤：基于待检测文件的长度、所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值在预设数据库中进行匹配查询，以判断所述待检测文件是否为恶意文件，包括：若预设数据库中存储了与待检测文件的长度相同、所述首部文件块的哈希特征值相同和所述每个子文件的与顺序无关的哈希特征值相同的数据信息，则确定所述待检测文件为恶意文件。

处理器执行程序时还可以实现以下步骤：在判断接收到的多个文件块是否符合预设要求之前，所述方法还包括：判断所述待检测文件的大小；若所述待检测文件的大小超过预设大小，则执行判断接收到的多个文件块是否符合预设要求的步骤。

处理器执行程序时还可以实现以下步骤：所述方法应用于网络安全设备中的应用层协议无序传输中获取所述待检测文件的数据块的场景。本文中的设备可以是服务器、PC、PAD、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：判断接收到的多个文件块是否符合预设要求，其中，所述多个文件块是待检测文件的所有文件块，所述预设要求至少包括：所述多个文件块的大小要求和所述多个文件块的排序要求；若所述多个文件块不符合预设要求，则计算首部文件块的哈希特征值，其中，所述首部文件块是在设备缓存区中已按文件块的顺序缓存的文件块；将所述多个文件块划分为预设数量的子文件，计算每个子文件的与顺序无关的哈希特征值；基于所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值，判断所述待检测文件是否为恶意文件。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：计算每个子文件的与顺序无关的哈希特征值包括：将每个子文件分成多个预设比特的数据块，计算每个预设比特的数据块中与顺序无关的哈希特征值；将每个预设比特的数据块中与顺序无关的哈希特征值进行累加和计算，得到每个子文件的与顺序无关的哈希特征值。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：所述方法还包括：若每个子文件分成的数据块中存在小于预设比特的数据块，则对所述小于预设比特的数据块进行填充，以使每个数据块是预设比特的数据块。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：基于所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值，判断所述待检测文件是否为恶意文件，包括：获取所述待检测文件的长度；基于待检测文件的长度、所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值在预设数据库中进行匹配查询，以判断所述待检测文件是否为恶意文件。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：基于待检测文件的长度、所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值在预设数据库中进行匹配查询，以判断所述待检测文件是否为恶意文件，包括：若预设数据库中存储了与待检测文件的长度相同、所述首部文件块的哈希特征值相同和所述每个子文件的与顺序无关的哈希特征值相同的数据信息，则确定所述待检测文件为恶意文件。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：在判断接收到的多个文件块是否符合预设要求之前，所述方法还包括：判断所述待检测文件的大小；若所述待检测文件的大小超过预设大小，则执行判断接收到的多个文件块是否符合预设要求的步骤。

当在数据处理设备上执行时，还适于执行初始化有如下方法步骤的程序：所述方法应用于网络安全设备中的应用层协议无序传输中获取所述待检测文件的数据块的场景。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等) 上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

一种恶意文件的确定方法，包括：

判断接收到的多个文件块是否符合预设要求，其中，所述多个文件块是待检测文件的所有文件块，所述预设要求至少包括：所述多个文件块的大小要求和所述多个文件块的排序要求；

若所述多个文件块不符合预设要求，则计算首部文件块的哈希特征值，其中，所述首部文件块是在设备缓存区中已按文件块的顺序缓存的文件块；

将所述多个文件块划分为预设数量的子文件，计算每个子文件的与顺序无关的哈希特征值；

基于所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值，判断所述待检测文件是否为恶意文件。
根据权利要求1所述的方法，其中，计算每个子文件的与顺序无关的哈希特征值包括：

将每个子文件分成多个预设比特的数据块，计算每个预设比特的数据块中与顺序无关的哈希特征值；

将每个预设比特的数据块中与顺序无关的哈希特征值进行累加和计算，得到每个子文件的与顺序无关的哈希特征值。
根据权利要求2所述的方法，其中，所述方法还包括：

若每个子文件分成的数据块中存在小于预设比特的数据块，则对所述小于预设比特的数据块进行填充，以使每个数据块是预设比特的数据块。
根据权利要求1所述的方法，其中，基于所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值，判断所述待检测文件是否为恶意文件，包括：

获取所述待检测文件的长度；

基于待检测文件的长度、所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值在预设数据库中进行匹配查询，以判断所述待检测文件是否为恶意文件。
根据权利要求4所述的方法，其中，基于待检测文件的长度、所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值在预设数据库中进行匹配查询，以判断所述待检测文件是否为恶意文件，包括：

若预设数据库中存储了与待检测文件的长度相同、所述首部文件块的哈希特征值相同和所述每个子文件的与顺序无关的哈希特征值相同的数据信息，则确定所述待检测文件为恶意文件。
根据权利要求1所述的方法，其中，在判断接收到的多个文件块是否符合预设要求之前，所述方法还包括：

判断所述待检测文件的大小；

若所述待检测文件的大小超过预设大小，则执行判断接收到的多个文件块是否符合预设要求的步骤。
根据权利要求1所述的方法，其中，所述方法应用于网络安全设备中的应用层协议无序传输中获取所述待检测文件的数据块的场景。
一种恶意文件的确定装置，包括：

第一判断单元，设置为判断接收到的多个文件块是否符合预设要求，其中，所述多个文件块是待检测文件的所有文件块，所述预设要求至少包括：所述多个文件块的大小要求和所述多个文件块的排序要求；

第一计算单元，设置为在所述多个文件块不符合预设要求的情况下，则计算首部文件块的哈希特征值，其中，所述首部文件块是在设备缓存区中已按文件块的顺序缓存的文件块；

第二计算单元，设置为将所述多个文件块划分为预设数量的子文件，计算每个子文件的与顺序无关的哈希特征值；

第二判断单元，设置为基于所述首部文件块的哈希特征值和所述每个子文件的与顺序无关的哈希特征值，判断所述待检测文件是否为恶意文件。
一种非易失性存储介质，其中，所述存储介质包括存储的程序，其中，所述程序执行权利要求1至7中任意一项所述的恶意文件的确定方法。
一种处理器，其中，所述处理器用于运行程序，其中，所述程序运行时执行权利要求1至7中任意一项所述的恶意文件的确定方法。