WO2015139569A1

WO2015139569A1 - 文件信誉获取方法、网关设备和文件信誉服务器

Info

Publication number: WO2015139569A1
Application number: PCT/CN2015/073878
Authority: WO
Inventors: 刘振华
Original assignee: 华为技术有限公司
Priority date: 2014-03-18
Filing date: 2015-03-09
Publication date: 2015-09-24
Also published as: US10355866B2; CN104933059A; EP3109789B1; CN104933059B; US20170005801A1; EP3109789A1; EP3109789A4

Abstract

本申请实施例提供一种文件信誉获取方法、网关设备和文件信誉服务器，该方法包括：获取被访问文件中至少一个函数的函数哈希值；利用预先训练获得的分类器，确定分别与各函数哈希值对应的概率分布，该概率分布用于指示各函数哈希值在黑样本集的文件中出现的概率，以及各函数哈希值在白样本集的文件中出现的概率；根据各函数哈希值对应的概率分布，确定被访问文件的信誉值。基于被访问文件中的函数哈希值的概率分布来评估确定文件的信誉值，有效解决了现有技术中基于文件内容生成特征值的方式导致文件信誉值查询失败的问题。

Description

文件信誉获取方法、网关设备和文件信誉服务器

本申请要求于2014年3月18日提交中国专利局、申请号为201410101467.5、发明名称为“文件信誉获取方法、网关设备和文件信誉服务器”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明属于计算机技术领域，具体是涉及一种文件信誉获取方法、网关设备和文件信誉服务器。

背景技术

随着计算机技术的快速发展，网络安全越来越受到人们的重视。当用户通过其终端进行诸如网页浏览等网络应用业务时，需要访问不同应用程序文件，而这些文件很有可能已经遭受了各种各样恶意病毒代码的攻击，从而造成用户终端感染病毒。

在诸如无线局域网(Wireless Local Area Networks，以下简称WLAN)、第二代移动通信技术(2rd-Generation，以下简称2G)、第三代移动通信技术(3rd-Generation，以下简称3G)等网络中，用户一般是通过网关设备、网关GPRS支持节点(Gateway GPRS Support Node，以下简称GGSN)、基站、增强型基站等网络设备接入网络，从而进行网络应用访问的。目前，网络设备在接收到用户对某应用程序文件的访问请求后，需获取该文件的信誉值，以基于该信誉值来确定是否允许用户访问等后续处理。在实际应用中，一般企业用户会额外地关心用户访问的文件的信誉值，比如会比较关心该用户发送的电子邮件，传输的FTP文件的信誉值是否满足一定要求，从而保证该用户所在企业的网络系统的安全可靠。目前，一种被广泛采用的文件信誉获取方式是，网关设备等网络设备根据当前被用户访问的文件(在本申请中后续简称为“被访问文件”)的全文或局部内容生成一特征值，从而根据生成的特征值，在该网关设备存储有已知的特征值与文件信誉值的对应关系的数据库中，查询该被访问文件的信誉值。

上述方式中，文件的特征值是根据文件的内容生成的，在新的应用业务不断出现或应用频繁更新升级的情况下，往往会出现文件信誉数据库中不存在被查询的文件的特征值对应的文件信誉值的现象，造成查询失败。

发明内容

本发明实施例提供一种文件信誉获取方法、网关设备和文件信誉服务器，用以缓解现有技术中基于文件内容生成特征值的方式存在的文件信誉值查询失败率高的问题。

第一方面，本发明实施例提供一种文件信誉获取方法，包括：

获取被访问文件中至少一个函数的函数哈希值，所述被访问文件为可执行程序文件；

利用预先训练获得的分类器，确定分别与所述至少一个函数哈希值中的每个函数哈希值对应的概率分布，所述概率分布用于指示所述每个函数哈希值在黑样本集的文件中出现的概率，以及所述每个函数哈希值在白样本集的文件中出现的概率，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件；

根据所述每个函数哈希值对应的概率分布，确定所述被访问文件的信誉值。

根据第一方面，在第一方面的第一种可能的实现方式中，所述获取被访问文件中至少一个函数的函数哈希值，包括：

获取所述被访问文件头部中包含的函数起始位置信息；

自所述函数起始位置开始，以ret指令作为函数结束指令反汇编所述被访问文件，以获取所述被访问文件中的所述至少一个函数；

采用预设哈希算法，分别计算所述至少一个函数中的每个函数的函数哈希值。

根据第一方面或第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述利用预先训练获得的分类器，确定分别与所述至少一个函数哈希值中的每个函数哈希值对应的概率分布，包括：

将所述至少一个函数哈希值发送到文件信誉服务器，以使所述文件信誉服务器利用预先训练获得的分类器，确定分别与所述至少一个函数哈希值中的每个函数哈希值对应的概率分布；

相应地，所述根据所述每个函数哈希值对应的概率分布，确定所述被访问文件的信誉值之前，还包括：

接收所述文件信誉服务器返回的所述每个函数哈希值对应的概率分布。

根据第一方面或第一方面的第一种可能的实现方式，在第一方面的第三种可能的实现方式中，所述根据所述每个函数哈希值对应的概率分布，确定所述被访问文件的信誉值，包括：

判断所述被访问文件中是否存在概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值；

判断所述概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值的数量是否超过预设数量；

若存在超过预设数量的、且所述概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值，则确定所述被访问文件具有低于第二预设阈值的信誉值。

第二方面，本发明实施例提供一种文件信誉获取方法，包括：

分别获取黑样本集的文件中的至少一个函数和白样本集的文件中的至少一个函数，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件；

分别计算所述黑样本集的文件中的至少一个函数和所述白样本集的文件中的至少一个函数中的每个函数的函数哈希值；

以所述每个函数的函数哈希值为输入对分类器进行训练，并在所述分类器的输出端统计所述每个函数的函数哈希值分别在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数；

针对每个函数的函数哈希值，对该函数哈希值在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数进行归一化处理，以获得所述每个函数的函数哈希值的概率分布，形成函数哈希值概率分布集合。

根据第二方面，在第二方面的第一种可能的实现方式中，所述获得所述每个函数的函数哈希值的概率分布，形成函数哈希值概率分布集合之后，还包括：

接收网关设备发送的至少一个函数哈希值，所述至少一个函数哈希值是所述网关设备根据被访问文件获取到的，所述被访问文件为可执行程序文件；

利用训练获得的所述分类器，确定分别与所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布；

将所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布发送给所述网关设备。

根据第二方面的第一种可能的实现方式中，在第二方面的第二种可能的实现方式中，所述利用训练获得的所述分类器，确定分别与所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布，包括：

在所述函数哈希值概率分布集合中查询分别与所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布。

第三方面，本发明实施例提供一种网关设备，包括：

获取模块，用于获取被访问文件中至少一个函数的函数哈希值，所述被访问文件为可执行程序文件；

确定模块，用于利用预先训练获得的分类器，确定分别与所述至少一个函数哈希值中的每个函数哈希值对应的概率分布，所述概率分布用于指示所述每个函数哈希值在黑样本集的文件中出现的概率，以及所述每个函数哈希值在白样本集的文件中出现的概率，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件；

处理模块，用于根据所述确定模块得到的所述每个函数哈希值对应的概率分布，确定所述被访问文件的信誉值。

根据第三方面，在第三方面的第一种可能的实现方式中，所述获取模块，包括：

获取单元，用于获取所述被访问文件头部中包含的函数起始位置信息；

汇编单元，用于自所述获取单元得到的所述函数起始位置开始，以ret指令作为函数结束指令反汇编所述被访问文件，以获取所述被访问文件中的所述至少一个函数；

计算单元，用于采用预设哈希算法，分别计算所述汇编单元得到的所述至少一个函数中的每个函数的函数哈希值。

根据第三方面或第三方面的第一种可能的实现方式，在第三方面的第二种可能的实现方式中，所述确定模块，具体用于：

根据第三方面或第三方面的第一种可能的实现方式，在第三方面的第三种可能的实现方式中，所述处理模块，包括：

第一判断单元，用于判断所述被访问文件中是否存在概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值；

第二判断单元，用于判断所述概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值的数量是否超过预设数量；

处理单元，用于若存在超过预设数量的、且所述概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值，则确定所述被访问文件具有低于第二预设阈值的信誉值。

第四方面，本发明实施例提供一种文件信誉服务器，包括：

获取模块，用于分别获取黑样本集的文件中的至少一个函数和白样本集的文件中的至少一个函数，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件；

计算模块，用于分别计算所述黑样本集的文件中的至少一个函数和所述白样本集的文件中的至少一个函数中的每个函数的函数哈希值；

训练模块，用于以所述计算模块得到的所述每个函数的函数哈希值为输入对分类器进行训练，并在所述分类器的输出端统计所述每个函数的函数哈希值分别在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数；

归一化模块，用于针对每个函数的函数哈希值，对该函数哈希值在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数进行归一化处理，以获得所述每个函数的函数哈希值的概率分布，形成函数哈希值概率分布集合。

根据第四方面，在第四方面的第一种可能的实现方式中，所述服务器还包括：

接收模块，用于接收网关设备发送的至少一个函数哈希值，所述至少一个函数哈希值是所述网关设备根据被访问文件获取到的，所述被访问文件为可执行程序文件；

确定模块，用于利用训练获得的所述分类器，确定分别与所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布；

发送模块，用于将所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布发送给所述网关设备。

根据第四方面的第一种可能的实现方式中，在第四方面的第二种可能的实现方式中，所述确定模块，具体用于：

本发明实施例提供的文件信誉获取方法、网关设备和文件信誉服务器，在获取被访问文件中的至少一个函数的函数哈希值之后，通过预先训练获得的分类器来确定与每个函数哈希值对应的概率分布，从而根据概率分布来确定被访问文件的信誉值。基于被访问文件中的函数哈希值的概率分布来评估确定文件的信誉值，以函数为最小单位，即使被访问文件中存在少量函数哈希值的概率分布不能通过训练获得的分类器确定的情况，仍可以根据被访问文件中的其他函数的函数哈希值来评估确定被访问文件的信誉值，减少了被访问文件的信誉值无法确定的情况的发生，相对于现有技术中基于文件内容生成特征值的方式，提高了确定文件信誉值时的成功率。

附图说明

图1为本发明实施例一提供的文件信誉获取方法的流程图；

图2为本发明实施例二提供的文件信誉获取方法的流程图；

图3为本发明实施例三提供的网关设备的结构示意图；

图4为本发明实施例四提供的文件信誉服务器的结构示意图；

图5为本发明实施例五提供的网关设备的结构示意图；

图6为本发明实施例六提供的文件信誉服务器的结构示意图。

具体实施方式

图1为本发明实施例一提供的文件信誉获取方法的流程图，本实施例提供的文件信誉获取方法可以由诸如网关设备、GPRS、基站等网络设备来执行，本实施例仅以网关设备为例进行说明。如图1所示，本实施例提供的文件信誉获取方法，具体包括：

步骤101、获取被访问文件中至少一个函数的函数哈希值，所述被访问文件为可执行程序文件；

在实际应用中，用户使用一些应用需要访问的可执行程序文件，都是由一组函数组成的，这些函数在文件中连续分布，每个函数是一段指令数据，程序运行过程就是执行这些函数指令的过程。

本实施例中，以企业用户通过网关设备进行收发电子邮件、传输FTP文件等应用为例来说明对该用户访问的被访问文件的信誉值的获取方法。当用户在其用户终端上触发诸如收发电子邮件等应用业务时，网关设备会接收到该用户终端对该应用业务的请求，从而获得用户进行该应用业务时要访问的程序文件，即本实施例所述的被访问文件。由于该被访问文件为一个可执行的程序文件，它由至少一个函数组成。因此，网关设备通过反汇编该被访问文件，以对该被访问文件中包含的至少一个函数进行分界，进而采用比如信息摘要算法5(Message-Digest Algorithm5，以下简称MD5)，循环冗余校验(Cyclical Redundancy Check，以下简称CRC)等哈希算法计算获得的每个函数的哈希值，函数哈希值作为对应函数的一种属性，唯一标识了对应的函数。

具体地，本实施例中网关设备可以采用如下方式来获取被访问文件中至少一个函数的函数哈希值：

获取被访问文件头部中包含的函数起始位置信息；

自该函数起始位置开始，以ret指令作为函数结束指令反汇编被访问文件，以获取被访问文件中的至少一个函数；

采用预设哈希算法，分别计算该至少一个函数中的每个函数的函数哈希值。

另外，目前一种广泛使用的数据传输方式是以数据流的形式来传输数据，在比如视频观看等应用业务中，数据是以数据流的形式在网络中传输的，此时整个应用程序文件是以一个个数据包的形式在网络中传输的。

在上述应用场景下，如果用户要访问的文件是一个以数据流的方式进行传输的文件，此时由于被访问文件是由一个个数据包组成并在网络中传输的，一般在包含文件头部的数据包中会包含有程序代码部分即函数部分的起始位置信息，以及整个文件大小和每个数据包大小等信息，以使网关设备根据函数起始位置信息确定函数的起始位置，并从该起始位置开始，以ret指令作为函数结束指令反汇编被访问文件，以确定被访问文件中的各个函数，并根据预设的哈希算法，比如MD5，CRC等算法分别计算各个函数的函数哈希值。在此过程中，由于文件是以数据包为单位进行传输的，故而网关设备需逐一数据包进行上述处理，直至所有数据包处理完毕，获得整个文件中包含的所有函数的函数哈希值。

步骤102、利用预先训练获得的分类器，确定分别与所述至少一个函数哈希值中的每个函数哈希值对应的概率分布，所述概率分布用于指示所述每个函数哈希值在黑样本集的文件中出现的概率，以及所述每个函数哈希值在白样本集的文件中出现的概率，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件；

本实施例中，网关设备在获得被访问文件中的每个函数哈希值之后，可以利用预先训练获得的分类器，确定分别与每个函数哈希值对应的概率分布。具体地，网关设备可以与网络侧设置的文件信誉服务器交互，以将所述每个函数哈希值发送给文件信誉服务器，以使所述文件信誉服务器利用预先训练获得的分类器，确定分别与所述至少一个函数哈希值中的每个函数哈希值对应的概率分布，并返回所述每个函数哈希值对应的概率分布给网关设备。

本实施例中所述的与每个函数哈希值对应的概率分布，该概率分布用于指示所述每个函数哈希值在黑样本集的文件中出现的概率，以及所述每个函数哈希值在白样本集的文件中出现的概率，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件。其中，该恶意程序文件尤其是指病毒文件，而某个函数哈希值在黑样本集的文件中出现，是指该函数哈希值存在于由该恶意程序文件包含的函数的函数哈希值组成的哈希值集合中，相应的，某个函数哈希值在白样本集的文件中出现，是指该函数哈希值存在于由正常程序文件包含的函数的函数哈希值组成的哈希值集合中。

可以理解的是，本实施例中网关设备既可以将被访问文件中包含的每个函数哈希值发送给文件信誉服务器，以使文件信誉服务器利用该文件信誉服务器预先训练获得的分类器，查询确定分别与每个函数哈希值对应的概率分布，也可以由该网关设备预先本地训练分类器，进而利用训练获得的分类器确定分别与每个函数哈希值对应的概率分布，只是为了不增加网关设备的负载，优选地采用前一种方式，即交由文件信誉服务器进行处理。

因此，文件信誉服务器预先构造一个黑样本集和一个白样本集，用于对分类器进行训练，从而得到分类器的训练结果，即由黑样本集的恶意程序文件中和白样本集的正常程序文件中包含的各函数哈希值的概率分布组成的函数哈希值概率分布集合，以用于对被访问文件中包含的每个函数哈希值的概率分布的确定。本实施例中，可以采用比如贝叶斯、支持向量机等机器学习方法来训练分类器。

步骤103、根据所述每个函数哈希值对应的概率分布，确定所述被访问文件的信誉值。

网关设备在确定分别与被访问文件中的每个函数哈希值对应的概率分布之后，根据确定的各概率分布，来确定该被访问文件的信誉值。具体地，可以采用如下的方式：

判断被访问文件中是否存在概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值；

本实施例中，可以假设黑样本集中的恶意程序文件具有很低的信誉值，比如信誉值为0，而白样本集中的正常程序文件具有很高的信誉值，比如信誉值为1。网关设备在确定分别与被访问文件中的每个函数哈希值对应的概率分布之后，网关设备可以统计获得该被访问文件中的函数分布情况，即该被访问文件中存在多少在黑样本集的文件中出现概率较高的函数，存在多少在白样本集的文件中出现概率较高的函数。如果该被访问文件中存在较多在黑样本集的文件中出现概率较高的函数，说明该被访问文件的信誉值较低，可以评估赋予该被访问文件一个较低的信誉值，比如信誉值为0.2。

本实施例中，在获取被访问文件中的至少一个函数的函数哈希值之后，通过预先训练获得的分类器来确定与每个函数哈希值一一对应的概率分布，从而根据概率分布来确定被访问文件的信誉值。基于被访问文件中的函数哈希值的概率分布来评估确定文件的信誉值，以函数为最小单位，即使被访问文件中存在少量函数哈希值的概率分布不能通过训练获得的分类器确定的情况，仍可以根据被访问文件中的其他函数的函数哈希值来评估确定它的信誉值，不会导致被访问文件的信誉值无法确定的情况的发生，从而有效解决了现有技术中基于文件内容生成特征值的方式导致文件信誉值查询失败的问题；而且，仅需查询获得被访问文件中至少一个函数哈希值的概率分布，进而基于该概率分布来评估确定被访问文件的信誉值，相对于直接查询获得文件信誉值的方式来说，有利于降低对样本数量的过分依赖；另外，以函数为最小单位，能够保证获得充足的函数样本空间，即使对一个全新的被访问文件，也可以获得其函数哈希值的概率分布，从而进一步文件信誉值获取的可靠性。

图2为本发明实施例二提供的文件信誉获取方法的流程图，本实施例提供的所述方法可以由实施例一中的网关设备执行，也可以由网络侧设置的文件信誉服务器来执行。在由网关设备执行的情况下，网关设备根据本地函数哈希值概率分布集合，查询得到所需的函数哈希值的概率分布。在由文件信誉服务器执行的情况下，可以与多个网关设备交互，提供网关设备所需的函数哈希值的概率分布。附图2仅以由网络侧设置的文件信誉服务器来执行为例，进行说明，如图2所示，该方法包括：

步骤201、分别获取黑样本集的文件中的至少一个函数和白样本集的文件中的至少一个函数，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件；

步骤202、分别计算所述黑样本集的文件中的至少一个函数和所述白样本集的文件中的至少一个函数中的每个函数的函数哈希值；

步骤203、以所述每个函数的函数哈希值为输入对分类器进行训练，并在所述分类器的输出端统计所述每个函数的函数哈希值分别在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数；

步骤204、针对每个函数的函数哈希值，对该函数哈希值在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数进行归一化处理，以获得所述每个函数的函数哈希值的概率分布，形成函数哈希值概率分布集合；

本实施例中，文件信誉服务器在确定被访问文件的信誉值之前，需要根据预先收集的黑样本集和白样本集对分类器进行训练，得到训练结果，以根据该训练结果进行被访问文件信誉值的确定。

具体地，文件信誉服务器首先分别获取黑样本集的文件中的至少一个函数和白样本集的文件中的至少一个函数，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件。可以通过反汇编黑样本集的各恶意程序文件获得黑样本集中的至少一个函数，并通过反汇编白样本集的各正常程序文件获得白样本集中的至少一个函数。从恶意程序文件或正常程序文件中获得函数的方式与实施例一步骤101中从被访问文件中获得函数的方式类似，在这里不再赘述。

进而，采用预设的哈希算法，分别计算所述黑样本集的文件中的至少一个函数和所述白样本集的文件中的至少一个函数中的每个函数的函数哈希值。之后以黑样本集和白样本集中的每个函数的函数哈希值为输入对分类器进行训练，并在分类器的输出端统计所述每个函数的函数哈希值分别在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数，进而，针对每个函数的函数哈希值，对该函数哈希值在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数进行归一化处理，以获得所述每个函数的函数哈希值的概率分布，形成函数哈希值概率分布集合。举例来说，比如某个函数哈希值在黑样本集的恶意程序文件中出现了100次，而在白样本集的正常程序文件中出现了400次，那么归一化处理之后，该函数哈希值在黑样本集的文件中出现的概率为100/(100+400)＝20％，在白样本集的文件中出现的概率为400/(100+400)＝80％，以此类推，得到黑样本集的文件中和白样本集的文件中包含的所述每个函数哈希值的概率分布。

步骤205、接收网关设备发送的至少一个函数哈希值，所述至少一个函数哈希值是所述网关设备根据被访问文件获取到的，所述被访问文件为可执行程序文件；

步骤206、利用训练获得的所述分类器，确定分别与所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布；

步骤207、将所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布发送给所述网关设备。

文件信誉服务器在对分类器进行训练之后，可以利用该训练后的分类器来查询确定被访问文件中包含的每个函数哈希值的概率分布。具体地，文件信誉服务器接收网关设备发送的至少一个函数哈希值，所述至少一个函数哈希值是所述网关设备根据被访问文件获取到的，所述被访问文件为可执行程序文件。进而，在分类器训练获得的函数哈希值概率分布集合中查询分别与所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布，并将每个函数哈希值对应的概率分布发送给所述网关设备，以使网关设备根据该概率分布来确定被访问文件的信誉值。

本实施例中，文件信誉服务器预先分别根据黑、白样本集中的文件中包含的函数哈希值对分类器进行训练，得到函数哈希值概率分布集合，以在接收到被访问文件中的每个函数哈希值后，在该概率分布集合中查询确定被访问文件中每个函数哈希值的概率分布，以使网关设备根据该概率分布来确定被访问文件的信誉值。分类器的训练样本为黑样本集和白样本集中的文件的函数哈希值，由于可执行程序文件是由一个个函数构成的，而且不同的可执行程序文件间有很多相同的函数，与现有技术中由于不同文件的特征值均不同，且基于文件内容生成特征值的方式相比，可以有效减少对样本文件数量和实时性的依赖；并且，文件信誉服务器中保存的是函数哈希值与概率分布的对应关系的函数哈希值概率分布集合，与现有技术中直接查询获得文件信誉值的方式不同，本实施例中网关设备需根据从文件信誉服务器接收的被访问文件中每个函数哈希值的概率分布来评估确定被访问文件的信誉值，从而有效解决了现有技术中基于文件内容生成特征值的方式导致文件信誉值查询失败的问题，保证了文件信誉值获取的可靠性。

图3为本发明实施例三提供的网关设备的结构示意图，如图3所示，该网关设备包括：

获取模块11，用于获取被访问文件中至少一个函数的函数哈希值，所述被访问文件为可执行程序文件；

确定模块12，用于利用预先训练获得的分类器，确定分别与所述至少一个函数哈希值中的每个函数哈希值对应的概率分布，所述概率分布用于指示所述每个函数哈希值在黑样本集的文件中出现的概率，以及所述每个函数哈希值在白样本集的文件中出现的概率，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件；

处理模块13，用于根据所述确定模块12得到的所述每个函数哈希值对应的概率分布，确定所述被访问文件的信誉值。

进一步地，所述获取模块11，包括：

获取单元111，用于获取所述被访问文件头部中包含的函数起始位置信息；

汇编单元112，用于自所述获取单元111得到的所述函数起始位置开始，以ret指令作为函数结束指令反汇编所述被访问文件，以获取所述被访问文件中的所述至少一个函数；

计算单元113，用于采用预设哈希算法，分别计算所述汇编单元112得到的所述至少一个函数中的每个函数的函数哈希值。

具体地，所述确定模块12，具体用于：

进一步地，所述处理模块13，包括：

第一判断单元131，用于判断所述被访问文件中是否存在概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值；

第二判断单元132，用于判断所述概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值的数量是否超过预设数量；

处理单元133，用于若存在超过预设数量的、且所述概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值，则确定所述被访问文件具有低于第二预设阈值的信誉值。

本实施例的网关设备可以用于执行图1所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为本发明实施例四提供的文件信誉服务器的结构示意图，如图4所示，该服务器包括：

获取模块21，用于分别获取黑样本集的文件中的至少一个函数和白样本集的文件中的至少一个函数，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件；

计算模块22，用于分别计算所述黑样本集的文件中的至少一个函数和所述白样本集的文件中的至少一个函数中的每个函数的函数哈希值；

训练模块23，用于以所述计算模块22得到的所述每个函数的函数哈希值为输入对分类器进行训练，并在所述分类器的输出端统计所述每个函数的函数哈希值分别在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数；

归一化模块24，用于针对每个函数的函数哈希值，对该函数哈希值在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数进行归一化处理，以获得所述每个函数的函数哈希值的概率分布，形成函数哈希值概率分布集合。

进一步地，所述服务器还包括：

接收模块25，用于接收网关设备发送的至少一个函数哈希值，所述至少一个函数哈希值是所述网关设备根据被访问文件获取到的，所述被访问文件为可执行程序文件；

确定模块26，用于利用训练获得的所述分类器，确定分别与所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布；

发送模块27，用于将所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布发送给所述网关设备。

具体地，所述确定模块26，具体用于：

本实施例的文件信誉服务器可以用于执行图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图5为本发明实施例五提供的网关设备实体的结构示意图，如图5所示，该网关设备实体包括：

存储器31以及与所述存储器31连接的处理器32，其中，所述存储器31 用于存储一组程序代码，所述处理器32用于调用所述存储器31中存储的程序代码，以执行如图1所示文件信誉获取方法中的：获取被访问文件中至少一个函数的函数哈希值，所述被访问文件为可执行程序文件；利用预先训练获得的分类器，确定分别与所述至少一个函数哈希值中的每个函数哈希值对应的概率分布，所述概率分布用于指示所述每个函数哈希值在黑样本集的文件中出现的概率，以及所述每个函数哈希值在白样本集的文件中出现的概率，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件；根据所述每个函数哈希值对应的概率分布，确定所述被访问文件的信誉值。

具体地，所述处理器32用于获取所述被访问文件头部中包含的函数起始位置信息；自所述函数起始位置开始，以ret指令作为函数结束指令反汇编所述被访问文件，以获取所述被访问文件中的所述至少一个函数；采用预设哈希算法，分别计算所述至少一个函数中的每个函数的函数哈希值。

进一步地，该网关设备实体还包括发射器33和接收器34，其中，发射器33用于将所述至少一个函数哈希值发送到文件信誉服务器，以使所述文件信誉服务器利用预先训练获得的分类器，确定分别与所述至少一个函数哈希值中的每个函数哈希值对应的概率分布；接收器34用于接收所述文件信誉服务器返回的所述每个函数哈希值对应的概率分布。

进一步地，所述处理器32，还用于判断所述被访问文件中是否存在概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值；判断所述概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值的数量是否超过预设数量；若存在超过预设数量的、且所述概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值，则确定所述被访问文件具有低于第二预设阈值的信誉值。

本装置实施例中提供的网关设备，应用于方法实施例一、实施例二所描述的场景中，实现其中网关设备的功能。该网关设备可以实现的其他附加功能、以及与其他网元设备的交互过程，请参照方法实施例一、实施例二中对网关设备的描述，在这里不再赘述。

图6为本发明实施例六提供的文件信誉服务器实体的结构示意图，如图6所示，该文件信誉服务器实体包括：

存储器41以及与所述存储器41连接的处理器42，其中，所述存储器41用于存储一组程序代码，所述处理器42用于调用所述存储器41中存储的程序代码，以执行如图2所示文件信誉获取方法中的：分别获取黑样本集的文件中的至少一个函数和白样本集的文件中的至少一个函数，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件；分别计算所述黑样本集的文件中的至少一个函数和所述白样本集的文件中的至少一个函数中的每个函数的函数哈希值；以所述每个函数的函数哈希值为输入对分类器进行训练，并在所述分类器的输出端统计所述每个函数的函数哈希值分别在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数；针对每个函数的函数哈希值，对该函数哈希值在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数进行归一化处理，以获得所述每个函数的函数哈希值的概率分布，形成函数哈希值概率分布集合。

进一步地，所述文件信誉服务器实体还包括接收器43和发射器44，其中，接收器43用于接收网关设备发送的至少一个函数哈希值，所述至少一个函数哈希值是所述网关设备根据被访问文件获取到的，所述被访问文件为可执行程序文件；

相应的，所述处理器42还用于利用训练获得的所述分类器，确定分别与所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布；

所述发射器44用于将所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布发送给所述网关设备。

进一步地，所述处理器42还用于在所述函数哈希值概率分布集合中查询分别与所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布。

本装置实施例中提供的文件信誉服务器，应用于实施例二所描述的场景中，实现其中文件信誉服务器的功能。该网关设备可以实现的其他附加功能、以及与其他网元设备的交互过程，请参照方法实施例二中对文件信誉服务器的描述，在这里不再赘述。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

一种文件信誉获取方法，其特征在于，包括：

获取被访问文件中至少一个函数的函数哈希值，所述被访问文件为可执行程序文件；

利用预先训练获得的分类器，确定分别与所述至少一个函数哈希值中的每个函数哈希值对应的概率分布，所述概率分布用于指示所述每个函数哈希值在黑样本集的文件中出现的概率，以及所述每个函数哈希值在白样本集的文件中出现的概率，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件；

根据所述每个函数哈希值对应的概率分布，确定所述被访问文件的信誉值。
根据权利要求1所述的方法，其特征在于，所述获取被访问文件中至少一个函数的函数哈希值，包括：

获取所述被访问文件头部中包含的函数起始位置信息；

自所述函数起始位置开始，以ret指令作为函数结束指令反汇编所述被访问文件，以获取所述被访问文件中的所述至少一个函数；

采用预设哈希算法，分别计算所述至少一个函数中的每个函数的函数哈希值。
根据权利要求1或2所述的方法，其特征在于，所述利用预先训练获得的分类器，确定分别与所述至少一个函数哈希值中的每个函数哈希值对应的概率分布，包括：

将所述至少一个函数哈希值发送到文件信誉服务器，以使所述文件信誉服务器利用预先训练获得的分类器，确定分别与所述至少一个函数哈希值中的每个函数哈希值对应的概率分布；

相应地，所述根据所述每个函数哈希值对应的概率分布，确定所述被访问文件的信誉值之前，还包括：

接收所述文件信誉服务器返回的所述每个函数哈希值对应的概率分布。
根据权利要求1或2所述的方法，其特征在于，所述根据所述每个函数哈希值对应的概率分布，确定所述被访问文件的信誉值，包括：

判断所述被访问文件中是否存在概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值；

判断所述概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值的数量是否超过预设数量；

若存在超过预设数量的、且所述概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值，则确定所述被访问文件具有低于第二预设阈值的信誉值。
一种文件信誉获取方法，其特征在于，包括：

分别获取黑样本集的文件中的至少一个函数和白样本集的文件中的至少一个函数，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件；

分别计算所述黑样本集的文件中的至少一个函数和所述白样本集的文件中的至少一个函数中的每个函数的函数哈希值；

以所述每个函数的函数哈希值为输入对分类器进行训练，并在所述分类器的输出端统计所述每个函数的函数哈希值分别在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数；

针对每个函数的函数哈希值，对该函数哈希值在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数进行归一化处理，以获得所述每个函数的函数哈希值的概率分布，形成函数哈希值概率分布集合。
根据权利要求5所述的方法，其特征在于，所述获得所述每个函数的函数哈希值的概率分布，形成函数哈希值概率分布集合之后，还包括：

接收网关设备发送的至少一个函数哈希值，所述至少一个函数哈希值是所述网关设备根据被访问文件获取到的，所述被访问文件为可执行程序文件；

利用训练获得的所述分类器，确定分别与所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布；

将所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布发送给所述网关设备。
根据权利要求6所述的方法，其特征在于，所述利用训练获得的所述分类器，确定分别与所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布，包括：

在所述函数哈希值概率分布集合中查询分别与所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布。
一种网关设备，其特征在于，包括：

获取模块，用于获取被访问文件中至少一个函数的函数哈希值，所述被访问文件为可执行程序文件；

确定模块，用于利用预先训练获得的分类器，确定分别与所述至少一个函数哈希值中的每个函数哈希值对应的概率分布，所述概率分布用于指示所述每个函数哈希值在黑样本集的文件中出现的概率，以及所述每个函数哈希值在白样本集的文件中出现的概率，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件；

处理模块，用于根据所述确定模块得到的所述每个函数哈希值对应的概率分布，确定所述被访问文件的信誉值。
根据权利要求8所述的设备，其特征在于，所述获取模块，包括：

获取单元，用于获取所述被访问文件头部中包含的函数起始位置信息；

汇编单元，用于自所述获取单元得到的所述函数起始位置开始，以ret指令作为函数结束指令反汇编所述被访问文件，以获取所述被访问文件中的所述至少一个函数；

计算单元，用于采用预设哈希算法，分别计算所述汇编单元得到的所述至少一个函数中的每个函数的函数哈希值。
根据权利要求8或9所述的设备，其特征在于，所述确定模块，具体用于：

将所述至少一个函数哈希值发送到文件信誉服务器，以使所述文件信誉服务器利用预先训练获得的分类器，确定分别与所述至少一个函数哈希值中的每个函数哈希值对应的概率分布；

接收所述文件信誉服务器返回的所述每个函数哈希值对应的概率分布。
根据权利要求8或9所述的设备，其特征在于，所述处理模块，包括：

第一判断单元，用于判断所述被访问文件中是否存在概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值；

第二判断单元，用于判断所述概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值的数量是否超过预设数量；

处理单元，用于若存在超过预设数量的、且所述概率分布在所述黑样本集的文件中出现的概率高于第一预设阈值的函数哈希值，则确定所述被访问文件具有低于第二预设阈值的信誉值。
一种文件信誉服务器，其特征在于，包括：

获取模块，用于分别获取黑样本集的文件中的至少一个函数和白样本集的文件中的至少一个函数，所述黑样本集包括至少一个恶意程序文件，所述白样本集包括至少一个正常程序文件；

计算模块，用于分别计算所述黑样本集的文件中的至少一个函数和所述白样本集的文件中的至少一个函数中的每个函数的函数哈希值；

训练模块，用于以所述计算模块得到的所述每个函数的函数哈希值为输入对分类器进行训练，并在所述分类器的输出端统计所述每个函数的函数哈希值分别在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数；

归一化模块，用于针对每个函数的函数哈希值，对该函数哈希值在所述黑样本集的文件中出现的次数和在所述白样本集的文件中出现的次数进行归一化处理，以获得所述每个函数的函数哈希值的概率分布，形成函数哈希值概率分布集合。
根据权利要求12所述的服务器，其特征在于，还包括：

接收模块，用于接收网关设备发送的至少一个函数哈希值，所述至少一个函数哈希值是所述网关设备根据被访问文件获取到的，所述被访问文件为可执行程序文件；

确定模块，用于利用训练获得的所述分类器，确定分别与所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布；

发送模块，用于将所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布发送给所述网关设备。
根据权利要求13所述的服务器，其特征在于，所述确定模块，具体用于：

在所述函数哈希值概率分布集合中查询分别与所述被访问文件中至少一个函数哈希值中的每个函数哈希值对应的概率分布。