WO2015101044A1

WO2015101044A1 - 特征提取的方法及装置

Info

Publication number: WO2015101044A1
Application number: PCT/CN2014/083910
Authority: WO
Inventors: 杨康; 陈卓; 唐海
Original assignee: 北京奇虎科技有限公司; 奇智软件（北京）有限公司
Priority date: 2013-12-30
Filing date: 2014-08-07
Publication date: 2015-07-09
Also published as: US20160335437A1; US10277617B2; US20170214704A1; CN103761476A; WO2015101097A1; CN103761476B

Abstract

本发明公开了一种特征提取方法及装置。其中方法包括：从智能终端操作系统的应用程序层，获取一批黑样本文件和白样本文件；解析每个文件，得到每个文件包含的所有函数的信息结构，计算每个函数的校验码；判断各文件是否包含各个校验码对应的函数，从而统计每个函数在黑样本文件和白样本文件中出现的次数；根据仅在黑样本文件中出现而未在白样本文件中出现的函数，提取出黑样本特征，或者同理提取出白样本特征。可见，本发明通过对获取的黑样本文件和白样本文件进行分析、计算，统计每个函数的校验码在文件中出现的次数，最后将仅在黑样本文件中出现而未在白样本文件中出现的函数作为黑样本特征提取的基础。

Description

特征提取的方法及装置技术领域

本发明涉及网络安全技术领域，具体涉及一种特征提取的方法及装置。背景技术

随着科技发展，智能终端具有越来越多的功能。例如，人们的手机从传统的 GSM、 TDMA数字手机转向了拥有能够处理多媒体资源、提供网页浏览、电话会议、电子商务等多种信息服务的智能手机。然而，品种日益繁多的手机恶意代码攻击以及形势日益严峻的个人数据安全问题也随之而来，越来越多的手机病毒让智能手机用户饱受其苦。手机恶意代码防护技术针对恶意代码进行防护。手机恶意代码防护方式包括多种。例如，特征值扫描方式、基于虚拟机技术的恶意代码防护、启发式扫描方式及相似样本聚类等。不论哪种防护方式，除了高效的扫描算法（也称为匹配算法）外，组织合理的恶意代码特征库则是基础。因此，如何准确高效地提取特征对于构建特征库乃至整个防护技术是至关重要的。发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的特征提取的方法及装置。依据本发明的一个方面，提供一种特征提取方法，其特征在于，包括：从智能终端操作系统的应用程序层，获取一批黑样本文件和白样本文件；解析每个文件，得到每个文件包含的所有函数的信息结构，计算每个函数的校验码；判断各文件中是否包含各个校验码对应的函数，从而统计每个函数在黑样本文件和白样本文件中出现的次数；根据仅在黑样本文件中出现而未在白样本文件中出现的函数，提取出黑样本特征，或者，根据仅在白样本文件中出现而未在黑样本文件中出现的函数，提取出白样本特征。依据本发明的另一个方面，提供一种特征提取装置，包括：文件获取单元，用于从智能终端操作系统的应用程序层，获取一批黑样本文件和白样本文件；解析单元，用于解析每个文件，得到每个文件包含的所有函数的信息结构；校验码计算单元，用于计算每个函数的校验码；统计单元，用于判断各文件中是否包含各个校验码对应的函数，从而统计每个函数在黑样本文件和白样本文件中出现的次数；提取单元，用于根据仅在黑样本文件中出现而未在白样本文件中出现的函数，提取出黑样本特征，或者，根据仅在白样本文件中出现而未在黑样本文件中出现的函数，提取出白样本特征。可见，本发明实施例通过对获取的黑样本文件和白样本文件进行分析、计算，统计每个函数的校验码在文件中出现的次数，最后将仅在黑样本文件中出现而未在白样本文件中出现的函数作为特征提取的基础。由此，通过快速、准确地提取特征可保证构建高效的特征库，保证防护技术的实施。优选地，可以对特征进行优选，从而在获取大量可提取黑样本特征后，利用最少的特征来检出最多的文件。上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：图 1示出了根据本发明一个实施例的特征提取的方法流程图；图 2示出了根据本发明一个实施例的特征提取的方法中特征优选流程图图 3示出了根据本发明一个实施例的特征提取的装置示意图；

图 4示出了用于执行根据本发明的方法的智能电子设备的框图；以及图 5示出了用于保持或者携带实现根据本发明的方法的程序代码的存储单元示意图。具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

以安卓（Android )操作系统为例，包括应用程序层（app 层）和系统框架层（ framework层），至于从功能划分上有可能包括的的其他层本发明则不作讨论。其中，通常 app层可以理解为上层，负责与用户交互的界面，例如应用程序维护、以及点击页面时识别不同种类的点击内容从而显示不同的上下文菜单等。通常 framework层作为中间层，这一层的主要职责是，将 app层获得的用户请求，如启动用用程序、点击链接、点击保存图片之类，转发往下层去；将下层处理好的内容，或者通过消息，或者通过中间代理类，来分发至上层，对用户展现出来。本发明的发明人在研究过程中发现，通过对样本文件所包含函数的校验码在文件中出现次数的统计，可以确定函数是黑样本或白样本。

参见图 1，示出了根据本发明一个实施例的特征提取的方法的流程图。该特征提取的方法包括以下步骤。

S101 : 从智能终端操作系统的应用程序层，获取一批黑样本文件和白样本文件；

其中，黑样本文件是指经过预先初步判断包含黑样本的文件，例如包含了恶意代码的文件，白样本文件是指经过预先初步判断不包含黑样本的文件，例如不包含恶意代码的文件。本领域技术人员了解，在进行恶意代码匹配和查杀过程中，需要建立特征库，而特征库的建立是基于样本文件进行特征提取的。在本发明实施例中，预先通过人工等方式初步确定一批文件是黑样本文件还是白样本文件。黑样本文件和白样本文件都是越多越好，有利于准确提取样本特征。

本发明实施例中，黑样本文件或白样本文件例如可以是 dex文件。 dex文件是 Android系统中可以直接在 Da lvik虚拟机 ( Da lvik VM ) 中加载运行的虚拟机执行文件。 Dalvik是用于 Android平台的 Java虚拟机。 Dalvik 经过优化，允许在有限的内存中同时运行多个虚拟机的实例，并且每一个 Dalvik 应用作为一个独立的 Linux 进程执行。独立的进程可以防止在虚拟机崩溃的时候所有程序都被关闭。 Dalvik 虚拟机可以支持已转换为 dex ( Dalvik Executable )格式的 Java应用程序的运行， dex格式是专为 Dalvik设计的一种压缩格式，适合内存和处理器速度有限的系统。通过 ADT ( Android Development Tools )，经过复杂的编译，可以把 java源代码转换为 dex文件。 dex文件是针对嵌入式系统优化的结果， Dalvik虚拟机的指令码并不是标准的 Java虚拟机指令码，而是使用了自己独有的一套指令集。 dex文件中共用了很多类名称、常量字符串，使它的体积比较小，运行效率也比较高。

具体地，从智能终端获取一批黑样本 dex文件和白样本 dex文件的方式可以为：从智能终端操作系统的应用程序层，查找到应用程序的安装包；解析安装包，得到应用程序的 dex文件；将 dex执行文件作为黑样本文件或白样本文件。例如，可以通过解析 APK (Android Package, Android安装包）获得。 APK文件其实是 zip格式的一个压缩包，但后缀名被修改为 apk，通过 UnZip 解压后，就可以得到 Dex文件。

如前所述， Android操作系统包括应用程序层（ app 层）和系统框架层 (framework层），本发明重点在于对 app层的研究和改进。但是，本领域技术人员理解，当 Android启动时， Dalvik VM监视所有的程序（ APK文件）和框架，并且为它们创建一个依存关系树。 DalvikVM通过这个依存关系树来为每个程序优化代码并存储在 Dalvik緩存 (dalvik-cache) 中。这样，所有程序在运行时都会使用优化过的代码。当一个程序（或者框架库）发生变更， Dalvik VM 将会重新优化代码并且再次将其存在緩存中。在 cache/da lvik- cache是存放 system上的程序生成的 dex文件，而 data/dalvik-cache J^J是存放 data/ap 生成的 dex文件。也就是，本发明重点在于对 data/app生成的 dex文件进行的分析和处理，但是应该理解，对于 system上的程序生成的 dex 文件，本发明的理论和操作同样适用。

S102: 解析每个文件，得到每个文件包含的所有函数的信息结构，计算每个函数的校验码；仍以 dex文件为例，解析文件得到文件包含的所有的函数信息结构包括：对 dex文件进行反编译，得到 dex文件所包含的所有函数经过反编译的信息结构。

其中，对 dex文件进行反编译（或称为：反汇编）有多种方式。

第一种方式是，根据 dex文件格式对 dex文件进行解析，得到每个类的函数信息结构体；根据函数信息结构体中的字段，确定 dex文件的函数的位置及大小，得到反编译的函数信息结构。其中，通过解析函数信息结构体，得到指示 dex文件的函数位置的字节码数组字段以及指示 dex文件的函数大小的列表长度字段，从而确定 dex文件的函数的位置及大小。

例如，根据 dex文件格式，解析 dex文件，查找到每个类得函数信息体。比如函数信息结构体包含如表 1中的字段。

表 1

regi sters ushort

该段代码所用到的寄存器数目

_s i ze

i ns_s i ze ushort

该段代码中方法的输入参数的字数（words) outs_s i ze ushort

该段代码调用方法需要为函数的输出函数提供的空间 tr i es_s i z ushort

该对象的 tryjtem的个数，如果非 0，它会作为一个 tr i es数组出现在 e

本对象 i nsns的后面 debug— i nf uint

从文件开始到 debug info的偏移量，如果没有信息该值为 0，如果非 0， o_off

代表数据段的一个位置，数据须遵循 debug_info_item规定格式 i nsns_s i z uint

Instructions 列表的长度，以两字节为单位

e

i nsns ushort[i

字节码数组，字节码数组的格式在文件" Bytecode for the Dalvik VM" nsns siz

e]

中详述，尽管它被定义为 ushort 型的数组，但是有一些内部结构是 4字节对齐方式，如果这个文件恰好是经过字节交换操作的文件，字节的交换只在 ushort类型内部进行 padding ushort

用两个填充字节来满足 tries 4个字节的对齐方式，该元素只有当 (optiona

1) = 0

tr i es_s i ze非 0并且为奇数时才存在 tr i es try_item

该数组用来标识代表中哪里可能抛出异常并且如何处理。数组元素必须 [tr i es_s

i ze]

按照地址的升序排列，不能有重复地址出现。这个元素只有在 tries_size

(optiona

1)

不为 0时才存在 handl encod 这些字节代表一系列异常的类型以及他们的处理方法的地址列表， ers ed— catch- 每个 try_item都有一个字节宽度的偏移，只有当 tries— size不为 0时，

handler— 1 该元素才存在。 ist

(opt ional

) 其中，每个函数信息结构体中的 insns_size和 insns字段，分别代表了该函数大小及位置。那么，就可以根据 insns_size和 insns这两个字段，反编译出函数的信息结构。反编译的信息结构是由 Dalvik VM字节码构成的，后续会详细介绍。第二种方式是，利用 dex文件反编译工具，将 dex文件反编译为虚拟机字节码。

如前介绍的， Dalvik 虚拟机运行的是 Dalvik 字节码，其以一个 dex ( Dalvik Executable )可执行文件形式存在， Dalvik 虚拟机通过解释 dex 文件来执行代码。目前有一些工具，可将 DEX文件反汇编成 Dalvik汇编代码。这类 dex文件反编译工具包括： baksmali、Dedexer 1.26、dexdump、dexinspecto 03_12_12r、 IDA Pro、 androguard^ dex2 jar . 010 Editor等。可见，通过对 dex文件的反编译，可以得到反编译的所有函数信息结构。其中，函数信息结构包含函数执行代码，本发明实施例中，是由虚拟机指令序列和虚拟机助记符序列构成的，如下面的例子，由 Dalvik VM 的指令序列和 Dalvik VM的助记符序列构成函数信息结构。例如，根据本发明一个实施例对 dex文件进行反编译得到的函数信息结构 ^口下：

可见， dex文件被反编译成 Da 1 v i k VM的指令序列和 Da 1 v i k VM的助记符序列。如上例子，在反编译得到的函数信息结构中，机器码字段中的每一行的前 2个数字是指令序列（上例子左侧被圈部分），而指令序列对应的部分为助记符（上例子右侧，部分被圈，未全部选择）。助记符主要是为了方便用户交流和代码编写。

在得到每个函数的信息结构之后，就可以计算出该函数的校验码，后续利用校验码可表示其对应的唯一函数。可以釆用现有或未来的算法计算出函数的校验码。例如，釆用哈希（hash)算法计算出函数的 hash值作为前述校验码。其中， hash算法包括多种，例如 CRC (循环冗余码校验， Cyclical Redundancy Check) 、 MD5 (消息摘要算法第五版， Message Digest Algorithm )或 SHA (安全哈希算法（Secure Hash Algorithm)等。

SI 03: 判断各文件中是否包含各个校验码对应的函数，从而统计每个函数在黑样本文件和白样本文件中出现的次数；

本步骤是针对步骤 S101 获取的一批黑样本文件和白样本文件进行 hash 值出现次数的统计。

假设通过对黑样本文件和白样本文件的分析、计算，确定出每个函数的 hash值；然后统计各个 hash值在黑样本文件及白样本文件中所出现的次数。

4叚设共有 n个样本文件（包括一部分黑样本文件和一部分白样本文件），其中，第 1个文件包含函数 hash值、 B、 C; 第 2个文件包含函数 hash值 A、 C、 D; 第 3个文件包含函数 hash值^ C、 E; ……第 n个文件包含函数 hash 值（、 D。总之，在对所有文件进行分析之后，假设共确定了 5个函数 hash值 A、 B、 C、 D、 E。然后统计这 5个函数 hash值在黑样本中出现的次数，在白样本文件中出现的次数。假设经过统计之后，结果如表 2所示。表 2

本领域技术人员理解，不同函数具有不同的 hash值，也就是不同的 hash 值代表了不同的函数，因此后续也釆用、 B、 C, D、 E表示 5个函数或 5个特征。通过上述对 hash值出现在文件中的次数，就可以确定每个函数在文件中出现的次数。

优选地，在统计每个函数在黑样本文件和白样本文件中出现的次数之前，还包括：将函数的校验码进行文件内去重。具体地，将函数的校验码进行文件内去重是指：针对每一个文件，如果有多个函数具有相同校验码，则从所述多个函数中提取出一个函数作为该校验码的函数。例如，假设一个 dex文件，通过对其解析，获得了它所包含的所有函数的信息结构，假设解析出三个信息结构 s l、 s 2和 s 3，进一步通过 hash算法，得到了三个信息结构 s l、 s 2和 s 3 的 3个 hash值： hashl、 ha sh2和 hash3。本领域技术人员理解，不同函数具有不同的 hash值，也就是不同的 hash值代表了不同的函数。假设上述三个 hash值中有的相同，比如 hashl=hash2，那么认为它们代表相同的函数。此时，从 s i和 s 2中任选一个即可，而将另一个抛弃。

S104: 根据仅在黑样本文件中出现而未在白样本文件中出现的函数，提取出黑样本特征，或者，根据仅在白样本文件中出现而未在黑样本文件中出现的函数，提取出白样本特征。

在提取样本时，选择仅在黑样本文件中出现而未在白样本文件中出现的函数进行黑样本特征，比如仍以表 1继续说明，选择函数^ E进行黑样本特征提取，具体地，可以将函数 B、 E作为黑样本特征，或者将函数 B、 E的部分代码作为黑样本特征。同理，选择仅在白样本文件中出现而未在黑样本文件中出现的函数进行白样本特征，比如仍以表 1继续说明，选择函数 C进行白样本特征提取，具体地，可以将函数 C作为白样本特征，或者将函数 C的部分代码作为白样本特征。在 S104提取出黑样本特征之后，还可以继续执行以下步骤：将黑样本特征添加到黑样本特征库中；利用黑样本特征库对目标文件进行匹配，如果目标文件包含所述黑样本特征对应的函数或函数的子集，确定存在恶意代码。如本领域技术人员理解的，可利用黑样本特征库中黑样本特征对应的函数对目标文件进行样本特征查杀、基于虚拟机查杀、启发式查杀或相似样本聚类。

下面对恶意代码及恶意代码的防护方案（样本特征查杀、基于虚拟机查杀、启发式查杀和相似样本聚类）进行介绍。

恶意代码（Ma l i c ious Code )是指通过存储介质或网络进行传播，在未经授权认证的情况下破坏操作系统完整性、窃取系统中未公开秘密信息的程序或代码。以手机为例，手机恶意代码是指针对手机、 PDA等手持设备的恶意代码。手机恶意代码可以简单地划分为复制型恶意代码和非复制型恶意代码。其中复制型恶意代码主要包括病毒（Vi rus ) 、蠕虫（Worm ) ，非复制型恶意代码主要包括特洛伊木马后门程序（Trojan Horse )、流氓软件 ( Rogue Sof tware ) 、恶意移动代码 ( Ma l ic ious Mobi le Code ) 以及 Rootki t程序等。手机恶意代码防护技术针对恶意代码进行防护。手机恶意代码防护方式包括多种。例如，特征值扫描方式，它需要预先学习建立恶意代码特征库，恶意代码特征库中保存的特征值可以是一段连续的固定字符串，也可以是几段中间插有其他不确定字符的不连续的字符串确定其中的特征串；在扫描时，基于感染了恶意代码。再如，基于虚拟机技术的恶意代码防护。此类防护方案主要针对多态和变形病毒。所谓的虚拟机是指通过软件模拟具有完整硬件系统功能的、运行在一个完全隔离环境中的完整计算机系统。该方案也称为软件模拟法，是一种软件分析器，用软件方法来模拟和分析程序的运行。它实质是在内存中模拟出一个小的封闭程序执行环境，所有待查杀文件都在其中被虚拟执行。釆用虚拟机技术进行杀毒时，首先使用的还是特征值扫描技术，当发现目标具有加密恶意代码的特征时，才会启动虚拟机模块让加密代码自行解码，解码之后，就可以釆用传统的特征值扫描方式进行查杀。再如，启发式扫描方式。启发式扫描方案主要针对恶意代码的不断变种以及为了加强对未知恶意代码的研究。所谓 "启发式" 源自人工智能，是指 "自我发现的能力" 或 "运用某种方式或方法去判定事物的知识和技能"。恶意代码的启发式扫描是指扫描软件能够利用从经验中提取的规则，通过分析程序的结构和它的行为来发现病毒。因为恶意代码要达到感染和破坏的目的，通常的行为都会有一定的特征，例如非常规读写文件、终结自身、非常规切入零环等。因此可以根据扫描特定的行为或多种行为的组合来判断一个程序是否为恶意代码。此外，还可以对目标程序进行相似样本聚类，例如釆用 K均值聚类算法对分析确定的相似样本进行聚类。不论哪种防护方式，其核心都包含两部分，第一是组织合理的恶意代码特征库，第二是高效的扫描算法（也称为匹配算法）。匹配算法一般分为单模式匹配算法和多模式匹配算法两种。单模式匹配算法包括 BF (Brute-Force)算法、 KMP ( Knuth- Morr i s- Pra t t )算法、 BM ( Boyer-Moore )算法和 QS ( Quick Search )算法等。多模式匹配算法包括经典多模式匹配 DFSA 算法和基于有序二叉树的多模式匹配算法。另外，还可将匹配算法分为模糊匹配算法、相似匹配算法。

需要说明的是，本发明不限定釆用何种恶意代码防护方案对恶意代码进行检测，例如，可以釆用上面介绍的样本特征查杀（特征值扫描）、基于虚拟机查杀或者启发式查杀，另外还可以进行相似样本聚类。而且，对于匹配算法也不作限制，例如，可以釆用上面介绍的模糊匹配算法或者相似匹配算法等。

有这么一种情况，检出函数 A的文件集包含了检出函数 B的文件集，这种情况优选使用函数 A作为特征，而抛弃函数 B特征。这是因为，在获取大量可提取黑样本特征后，就需要考虑如何用最少的特征来检出最多的文件，本发明实施例通过特征优选法来达到此目的。概括而言，特征优选法包括：针对不同特征的不同文件集，如果一个文件集包含另一个文件集中所有文件，则将具有较大范围的文件集对应的特征保留，而抛弃具有较小范围的文件集对应的特征。例如，假设两个特征：第一特征和第二特征，包含所述第一特征的文件构成第一文件集，包含所述第二特征的文件构成第二文件集，如果第一文件集包含第二文件集中所有的文件，则保留第一特征，而抛弃第二特征。

图 2示出了根据本发明一个实施例的特征提取的方法中特征优选流程图。该特征优选包括以下步骤：

S201 : 为每个特征针对所有文件建立向量；

S202: 初始化一个集合； S203 : 将集合依次与每一个特征的向量做比较；

S204: 判断集合是否包括被比较的向量；如果集合包括被比较的向量，则执行 S205，如果集合不包括被比较的向量，则执行 S206;

S205: 保持集合；

S206: 取集合与被比较向量的并集； S207 : 判断是否比较完所有特征的向量，如果是，则执行 S208，否则返回执行 S203与下一个特征向量进行比较；

S208: 将最终获得的集合中所包含的特征作为最后保留下来的特征。下面给出一个具体例子。

假设共有黑样本文件 M个，可提取特征（即函数） N个。为每个可提取特征生成一个 M维的向量，第 i维的向量代表着索引为 i的黑样本文件是否可以使用该特征检出。

例如，特征 A生成的向量为 1: 1， 2： 0, 3： 1， 4: 1， 5： 0, 6： 0, 这代表该特征可以检出索引为 1， 3， 4三个文件。

步骤：

初始化一个集合 SA，依次和每个特征向量做比较；

如果 SA包含 Mi则继续和下一个特征向量集合比较；

否则取 SA和 Mi的并集然后继续和下一个特征向量集合做比较。

如特征 A、 B、 C、 D 生成的向量如下

A: 1： 0， 2： 0， 3： 1， 4: 1， 5： 0， 6： 0

B: 1： 1, 2： 1， 3： 1， 4: 0， 5： 0， 6： 1

C: 1： 1， 2： 1， 3： 1， 4: 1， 5： 0， 6： 0

D: 1： 1， 2： 0， 3： 1， 4: 1， 5： 1， 6： 0 第一步：

比较 A、 B的向量，因为 A不包含 B，所以取 A、 B并集后得倒检测向量为： AB: 1： 1， 2： 1， 3: 1， 4: 1， 5: 0， 6: 1; 第二步：

使用 AB和 C比较，因为 C可以检测的文件， AB已经可以检测，所以抛弃

C;

循环第二步：

使用 AB和 D比较，因为 D可以检出文件 5，而 AB不行，所以取 AB和 D 的并集；

即 ABD: 1： 1, 2： 1, 3: 1, 4: 1, 5: 1, 6: 1 如果后面还有特征 E，则用 ABD和特征 E做比较，类似第二步。针对上面4、 B、 C , D四个向量，最后选的特征为 A、 B、 D。由此，就得到可以检出这 M个文件的最短特征集合。可见，本发明实施例通过对获取的黑样本文件和白样本文件进行分析、计算，统计每个函数的 ha s h值在文件中出现的次数，最后将仅在黑样本文件中出现而未在白样本文件中出现的函数作为特征提取的基础。由此，通过快速、准确地提取特征可保证构建高效的特征库，保证防护技术的实施。优选地，可以对特征进行优选，从而在获取大量可提取黑样本特征后，利用最少的特征来检出最多的文件。与上述方法相对应，本发明实施例还提供一种特征提取的装置。该装置可以通过软件、硬件或软硬件结合实现。具体地，该装置可以是指一个终端设备，也可以是指设备内部的功能实体。例如，该装置可以是指手机内部的功能模块。优选地，该装置运行在 And r 0 i d操作系统下。该特征提取装置包括：

文件获取单元 301，用于从智能终端操作系统的应用程序层，获取一批黑样本文件和白样本文件；

解析单元 302，用于解析每个文件，得到每个文件包含的所有函数的信息结构；

校验码计算单元 303，用于计算每个函数的校验码；

统计每个函数在黑样本文件和白样本文件中出现的次数；提取单元 305，用于根据仅在黑样本文件中出现而未在白样本文件中出现的函数，提取出黑样本特征，或者，根据仅在白样本文件中出现而未在黑样本文件中出现的函数，提取出白样本特征。

优选地，该装置还包括特征优选单元 306，用于针对不同特征的不同文件集，如果一个文件集包含另一个文件集中所有文件，则将具有较大范围的文件集对应的特征保留，而抛弃具有较小范围的文件集对应的特征。比如，在所述第一文件集包含所述第二文件集中所有的文件时，则特征优选单元 306保留第一文件集对应的第一特征，而抛弃所述第二文件集对应的第二特征。

或者，该装置还包括特征优选单元 306，用于为每个特征针对所有文件建立向量；初始化一个集合，依次与每一个特征的向量做比较；如果集合包括被比较的特征，则保持集合，如果集合不包括被比较的特征，则取集合与被比较向量的并集；依次比较完所有特征的向量，将最终获得的集合中所包含的特征作为最后保留的特征。

优选地，该装置还包括：内去重单元 307，用于将函数的校验码进行文件内去重。例如，所述内去重单元 307具体用于，针对每一个文件，如果有多个函数具有相同校验码，则从所述多个函数中提取出一个函数作为该校验码的函数。

其中，所述黑样本文件和白样本文件均为虚拟机执行文件；所述解析单元

302具体用于，对所述虚拟机执行文件进行反编译，得到虚拟机执行文件所包含的所有函数经过反编译的信息结构。

其中，所述校验码计算单元 303具体用于，利用哈希算法，计算所述函数的信息结构体的哈希值，将哈希值作为所述函数的校验码。

其中，所述解析单元 302进一步用于，根据虚拟机执行文件格式对虚拟机执行文件进行解析，得到每个类的函数信息结构体；根据所述函数信息结构体中的字段，确定所述虚拟机执行文件的每个函数的位置及大小，得到每个函数经过反编译的函数信息结构。

所述解析单元 302进一步用于，解析所述函数信息结构体，得到指示虚拟机执行文件的函数位置的字节码数组字段以及指示虚拟机执行文件的函数大小的列表长度字段；根据所述字节码数组字段以及所述列表长度字段，确定所述虚拟机执行文件的函数的位置及大小。

所述解析单元 302具体用于，利用虚拟机执行文件反编译工具，将所述虚拟机执行文件反编译为虚拟机字节码。

其中，所述提取单元 303具体用于，将所述仅在黑样本文件中出现而未在白样本文件中出现的函数作为所述黑样本特征，或者将所述仅在黑样本文件中出现而未在白样本文件中出现的函数的部分代码作为所述黑样本特征；或者，将所述仅在白样本文件中出现而未在黑样本文件中出现的函数作为所述白样本特征，或者将所述仅在白样本文件中出现而未在黑样本文件中出现的函数的部分代码作为所述白样本特征。优选地，该装置还包括：特征库添加单元 308，用于将所述黑样本特征添加到黑样本特征库中，以及，匹配单元 309，用于利用黑样本特征库对目标文件进行匹配，如果目标文件包含所述黑样本特征对应的函数或函数的子集，确定存在恶意代码。其中，匹配单元具体地可利用黑样本特征库中黑样本特征对应的函数对目标文件进行样本特征查杀、基于虚拟机查杀、启发式查杀，和 / 或，相似样本聚类。其中，所述黑样本文件是指经过预先初步判断包含黑样本的文件，所述白样本文件是指经过预先初步判断不包含黑样本的文件。其中，所述文件获取单元 301具体用于，从智能终端操作系统的应用程序层，查找到应用程序的安装包；解析所述安装包，得到所述应用程序的虚拟机执行文件；将所述虚拟机执行文件作为黑样本文件或白样本文件。关于装置的具体实现，可参见方法实施例，此处不赘述。在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和 /或过程或者单元中的至少一些是相互排斥之外，可以釆用任何组合对本说明书（包括伴随的权利要求、摘要和附图）中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书（包括伴随的权利要求、摘要和附图）中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器（DSP ) 来实现根据本发明实施例的特征提取的装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序（例如，计算机程序和计算机程序产品）。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

例如，图 4示出了可以实现根据本发明的实现扩展应用程序的推送通知的方法的智能电子设备。该智能电子设备传统上包括处理器 410和以存储器 420形式的计算机程序产品或者计算机可读介质。存储器 420可以是诸如闪存、 EEPROM (电可擦除可编程只读存储器）、 EPROM、硬盘或者 ROM之类的电子存储器。存储器 420具有用于执行上述方法中的任何方法步骤的程序代码 431的存储空间 430。例如，用于程序代码的存储空间 430可以包括分别用于实现上面的方法中的各种步骤的各个程序代码 431。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘（CD ) 、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图 5 所述的便携式或者固定存储单元。该存储单元可以具有与图 4的智能电子设备中的存储器 420类似布置的存储段或者存储空间等。程序代码可以例如以的程序 431，，即可以由例如诸如 410之类的处理器读取的代码，这些代码当由智能电子设备运行时，导致该智能电子设备执行上面所描述的方法中的各个步骤。应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词 "包含" 不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词 "一" 或 "一个" 不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

权利要求

1、一种特征提取方法，其特征在于，包括：

从智能终端操作系统的应用程序层，获取一批黑样本文件和白样本文件；解析每个文件，得到每个文件包含的所有函数的信息结构，计算每个函数的校验码；

判断各文件中是否包含各个校验码对应的函数，从而统计每个函数在黑样本文件和白样本文件中出现的次数；本特征，或者， ^::、根据仅在白样本文件中出现而未在黑样本文件中出现的函 ^:iJ 提取出白样本特征。

2、如权利要求 1所述的方法，其特征在于，在统计出黑样本或白样本之后，还包括：对特征进行优选，具体为：

为每个特征针对所有文件建立向量；初始化一个集合，依次与每一个特征的向量做比较；如果集合包括被比较的特征，则保持集合，如果集合不包括被比较的特征，则取集合与被比较向量的并集；依次比较完所有特征的向量，将最终获得的集合中所包含的特征作为最后保留的特征。

3、如权利要求 1所述的方法，其特征在于，在统计出黑样本或白样本之后，还包括：对特征进行优选，具体为：

针对不同特征的不同文件集，如果一个文件集包含另一个文件集中所有文件，则将具有较大范围的文件集对应的特征保留，而抛弃具有较小范围的文件集对应的特征。

4、如权利要求 3所述的方法，其特征在于，所述特征包括第一特征和第二特征，包含所述第一特征的文件构成第一文件集，包含所述第二特征的文件构成第二文件集，如果所述第一文件集包含所述第二文件集中所有的文件，则保留所述第一特征，而抛弃所述第二特征。

5、如权利要求 1所述的方法，其特征在于，在所述统计每个函数在黑样本文件和白样本文件中出现的次数之前，还包括：将函数的校验码进行文件内去重。

6、如权利要求 5所述的方法，其特征在于，所述将函数的校验码进行文件内去重包括：

针对每一个文件，如果有多个函数具有相同校验码，则从所述多个函数中提取出一个函数作为该校验码的函数。

7、如权利要求 1所述的方法，其特征在于，所述黑样本文件和白样本文件均为虚拟机执行文件；所述解析每个文件，得到每个文件包含的所有的函数信息结构包括：对所述虚拟机执行文件进行反编译，得到虚拟机执行文件所包含的所有函数经过反编译的信息结构。

8、如权利要求 7所述的方法，其特征在于，所述计算每个函数的校验码包括：

利用哈希算法，计算所述函数的信息结构体的哈希值，将哈希值作为所述函数的校验码。

9、如权利要求 7所述的方法，其特征在于，所述对所述虚拟机执行文件进行反编译，得到虚拟机执行文件所包含的所有函数经过反编译的的信息结构包括：

根据虚拟机执行文件格式对虚拟机执行文件进行解析，得到每个类的函数信息结构体；

根据所述函数信息结构体中的字段，确定所述虚拟机执行文件的每个函数的位置及大小，得到每个函数经过反编译的函数信息结构。

10、如权利要求 9所述的方法，其特征在于，所述根据函数信息结构体中的字段，确定所述虚拟机执行文件的函数的位置及大小包括：

解析所述函数信息结构体，得到指示虚拟机执行文件的函数位置的字节码数组字段以及指示虚拟机执行文件的函数大小的列表长度字段；

根据所述字节码数组字段以及所述列表长度字段，确定所述虚拟机执行文件的函数的位置及大小。

11、如权利要求 7所述的方法，其特征在于，所述对所述虚拟机执行文件进行反编译，得到虚拟机执行文件所包含的所有函数经过反编译的的信息结构包括：

利用虚拟机执行文件反编译工具，将所述虚拟机执行文件反编译为虚拟机字节码。

12、如权利要求 1所述的方法，其特征在于，黑样本特征包括：将 ^:所述仅在黑样本文件中出现而未在白样本文件中出现的函数作为所述黑样本特征，或者将所述仅在黑样本文件中出现而未在白样本文件中出现的函数的部分代码作为所述黑样本特征；

所述根据仅在白样本文件中出现而未在黑样本文件中出现的函数，提取出白样本特征包括：将所述仅在白样本文件中出现而未在黑样本文件中出现的函数作为所述白样本特征，或者将所述仅在白样本文件中出现而未在黑样本文件中出现的函数的部分代码作为所述白样本特征。

1 3、如权利要求 1所述的方法，其特征在于，还包括：

将所述黑样本特征添加到黑样本特征库中，

利用黑样本特征库对目标文件进行匹配，如果目标文件包含所述黑样本特征对应的函数或函数的子集，确定存在恶意代码。

14、如权利要求 1 3所述的方法，其特征在于，利用所述黑样本特征库中黑样本特征对应的函数对目标文件进行样本特征查杀、基于虚拟机查杀、启发式查杀，和 /或，相似样本聚类。

15、如权利要求 1所述的方法，其特征在于，所述黑样本文件是指经过预先初步判断包含黑样本的文件，所述白样本文件是指经过预先初步判断不包含黑样本的文件。

16、如权利要求 15所述的方法，其特征在于，所述获取一批黑样本文件和白样本文件包括：

从智能终端操作系统的应用程序层，查找到应用程序的安装包；解析所述安装包，得到所述应用程序的虚拟机执行文件；

将所述虚拟机执行文件作为黑样本文件或白样本文件。

17、如权利要求 1-16任一项所述的方法，其特征在于，所述操作系统是指安卓系统。

18、一种特征提取装置，其特征在于，包括：

文件获取单元，用于从智能终端操作系统的应用程序层，获取一批黑样本文件和白样本文件；

解析单元，用于解析每个文件，得到每个文件包含的所有函数的信息结构；校验码计算单元，用于计算每个函数的校验码；每个函数在黑样本文件和样本文件中出现^次数一； ' ^>；

提取单元，用于根据仅在黑样本文件中出现而未在白样本文件中出现的函数，提取出黑样本特征，或者，根据仅在白样本文件中出现而未在黑样本文件中出现的函数，提取出白样本特征。

19、如权利要求 18所述的装置，其特征在于，还包括：特征优选单元，用于为每个特征针对所有文件建立向量；初始化一个集合，依次与每一个特征的向量做比较；如果集合包括被比较的特征，则保持集合，如果集合不包括被比较的特征，则取集合与被比较向量的并集；依次比较完所有特征的向量，将最终获得的集合中所包含的特征作为最后保留的特征。

20、如权利要求 18所述的装置，其特征在于，还包括特征优选单元，用于针对不同特征的不同文件集，如果一个文件集包含另一个文件集中所有文件，则将具有较大范围的文件集对应的特征保留，而抛弃具有较小范围的文件集对应的特征。

21、如权利要求 20所述的装置，其特征在于，所述特征优选单元，在所述第一文件集包含所述第二文件集中所有的文件时，则保留第一文件集对应的第一特征，而抛弃所述第二文件集对应的第二特征。

22、如权利要求 18所述的装置，其特征在于，还包括：内去重单元，用于将函数的校验码进行文件内去重。

23、如权利要求 22所述的装置，其特征在于，所述内去重单元具体用于，针对每一个文件，如果有多个函数具有相同校验码，则从所述多个函数中提取出一个函数作为该校验码的函数。

24、如权利要求 18所述的装置，其特征在于，所述黑样本文件和白样本文件均为虚拟机执行文件；所述解析单元具体用于，对所述虚拟机执行文件进行反编译，得到虚拟机执行文件所包含的所有函数经过反编译的信息结构。

25、如权利要求 24所述的装置，其特征在于，所述校验码计算单元具体用于，利用哈希算法，计算所述函数的信息结构体的哈希值，将哈希值作为所述函数的校验码。

26、如权利要求 24所述的装置，其特征在于，所述解析单元进一步用于，根据虚拟机执行文件格式对虚拟机执行文件进行解析，得到每个类的函数信息结构体；根据所述函数信息结构体中的字段，确定所述虚拟机执行文件的每个函数的位置及大小，得到每个函数经过反编译的函数信息结构。

27、如权利要求 26所述的装置，其特征在于，所述解析单元进一步用于，解析所述函数信息结构体，得到指示虚拟机执行文件的函数位置的字节码数组字段以及指示虚拟机执行文件的函数大小的列表长度字段；根据所述字节码数组字段以及所述列表长度字段，确定所述虚拟机执行文件的函数的位置及大小。

28、如权利要求 24所述的装置，其特征在于，所述解析单元具体用于，利用虚拟机执行文件反编译工具，将所述虚拟机执行文件反编译为虚拟机字节码。

29、如权利要求 18所述的装置，其特征在于，所述提取单元具体用于，将所述仅在黑样本文件中出现而未在白样本文件中出现的函数作为所述黑样本特征，或者将所述仅在黑样本文件中出现而未在白样本文件中出现的函数的部分代码作为所述黑样本特征；或者，

将所述仅在白样本文件中出现而未在黑样本文件中出现的函数作为所述白样本特征，或者将所述仅在白样本文件中出现而未在黑样本文件中出现的函数的部分代码作为所述白样本特征。

30、如权利要求 1 8所述的装置，其特征在于，还包括：

特征库添加单元，用于将所述黑样本特征添加到黑样本特征库中，匹配单元，用于利用黑样本特征库对目标文件进行匹配，如果目标文件包含所述黑样本特征对应的函数或函数的子集，确定存在恶意代码。

31、如权利要求 30所述的装置，其特征在于，所述匹配单元利用黑样本特征库中黑样本特征对应的函数对目标文件进行样本特征查杀、基于虚拟机查杀、启发式查杀，和 /或，相似样本聚类。

32、如权利要求 18所述的装置，其特征在于，所述黑样本文件是指经过预先初步判断包含黑样本的文件，所述白样本文件是指经过预先初步判断不包含黑样本的文件。

33、如权利要求 32所述的装置，其特征在于，所述文件获取单元具体用于，从智能终端操作系统的应用程序层，查找到应用程序的安装包；解析所述安装包，得到所述应用程序的虚拟机执行文件；将所述虚拟机执行文件作为黑样本文件或白样本文件。

34、如权利要求 1 8-33任一项所述的装置，其特征在于，所述操作系统是指安卓系统。

35、一种计算机程序，包括计算机可读代码，当智能电子设备运行所述计算机可读代码运行时，导致权利要求 1-17中的任一项权利要求所述的方法被执行。

36、一种计算机可读介质，其中存储了如权利要求 35所述的计算机程序。