WO2015131434A1

WO2015131434A1 - 基于线程切片胎记的多线程软件抄袭检测方法

Info

Publication number: WO2015131434A1
Application number: PCT/CN2014/076079
Authority: WO
Inventors: 郑庆华; 刘烃; 刘均; 范铭; 田振洲
Original assignee: 西安交通大学; 郑庆华; 刘烃; 刘均; 范铭; 田振洲
Priority date: 2014-03-04
Filing date: 2014-04-24
Publication date: 2015-09-11
Also published as: US20160246950A1; CN103870721A; CN103870721B; US9652601B2

Abstract

本发明提出了一种基于线程切片胎记的多线程软件抄袭检测方法，包括：1) 基于动态插桩技术对待分析的目标程序实施运行时监控，实时地识别系统调用，并记录与之相关的线程ID、系统调用号、返回值等相关信息，然后对其进行预处理得到有效系统调用序列Trace；2)基于线程ID对Trace进行线程切片，生成一系列由线程ID标识的线程切片Slice；3)在此基础之上为待检测的两个软件的所有线程切片分别生成其线程切片胎记Birth；4)基于两个待检测多线程程序的所有线程切片胎记，分别生成其软件胎记PB₁和PB₂；5)基于最大双边图匹配，计算软件胎记PB₁与PB₂的最大相似性；6)通过胎记相似性的均值及给定的阈值，做出抄袭与否的决策。该方法直接作用于二进制代码，无需源码存在。

Description

说明书

基于线程切片胎记的多线程软件抄袭检测方法技术领域：

本发明涉及程序特征发现及软件抄袭检测领域，特别涉及一种针对多线程程序的抄袭检测方法。背景技术：由于各种物理瓶颈（如高温、功耗、漏电等）， CPU时钟速度的提升面临越来越大的挑战，近几年 CPU厂商已将重点转向超线程与多核技术以提高 CPU 性能。随着超线程与多核技术成为当今 CPU的标准配置，串行程序已经难以发挥现有 CPU 的计算能力，作为并行计算最常用的实现方式，多线程程序成为发挥 CPU 性能、提高系统效率的重要途径。

然而多线程程序的知识产权保护问题随着软件的快速发展而日益严重，例如三星和苹果公司的手机应用抄袭法律纠纷问题，这样的软件侵权事件经常发生，它们在很大程度上对大公司的利益构成了威胁，使多线程程序抄袭成为软件工业健康发展的严重阻碍。

为此人们提出了一系列手段防止及检测软件抄袭，其中基于软件胎记的抄袭检测技术是目前常用的方法。软件胎记是能够反映程序固有属性的可以唯一标识程序的特征，相关的研究都是通过将抄袭检测转换为两个程序的相似性分析问题，并基于胎记的相似性计算来衡量程序的相似性，其关键技术主要涉及到高质量的软件胎记的提取及其相似性计算过程。

然而现有的软件胎记主要针对的是单线程的程序，采用程序执行一次的所获取的关键信息作为软件的胎记，并没有考虑多线程程序在执行过程中线程交织的情况。多线程程序在相同输入条件下，执行过程中存在不同的线程交织，导致程序执行过程中的程序行为，如系统调用序列等，产生一定的差异性，这种情况使得传统基于胎记的抄袭检测方法在分析多线程程序时存在很大的随机性。此外，目前的抄袭检测方法还存在一系列的局限性： 1 ) 大部分方法是针对源代码的，而进行抄袭检测时往往无法获得检测对象的源代码，只能获取检测对象的二进制代码； 2) 现有的软件胎记对特定的操作系统或者编程语言依赖性较强，适用范围较小； 3 ) 大部分已有的软件胎记难以应付多种多样和深度的代码混淆技术。发明内容：本发明的目的在于提出一种基于线程切片胎记的多线程软件抄袭检测方法，以克服上述当前基于胎记的抄袭检测手段的局限性。本发明方法能够直接针对二进制代码，无需源代码存在，具有更现实的意义；针对多线程程序具有很好的检测能力，能够减小由于线程调度产生的随机性影响，不局限于单线程程序；检测手段不依赖于特定的编程语言，具有更广阔的应用范围；对于语义保留的代码混淆技术具有很好的抵抗力，提高对深度抄袭的检测能力。

本发明的目的通过以下技术方案实现：

基于线程切片胎记的多线程软件抄袭检测方法，包括如下步骤：

1 )基于动态插桩技术，对待分析目标程序实施运行时监控，实时地识别待分析目标程序中系统调用函数，并记录与之相关的线程 ID、调用地址、系统调用号、函数名、参数、返回值的相关信息，然后对其进行预处理，去除无效的系统调用，得到有效的系统调用序列 Trace ;

2)基于线程 ID对有效的系统调用序列 Trace进行线程切片，生成一系列由线程 ID标识的线程切片 Slice； 3 ) 基于线程切片，通过提取线程切片中的固定子序列并记录其出现次数，分别为待分析的第一程序 ^ 及第二程序 ^₂的所有线程切片生成其动态线程切片胎记其中第一程序指的是程序所有者开发的原始程序，第二程序指被认为抄袭了原始程序的可疑程序；

4) 基于多线程程序所有的线程切片胎记分别为 S 和 Ρ₂生成相应的软件胎记和 ΡΒ₂；

5 ) 基于最大双边图匹配，计算软件胎记 ^与 ^₂的最大相似性，首先针对软件胎记 PA内部的每一个线程切片胎记，计算其与胎记 ρβ₂ ή部每一个线程切片胎记的相似性；然后基于带权双边图匹配算法生成与 Ρβ₂的最大相似性匹配方案

Ρβ；)；最后基于最大相似性匹配方案，计算与 Ρβ₂的胎记相似性 Sz'm^ , ^) ;

6) 依据多次输入下生成的胎记相似性的均值，及给定的阈值判断是否抄袭。

本发明进一步的改进在于：所述步骤 1)中动态系统调用识别原则为：若当前执行函数名与操作系统系统调用列表中一个系统调用函数名匹配，则将该执行函数识别为系统调用函数。

本发明进一步的改进在于：所述步骤 1 )中监控实施方法为：针对二进制的待分析程序，使用动态插桩技术，在待分析程序的函数执行之前以及执行之后植入相应的分析代码，以实现运行时监控。

本发明进一步的改进在于：所述步骤 1 ) 中系统调用序列生成方法为：通过函数级的运行时监控，捕获每一个待执行的函数，分析该函数的类型，通过匹配当前操作系统的系统调用列表，根据匹配结果判断该函数是否为系统调用函数；同时结合系统调用所在线程 ID，对每一个执行的系统调用的所在线程 ID 进行记录；并且捕获与该系统调用相关的调用参数以及返回值等相关信息；最后根据分析结果，对系统调用进行记录并将其加入动态系统调用序列；每条系统调用的记录格式为：线程 ID#调用地址#系统调用号 #函数名 #参数 #返回值。

本发明进一步的改进在于：所述步骤 1 )中对记录的系统调用序列进行预处理，去除无效的系统调用，得到有效的系统调用序列：对抽取的系统调用序列中的每条系统调用项，解析其格式，判断其返回值，若返回值为非零则表示系统调用执行失败，则删除该条系统调用。

令 Tm_Ce p, I、 = (^,_e2,...,_e ，表示程序/?在输入 /下抽取，经预处理得到的一条有效的系统调用序列，其中包含一条系统调用的系统调用号以及它所在的线程 ID。

本发明进一步的改进在于：所述步骤 1 ) 具体包括以下步骤：

步骤 S201: 判断待分析程序是否还存在待执行的函数，如果有则跳至步骤 S202, 否则直接转入步骤 S208;

步骤 S202: 对于待分析的函数，解析函数类型，判断其是否为系统调用函数，如果是则转入步骤 S203，否则转入步骤 S207;

步骤 S203: 对系统调用函数进行解析，获取其线程 ID、调用地址、系统调用号、函数名、参数、返回值的相关信息；

步骤 S204: 判断函数的返回值是否为 -1，若是，则转入步骤 S201，否则转入步骤 S205;

步骤 S205: 获取其所在的线程 ID信息；

步骤 S206: 将获取的系统调用函数添加至系统调用序列；步骤 S207: 执行该系统调用函数，并转入步骤 S201进行下一轮的分析；步骤 S208: 输出系统调用序列；

本发明进一步的改进在于：所述步骤 2)中线程切片生成方法为：基于有效的运行时系统调用序列，针对序列中每一个系统调用，剥离其线程 ID，保留其系统调用号，根据线程 ID标识划分成一系列的线程切片。

令 Slice (/?,/, ) = e Trace (p,l) and getThreadlD {e_j ) = f } '

j' e {1, 2, "} , 1≤ ≤ m, e N， Slice ( p, I,t)表示线程 t对应的线程切片， m代表程序执行过程中共有 m个线程。

本发明进一步的改进在于：所述步骤 2) 具体包括以下步骤：

步骤 S301: 判断输入的动态系统调用序列中是否还存在待处理的系统调用，如果存在则转入步骤 S302, 否则转入步骤 S304;

步骤 S302: 从动态系统调用序列中按次序取出一条系统调用，剥离线程 ID 和系统调用号；

步骤 S303:将该系统调用加入其线程 ID对应的线程切片；再转入步骤 S301 进行下一轮分析；

步骤 S304: 输出生成的线程切片集合，以进一步生成软件胎记。

本发明进一步的改进在于：其特征在于，所述步骤 3)中线程切片胎记生成方法为：对线程切片^ /，m)应用 ^ram算法，得到一个长度为子序列的集合 Set(p,l,t,k) = {_gj \_gj ={e_pe_p--, e_j+k_, )} , j &{\,2,- ,n-k + \} 然后统计独有的 k-gram个数及其频率，最终生成一个键值对集合。令 Birth (k,t)为程序 p在输入 /下的线程 ID标识为的动态系统调用线程切片胎记,简记为 ^ /^ ) ，表示为 Birth_p ^! (k,t) = j^g. ≠g;J,其中

/r^(g 表示在集合 ^ ^,/, )中出现的次数， k=4或 5。

本发明进一步的改进在于：所述步骤 3) 具体包括以下步骤：

步骤 S401: 判断未处理的线程切片子序列长度是否大于可调参数 k的值，如果是则转入步骤 S402, 否则转入步骤 S408;

步骤 S402: 利用 gram算法，生成一个长度为的系统调用号子序列；步骤 S403: 顺序依次连接生成的长度为 k的系统调用号子序列中的每个元素，生成一个字符串，计算其 hash值并将之作为键值查找集合 B (初始集合 B 为空）中是否已存在相应元素；如果存在则转入步骤 S406, 不存在则转入步骤

S404;

步骤 S404: 创建一新的以该子序列的 hash值为键的元素，并设置键值为 1; 步骤 S405: 将新生成的键值对元素加入集合 B中，转入步骤 S407;

步骤 S406:依据 hash键值在集合 B中查找到该元素，并更新该元素的键值；步骤 S407: 删除线程切片的首元素，转入步骤 S401开展下一轮的处理；步骤 S408: 输出由键值对构成的集合 B，即动态系统调用线程切片胎记。本发明进一步的改进在于：所述步骤 4) 中软件胎记生成方法为：令 SB = {Birth_p' (k,t)\\≤t≤m,tGN} , 它表示一个程序的所有线程切片胎记的集合，然后构建一个 SS转换将线程切片胎记集合 SB转换成其软件胎记，其中 SS:SB→ PB表示将线程胎记集合中的每一个线程与其相应的线程胎记组成一个二元组，作为软件胎记的元素，得到 PB = {(t,Birth_p' (k,t))\sb G SB}。

本发明进一步的改进在于:所述步骤 5)中线程切片胎记相似性计算方法为：令两个线程切片胎记分别为 A = { , _Vl〉，〉,···, , }和

B = {〈 , 首先分别使用 cosine距离、 Jaccard、 Dice、

Containment四种方法计算二者的相似性，具体描述如下: a) cosine距！ ¾衡量 A

b) Jaccard计算 A及 B

c) Dice计算 A及 B的相似性, m(A,fi)=Z¾_ce (； Α,β

Α| + |β| d

似

.„ -, cosine (A, B) + Jaccard (Α,Β) + Dicei Α,Β) + Containment ( A, B) 性， W'm(A,fi)= ^-^-, 简·记一为 sim_c A,B、。本发明进一步的改进在于：所述步骤 5)中为内部的所有线程切片胎记计算其与 Ρβ₂内部每一个线程切片胎记的相似性：对于第一程序软件胎记尸 A = {(t„ Birth (ij )) , (ί₂ , Birth (t₂)),...,(t_m, Birth (t_m))}，为其中的 m个线程切片胎记分别计算其与第二程序软件胎记 PB₂ ={(?；, Birth (ij )) , (ί₂ , Birth (ί₂ )) , ... , (ί„ , Birth (ί„ )) j中的 η个线程切片胎记的相似性，生成 m*"阶的相似性矩阵 Sz'mM^n';^ ^, ^) , 其中 SimMatrix ( PB₁ ,PB₂)[i][ y] = sim_c I Birth ( )， Birth 本发明进一步的改进在于：所述步骤 5)中基于带权双边图匹配算法生成与 Ρβ₂的最大相似性匹配方案

：基于相似性矩阵 SimMatrix(A, B)，利用带权双边图匹配算法为软件胎记和 PB₂中的所有线程切片胎记计算得到最大相似匹配方案，记为 MaxMatch (ΡΒ ,ΡΒ₂),

MaxMatch ( PB_l , PB₂ ) = (aj,Vj),(a₂,v₂),...,(a,,v,)J ,1 = min{m,n) ,u_{ e keyset (^PB^ , i

v,. e keyset (PB₂) , u_t≠ Uj if i≠ j , v,.≠ if i≠ j' ,并且 ^ w'm_c (M,., )在所有的匹配中具有最小值。

本发明进一步的改进在于：所述步骤 5) 中计算 /^₁与/^₂的胎记相似性：基于软件胎记与 PB₂的最大相似性匹配方案，计算二者相似性

count keySet [Birth keySet Birthitj 本发明进一步的改进在于：所述步骤 6) 中抄袭决策模块将多次输入下得到的第一程序及第二程序胎记相似性的值作为输入，计算其均值相似性作为程序的相似性；并依据输入的可调节阈值 s做出抄袭与否的判断，输出检测结果。

本发明进一步的改进在于：所述步骤 6) 中阈值 s的取值范围为 0.2-0.3; sim P_A,P_B =

其中 w'm(P_A, 为第一程序及第二程序胎记相似性的均值。

相对于现有技术，本发明具有以下优点:

(1) 本发明检测对象无需源码存在，可直接对二进制代码进行分析，更具实用价值：大部分情况下，可疑抄袭程序是以二进制代码形式发布的，在无确凿证据之前，无法获取其源码，传统的基于源码的抄袭检测手段就失效了。本发明基于动态插桩对软件进行监控，分析对象直接为二进制代码，不存在这种局限性。

(2)本发明最底层的分析对象是系统调用函数，不依赖于特定的编程语言适用范围更广阔。

(3 ) 本发明可以作用于多线程程序，通过在软件胎记生成过程中进行线程切片，能够很好地减小程序执行过程中线程调度产生的随机性影响，有效地提高了检测精度。

(4) 本发明基于监控抽取的动态系统调用序列生成软件胎记，属于动态胎记的范畴，对加密、压缩、封装等浅层混淆手段具有天生的抵抗力，因为这类混淆后的程序最终要想执行，必须在运行时先进行解密、解压缩或解封装。附图说明

图 1为本发明基于线程切片胎记的多线程软件抄袭检测方法整体流程图；图 2为基于运行时监控的动态系统调用序列抽取过程流程图；

图 3为预处理以及线程切片程流程图；

图 4为动态线程切片胎记生成流程图。

图 5为软件胎记相似性计算过程流程图。具体实施方式

以下结合附图详细说明本发明基于线程切片胎记的多线程软件抄袭检测方法的实施方式。

图 1为基于动态系统调用序列胎记的软件抄袭检测方法的处理流程。

本发明一种基于动态系统调用序列胎记的软件抄袭检测方法，包括以下步骤: 步骤 S101 : 使用动态插桩工具如 Pin、 Valgrind等，在待分析程序的每条函数执行之前和执行之后植入分析代码，实现对二进制程序函数级信息的监控。结合图 2，具体而言，在每条函数执行之前和执行之后插入分析代码，实现对二进制程序函数级信息的监控，具体包括以下步骤：

步骤 S201 : 判断待分析程序是否还存在待执行的函数，如果有则跳至步骤 S202, 否则直接转入步骤 S208 ;

步骤 S202: 对于待分析的函数，解析函数类型，判断其是否为系统调用函数，如果是则转入步骤 S203，否则转入步骤 S207 ;

步骤 S203 : 对系统调用函数进行解析，获取其线程 ID、调用地址、系统调用号、函数名、参数、返回值的相关信息；

步骤 S204 : 判断函数的返回值是否为 - 1，若是，则转入步骤 S201分析下一个待执行的函数，否则转入步骤 S205 ;

步骤 S205 : 获取其所在的线程 ID信息；

步骤 S206 : 将获取的系统调用函数添加至系统调用序列；

步骤 S207 : 执行该系统调用函数，并转入步骤 S201进行下一轮的分析；步骤 S208 : 输出系统调用序列；

例如程序 S 在输入 / 下获取的系统调用序列为

Trace =〈(^ ^ -l), {t_x , - 2) , {t_x , - 3) , {t_x , sc- 2) , {t₂ , sc - 2) , {t₂ sc - 3) sc - 4)〉

，其中表示一条系统调用的系统调用号。

步骤 S 102: 基于线程 ID对有效的系统调用序列进行线程切片，生成一系列由线程 ID标识的线程切片。具体流程如图 3所示：

步骤 S301 : 判断输入的动态系统调用序列中是否还存在待处理的系统调用，如果存在则转入步骤 S302, 否则转入步骤 S304;

针对上一步得到的系统调用序列 rra (_A,/)，由于 rra (_A,/)只有两条线程，因此将 rrac^A,/)划分为由线程 ID标识的线程切片后可以得到两个线程切片，分别为 Slice (ij ) = ((ij ,sc-l),(t ,sc-2),(t ,sc-3), (t , sc- 2) , [t_x , sc - 4)〉禾口 Slice ( ₂ ) =〈(₂ , _ 2) , ( ₂ , _ 3》。

步骤 S103: 基于预处理得到的线程切片集合和可调参数/ 1 (一般取 4或 5)，应用 k-gmm算法生成一系列长度为 k的子序列，同时统计各个不同的子序列出现的频率，则将子序列及其出现频率构成的键值对集合作为动态线程切片胎记。具体而言，线程切片胎记 β_Ζ 生成流程如图 4所示：

步骤 S402: 利用 gram算法，生成一个长度为的系统调用号子序列；步骤 S403: 顺序依次连接生成的长度为 k的系统调用号子序列中的每个元素，生成一个字符串，计算其 hash值并将之作为键值查找集合 B (初始集合 B 为空）中是否已存在相应元素；如果存在则转入步骤 S406, 不存在则转入步骤 S404;

步骤 S406:依据 hash键值在集合 B中查找到该元素，并更新该元素的键值; 步骤 S407: 删除线程切片的首元素，转入步骤 S401开展下一轮的处理；步骤 S408: 输出由键值对构成的集合 B，即动态系统调用线程切片胎记。

将上述两个线程切片分别生成其线程切片胎记，取 k值为 2，对于线程切片 Slice (ij ) =〈(! ,sc-l), (ij ,sc-2), [t_x ,sc-3), [t_x , sc- 2) , [t_x , sc - 4)〉，通过 k-gram算法得到 /,^) ₌ {(^-1,« -2),(^-2,« -3),(^-3,^-2),(^-2,« -4)}，然后将具有相同键的项进行合并并修改其相应的值，生成其线程切片胎记

程切片胎记 Birth (2, t₂ ) = {((sc -2,sc-3), l)}。

将上述软件作为第一程序，然后对程序 ^₂执行步骤 S101 得到系统调用序列

Trace (/¾,/) =〈(^ ,sc-i , [t₂ , _ 2) , ΐ ,sc-2^, ( ₂ , sc- 3) , ( ' , _ 3) , (' ,sc-2^, ( ' , sc - 4))

，执行 S102 和 S103 得到它的线程切片胎记 Birth^' (2, ) = _ 1, _ 2) , 1〉 ,、{sc _ 2, 5 _ 3) , 1〉 , {sc _ 3, _ 2) , 1〉 , (l^sc - 2, * - 4) , 1〉} 和 Birth (2, t₂ ) = {((* -2,sc-3), l)}。

步骤 S104: 基于两个待检测多线程程序的所有线程切片胎记分别生成其软件胎记 Ρβ^ΒΡβ₂。

具体描述为：令 SB二、 Birth_p'

t≤ m,t Ν、，它表示一个程序的所有线程切片胎记的集合，然后构建一个 SS SB→ PB转换将线程切片胎记集合 SB 转换成其软件胎记 Ρβ，具体是将线程胎记集合中的每一个线程与其相应的线程胎记组成一个二元组，作为软件胎记的元素，得到 PB = {(t,Birth_p' (k,t))\sb e SB}。

通过上述描述对于程序 S的两个线程切片胎记可以得到其相应的软件胎记 PB_x =[{t_x,Birth_P'_i (2,ΐ_λ)),{ΐ₂,ΒίηΗ_Ρ'_ί (2,t₂))}，同样对于程序 P₂也可以得到其软件胎记尸 β₂ = (2, ₂))}。

步骤 S105: 基于最大双边图匹配，计算 ^与 ^₂的最大相似性，具体流程如图 5所示。

步骤 S501: 基于软件胎记内部的每一个线程切片胎记计算其与 Ρβ₂内部每一个线程切片胎记的相似性。具体描述为：对于第一程序软件胎记

ΡΒ_λ = {t_x , Birth (t_x )) , (ί₂ , Birth (t₂)) , ( _m , Birth (t_m ))}和第二程序软件胎记

PB₂ ={(?；, Birth (ij )) , (ί₂ , Birth (i₂ )),..., (ί„ , Birth (i„ )) j，为尸中的 m个线程切片胎记分别计算其与 Ρβ₂中的 η个线程切片胎记的相似性，生成一个 m*w阶的相似性矩阵 SimMatrb^PB PB^，其中

sim_c [Birth {t_t ) , Birth 针对线程切片胎记^ ，^ ,^〉,…,^^〉）与另一个线程切片胎记 B = {(^,_V 人 , _Vl、,…人]_m,v _m \的相似性计算，首先分别使用 cosine距离、 acraW

Dice, Containment四种方法计算二者的相似性：

b c d ;

.„ -, r cosine (A, B) + Jaccard (Α,Β) + Dice( Α,Β) + Containment ( A, B) 性， W'm(A,fi)= ^-^-, 简·记一

' 4 为 sim_c (Α,Β)。例如第一程序的软件胎记中的 Birth (t, )与第二程序的软件胎记 Ρβ₂中的 / )的相似性计算过程为：首先计算二者的《^Vze距离，其值为 cosine , 再依次用 Jaccard、

Dice, C¾"to_ZVzm«z 计算它们的相似性，得到相似性分别为丄、丄和丄。取这四

8 10 16 个值的平均值作为该两个线程切片胎记的最终相似性，因此 sim_r { Birth' (2,t), Birth' (2, ;))

1, = (丄 +丄 +丄 +丄」) ÷4 = 0.103。重复上述步骤为

ΡΒ中的两个线程切片胎记分别计算其与 Ρβ₂中的两个线程切片胎记的相似性，得到 Ρβ!与 ΡΒ₂的相似性矩阵

步骤 S502: 基于带权双边图匹配算法生成与 Ρβ₂的最大相似匹配方案 MaxMatch(PB_l,PB₁)。具体描述为：基于相似性矩阵 _ι¾«Μ_Ω π' (Ρβ₁,Ρβ₂；)，利用带权双边图匹配算法为软件胎记和 Ρβ₂中的所有线程切片胎记计算得到最大相似匹配方案，记为 MaxMatch{PB_x , PB₂ ) , MaxMatch ( ΡΒ_λ , ΡΒ₂ ) = , ^ ) , (Μ₂ , ν₂ ) , ... , (Μ

, I = min{m,n) , u_t e keyset (PB^j , v_t e keyset (^PB₂) , u_t≠ Uj if i≠ j , v_t≠ Vj if i≠ J' ,并且^ im_t(_M,,^)在所有的匹配方案中具有最小值。在上述例子中存在两个匹配方案，方案一 {PB, ,PB₂) = {{ {t₂,t₂ )} 和方案二^^/^ ^, ^；^^^^,^^ ，但是经过计算两个方案的相似值可以得到方案一相似值大于方案二，因此方案一作为 PB与 Ρβ₂的最大相似匹配方步骤 S503: 基于胎记集合 ^！与 ^^的最大相似匹配方案计算其相似性，具体描述为：基于软件胎记 ^与 ^₂的最大相似性匹配方案，计算二者相似性

count keySetl Birth keySet Birthltj 根据上述公式计算得到 Sim^,!^) = 1。步骤 S106: 不同输入下生成的胎记可能会不一样，提供多次输入，会计算得到一系列的相似值（^ ，…，），取其均值作为最终衡量两个程序相似性的依据，以减小随机因素的影响；并依据输入的可调节阈值 s (取值 0.2-0.3)做出抄袭与否的决策，输出检测结果。

具体描述为：对于两个软件 P_A和 ^，为它们提供一系列的输入

(第一程序和第二程序每次的输入相同），生成的一系列软件胎记分别为

∑sim(PB_Ai,PB_Bi)

PB_M,PB_A2,...,PB_AJllPB_m,PB_B2,...,PB_Bn，贝 ^ , ) = ^ 后依据这两个程序的相似性和给定的可调阈值 s来确定抄袭与否，即: sim(P_A,P_B

Claims

权利要求书

1、基于线程切片胎记的多线程软件抄袭检测方法，其特征在于，包括如下步骤：

1 ) 基于动态插桩技术，对待分析目标程序实施运行时监控，实时地识别待分析目标程序中系统调用函数，并记录与之相关的线程 ID、调用地址、系统调用号、函数名、参数、返回值的相关信息，然后对其进行预处理，去除无效的系统调用，得到有效的系统调用序列 Tmce；

2) 基于线程 ID对有效的系统调用序列 Trace进行线程切片，生成一系列由线程 ID标识的线程切片 Slice；

3 ) 基于线程切片，通过提取线程切片中的固定子序列并记录其出现次数，分别为待分析的第一程序 ^ 及第二程序 ^₂的所有线程切片生成其动态线程切片胎记其中第一程序指的是程序所有者开发的原始程序，第二程序指被认为抄袭了原始程序的可疑程序；

4 )基于多线程程序所有的线程切片胎记分别为 S 和 Ρ₂生成相应的软件胎记 ΡΒ_λ和 ΡΒ₂； 5 )基于最大双边图匹配，计算软件胎记 ^与 ^₂的最大相似性，首先针对软件胎记内部的每一个线程切片胎记，计算其与胎记 Ρβ₂内部每一个线程切片胎记的相似性；然后基于带权双边图匹配算法生成与 Ρβ₂的最大相似性匹配方案 MaxMatch {ΡΒ_λ , PB₂) ; 最后基于最大相似性匹配方案，计算与 PS₂的胎记相似性 Sz'm^ , ^ ) ; 6 ) 依据多次输入下生成的胎记相似性的均值，及给定的阈值判断是否抄袭。

2、根据权利要求 1所述的方法，其特征在于，所述步骤 1)中动态系统调用识别原则为：若当前执行函数名与操作系统系统调用列表中一个系统调用函数名匹配，则将该执行函数识别为系统调用函数；所述步骤 1 ) 中监控实施方法为：针对二进制的待分析程序，使用动态插桩技术，在待分析程序的函数执行之前以及执行之后植入相应的分析代码，以实现运行时监控；所述步骤 1 ) 中系统调用序列生成方法为：通过函数级的运行时监控，捕获每一个待执行的函数，分析该函数的类型，通过匹配当前操作系统的系统调用列表，根据匹配结果判断该函数是否为系统调用函数；同时结合系统调用所在线程 ID，对每一个执行的系统调用的所在线程 ID进行记录；并且捕获与该系统调用相关的调用参数以及返回值等相关信息；最后根据分析结果，对系统调用进行记录并将其加入动态系统调用序列；每条系统调用的记录格式为：线程 ID#调用地址#系统调用号 #函数名 #参数 # 返回值。

3、根据权利要求 1所述的方法，其特征在于，所述步骤 1 ) 中对记录的系统调用序列进行预处理，去除无效的系统调用，得到有效的系统调用序列：对抽取的系统调用序列中的每条系统调用项，解析其格式，判断其返回值，若返回值为非零则表示系统调用执行失败，则删除该条系统调用；

令 Tm_Ce p, I、 = ^ , e₂, ..., _e„ ，表示程序/?在输入 /下抽取，经预处理得到的一条有效的系统调用序列，其中包含一条系统调用的系统调用号以及它所在的线程 ID。

4、根据权利要求 1所述的方法，其特征在于，所述步骤 2) 中线程切片生成方法为：基于有效的运行时系统调用序列，针对序列中每一个系统调用，剥离其线程 ID，保留其系统调用号，根据线程 ID标识划分成一系列的线程切片；令 Slice (/?, /, ) = | e Trace (p, l) and getThreadlD {e_j ) = ij ^

j' e {1, 2, "} , 1≤ ≤ m, e N ,· Slice ( p, I, t)表示线程 t对应的线程切片， m代表程序执行过程中共有 m个线程。

5、根据权利要求 1所述的方法，其特征在于，所述步骤 3 ) 中线程切片胎记生成方法为：对线程切片 ^，/，m)应用 k-gmm算法，得到一个长度为 k子序列的集合 Set、p, l,t,k) = {_gj \_gj ={e_pe_p--, e_j+k_, )} , j' e {1, 2,… , " - + 1} _; 然后统计独有的 gram个数及其频率，最终生成一个键值对集合；令 Birth ( ,t)为程序 p 在输入 /下的线程 ID标识为 t的动态系统调用线程切片胎记,简记为

，表示为 fiz ( ) = {〈gX g;)〉lg; G Set(p,I,t,k) andVj^j^g. ≠ gJ' ，其中 /r^ ( )表示在集合 ^ ^,/, ,Α)中出现的次数， k=4或 5。

6、根据权利要求 1所示的方法，其特征在于，所述步骤 4) 中软件胎记生成方法为：令 SB = ' k ,t、\L≤ t≤ m,t G Ν、 , 它表示一个程序的所有线程切片胎记的集合，然后构建一个 SS :SS→Ρβ转换将线程切片胎记集合转换成其软件胎记 ΡΒ，具体是将线程胎记集合中的每一个线程 ID与其相应的线程胎记组成一个二元组，作为软件胎记的元素，得到 PB = {(t,Birth_p' (k,t))\sb G SB}。

7、根据权利要求 1所示的方法，其特征在于，所述步骤 5) 中线程切片胎记相似性计算方法为：令两个线程切片胎记 A = {〈^_Vl〉, ,v₂〉, 和

B = {〈 v₂〉，…，〈d〉}，首先分另 'J使用 cosine距离、 Jaccard、 Dice、 Containment四种方法计算二者的相似性，具体描述如下： a) cosine距离衡量 A及 B的相似性,^« 4, )=«^>^(^,8) = ₁ ^^6；

A B b) Jaccard计算 A c) Dice计算 A及 B

d) Containment计算 A及 B的相似性 ,57' (A,fi)= Containment (A, B) = ',"¹ x Θ：

A 最后取平均值作为两个线程切片胎记的最终相似

cosine (^Α,Β^ + Jaccard (A, β) + Dce(A, β) + Containment^ Α, β) κ 性， w'm(A,fi) ， ISJ QTJ

4 sim_c (Α,β)。

8、根据权利要求 7所示的方法，其特征在于，所述步骤 5) 中为内部的所有线程切片胎记计算其与 Ρβ₂内部每一个线程切片胎记的相似性：

对于第一程序软件胎记 = {(t, , Birth (t_x )) , (t₂ , Birth (t₂ )),..., (t_m , Birth(t_m ))}和第二程序软件胎记 Ρβ₂ = {(?； , Birth (t )) , (t₂ , Birth (ί₂ )) , ..., (ί„ , Birth (t_n )) j，为 ΡΒ_λ的 m 个线程切片胎记分别计算其与 Ρβ₂中的 η个线程切片胎记的相似性，生成 m* 阶的相似性矩阵 SimMatr iPB PB^，其中 Sz'mMa n';^ ^, ^^^ j] = sim_c [Birth (ί,. ) , Birth (t) ))；所述步骤 5 )中基于带权双边图匹配算法生成与 PB₂ 的最大相似性匹配方案 MiwMizfc^PfipPfi ：基于相似性矩阵 Sz'mMiz n';c(A,fi)，利用带权双边图匹配算法为软件胎记和 Ρβ₂中的所有线程切片胎记计算得到最大相似匹配方案，记为

MaxMatch ( ΡΒ_λ , ΡΒ₂ ) = (α₁,ν₁),(α₂,ν₂),...,(α ν,)| ,1 = min m,n ,u_{ e keyset PB , v,. e keyset (PB₂) , u_t≠ Uj if i≠ j , v,.≠ Vj if i≠ ,并且 ^ w'm_c 在所有的匹配方案中具有最小值；所述步骤 5)中计算 ^与 ^₂的胎记相似性：基于软件胎记与 Ρβ，的最大相似性匹配方案，计算二者相似性

count key Set [Birth keySet Birth tj

9、根据权利要求 1所示的方法，其特征在于，所述步骤 6) 中抄袭决策模块将多次输入下得到的第一程序及第二程序胎记相似性的值作为输入，计算其均值相似性作为程序的相似性；并依据输入的可调节阈值 s做出抄袭与否的判断，输出检测结果.

10、根据权利要求 9所示的方法，其特征在于，步骤 6)中阈值 s的取值范围为 0.2-0.3; sim(P_A,P_B) =

其中 w'm (P₄ , P_R )为第一程序及第二程序胎记相似性的均值