WO2022048283A1

WO2022048283A1 - 一种基于pca的密码硬编码检测方法、装置及介质

Info

Publication number: WO2022048283A1
Application number: PCT/CN2021/103381
Authority: WO
Inventors: 闫利华
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2020-09-03
Filing date: 2021-06-30
Publication date: 2022-03-10
Also published as: CN112131570B; CN112131570A; US11880471B2; US20230195903A1

Abstract

一种基于PCA的密码硬编码检测方法、装置及介质，检测方法包括：步骤一，数据搜集，搜集密码硬编码误报的数据所在的函数代码块；步骤二，提取步骤一所搜集的函数代码块中的特征值，得到特征集；步骤三，利用步骤一中搜集到的函数代码块作为样本构建PCA模型；步骤四，基于步骤三构建的PCA模型及步骤二得到的特征集，检测密码硬编码是否存在误报。所述方法降低了代码扫描中对硬编码检测的误报率，提高了开发人员和代码审核人员的工作效率。

Description

一种基于PCA的密码硬编码检测方法、装置及介质

本申请要求于2020年09月03日提交至中国专利局、申请号为202010917043.1、发明名称为“一种基于PCA的密码硬编码检测方法、装置及介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及密码硬编码检测技术领域，尤其涉及一种基于PCA的密码硬编码检测方法、装置及介质。

背景技术

密码硬编码就是将密码以明文的形式直接写到代码中，这种方式可能给企业、客户带来严重的安全风险。主要危害表现在两个方面：(1)只要能够拿到该代码的人都能够获得该用户名和密码；(2)在代码投入使用之后，必须对软件进行修补才能更改加密密钥。如果受加密密钥保护的帐户遭受入侵，系统所有者将必须在安全性和可用性之间做出选择。

因此，为了降低存在的安全风险，会在代码投入使用之前对其进行安全扫描，常用的扫描工具有fortify扫描工具。Fortify是一款静态代码扫描工具，可以帮助程序员分析源码漏洞，一旦检测出安全问题，安全编码规则包会提供有关问题的信息。但是fortify对密码硬编码的误报率非常高，为了确认是否是误报，开发人员需要对fortify扫描出来的密码硬编码问题逐一的进行二次核实确认。对误报的情况，需要把其添加到过滤规则中去。如果密码硬编码的误报比较多，这会极其降低开发人员的工作效率。

人工进行二次复核的方式存在以下两个问题：

1、开发人员花费大量的精力用在复核和记录上，降低开发效率。

2、在对项目代码进行安全审核时，需要对每个问题进行审核，降低了审核的效率。

所以，降低代码中密码硬编码的误报率是非常有必要的。

发明内容

本申请的目的就是为了解决上述问题，提供一种基于PCA的密码硬编码检测方法、装置及介质，可以降低代码扫描中对硬编码检测的误报率，提高代码扫描和代码审核的质量和效率。

为了实现上述目的，本申请采用如下技术方案：

一种基于PCA的密码硬编码检测方法，包括以下步骤：

步骤一，数据搜集，搜集密码硬编码误报的数据所在的函数代码块；

步骤二，提取步骤一所搜集的函数代码块中的特征值，得到特征集；

步骤三，利用步骤一中搜集到的函数代码块作为样本构建PCA模型；

步骤四，基于步骤三构建的PCA模型及步骤二得到的特征集，检测密码硬编码是否存在误报。

所述步骤一中，根据实际的fortify代码扫描的项目代码，检测误报的密码硬编码数据，搜集该误报的密码硬编码数据所在的函数代码块，该函数代码块为初始的样本数据。

所述步骤二中，提取的函数代码块中的特征值包括代码长度、函数返回值类型、调用key的返回值类型、key在异常代码中调用的次数、代码块中包含的关键字个数及注释中包含的关键字个数。

所述key为函数中被赋值为特定字符串的变量。

所述代码块中包含的关键字包括但不限于：‘key’、‘password’、‘pwd’、‘passwd’、‘encryption’、‘decrypt’、‘generate’、‘SHA256’、‘AES’或‘DES’。

所述步骤三的具体步骤为：

步骤3.1，步骤一中搜集到的函数代码块为样本，个数为n，n为大于0的整数，每个样本有m种属性，m为大于0的整数，则每个样本提取一组特征集F得到F＝(F ₁，F ₂...F _m)，其中，Fm为样本的第m个属性；

步骤3.2，计算协方差矩阵C；

步骤3.3，采用奇异值分解，获取协方差矩阵C的特征值和对应的特征向量；

步骤3.4，将特征向量按对应特征值大小从上到下按行排列成矩阵U。

所述步骤3.2的具体步骤为：

i的取值范围[1,m]，j的取值范围[1，n]，

为第i个特征的

值，F _j为样本的第j个属性；

指的是第n个样本的第m个特征的

值。

所述步骤四的具体步骤为：

步骤4.1，对待检测的代码段，利用步骤二的方法提取出特征值，得到特征集；

步骤4.2，计算步骤4.1得到的特征集与矩阵U距离d；

步骤4.3，设置阈值σ，所述步骤4.2计算得到的距离在阈值范围内都属于误报。

一种基于PCA的密码硬编码检测装置，包括：

数据搜集模块，用于数据搜集，搜集密码硬编码误报的数据所在的函数代码块；

特征集计算模块，用于提取函数代码块的特征值，得到特征集；

PCA模型构建模块，用于构建PCA模型；

检测模块，用于检测密码硬编码是否存在误报。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述的一种基于PCA的密码硬编码检测方法的步骤。

本申请的有益效果：

本申请的方法降低了代码扫描中对硬编码检测的误报率，提高了开发人员和代码审核人员的工作效率。

附图说明

图1为本申请的方法流程图；

图2为一种基于PCA的密码硬编码检测装置的模块图。

具体实施方式

下面结合附图与实施例对本申请作进一步说明。

如图1所示，一种基于PCA的密码硬编码检测方法，包括：

步骤一、数据搜集：在本申请中，搜集的是密码硬编码误报的数据。即根据实际的fortify代码扫描的项目代码，检测误报的密码硬编码数据，搜集该数据所在的函数，该函数代码块即为初始的样本数据。

步骤二、特征提取：

提取步骤一所搜集的函数代码块中的特征值，得到特征集。

要从函数代码块中、判断该函数功能是否是密码硬编码，可以从函数代码块的整体特性进行分析：

代码长度：密码硬编码的函数代码一般相对不多，而其他功能性的代码则存在更多的可能性，因此函数块的代码长度可以作为其中的一个特征。

函数返回值类型：密码硬编码的函数返回字符串或为空的可能性更大，而其他功能性的代码返回值类型更多样。

调用key的返回值类型：这里key是指函数中被赋值为特定字符串的变量。密码硬编码对key的调用更多返回的是字符串，而其他功能性代码则有布尔、对象等多种类型。

key在异常代码中调用的次数：在密码硬编码中，对key的调用出现在异常块中的可能性很小，因此key在异常代码块中被调用的次数也是重要的一个特性。

代码块中包含的关键字个数：本算法中的关键字是指包含但不仅仅如下字段：‘key(函数中的变量)’、‘password(密码)’、‘pwd(密码)’、‘passwd(密码)’、‘encryption(加密)’、‘decrypt(解密)’、‘generate(生成)’、‘SHA256(Secure Hash Algorithm 256，安全散列算法)’、‘AES(Advanced Encryption Standard，高级加密标准)’、‘DES(Data Encryption Standard，分组对称加密算法)’等。这些关键字在一定程度上反映了函数的功能。

注释中包含的关键字个数：注释中对函数的功能和思想进行了描述，所以注释中关键字的个数在判断是否是密码硬编码上可以起到一定的作用。

综上，对每个代码块提取如上的6个特征，作为代码块的特征，得到特征集。

步骤三、PCA构建模型：

PCA，Principal Components Analysis，主成分分析技术，旨在利用降维的思想，把多指标转化为少数几个综合指标。是通过线性变换，将原始数据众多的变量转换为若干个各维度线性无关的变量，这些变量能最大化的表示原来数据的信息量。具体计算过程为：

步骤3.1，步骤一中搜集到的函数代码块为样本，个数为n，n的取值越大越好，最佳的n>500，每个样本有m种属性，F＝(F ₁，F ₂...F _m)，本实施例中m取6，F _m为样本的第m个属性；

步骤3.2，计算协方差矩阵C

是普通的变量，指的是特征值标准化后的值，即当前特征值-当前特征值的均值的值，

为第i个特征的

值，i的取值范围[1,m]，j的取值范围[1，n]，F _j为样本的第j个属性；

指的是第n个样本的第m个特征的

值；

步骤3.3，采用奇异值分解，获取协方差矩阵的特征值和对应的特征向量。

步骤3.4，将特征向量按对应特征值大小从上到下按行排列成矩阵U；

步骤四、基于PCA模型，检测密码硬编码：

步骤4.1、对待检测的代码段，利用步骤二的方法提取出特征值，得到特征集；

步骤4.2、计算步骤4.1得到的特征集与矩阵U的距离；

步骤4.1得到的特征集为一个1*m的矩阵F＝(F ₁，F ₂...F _m)，矩阵U为m*m的矩阵，计算得到的距离d为：

F _j为矩阵F中第j列的值，U _ji为矩阵U中第j行第i列的值；

步骤4.3、设置阈值σ，在阈值范围内都属于误报。

一种基于PCA的密码硬编码检测装置，如图2所示，包括：

特征集计算模块，用于提取数据搜集模块搜集到的函数代码块的特征值，得到特征集；

PCA模型构建模块，用于利用数据搜集模块搜集到的函数代码块作为样本构建PCA模型；

检测模块，用于利用PCA模型构建模块构建的PCA模型及特征集计算模块计算得到的特征集检测密码硬编码是否存在误报。

上述虽然结合附图对本申请的具体实施方式进行了描述，但并非对本申请保护范围的限制，所属领域技术人员应该明白，在本申请的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本申请的保护范围以内。

Claims

一种基于PCA的密码硬编码检测方法，其特征是，包括以下步骤：

步骤一，数据搜集，搜集密码硬编码误报的数据所在的函数代码块；

步骤二，提取步骤一所搜集的函数代码块中的特征值，得到特征集；

步骤三，利用步骤一中搜集到的函数代码块作为样本构建PCA模型；

步骤四，基于步骤三构建的PCA模型及步骤二得到的特征集，检测密码硬编码是否存在误报。
如权利要求1所述一种基于PCA的密码硬编码检测方法，其特征是，所述步骤一中，根据实际的fortify代码扫描的项目代码，检测误报的密码硬编码数据，搜集该误报的密码硬编码数据所在的函数代码块，该函数代码块为初始的样本数据。
如权利要求1所述一种基于PCA的密码硬编码检测方法，其特征是，所述步骤二中，提取的函数代码块中的特征值包括代码长度、函数返回值类型、调用key的返回值类型、key在异常代码中调用的次数、代码块中包含的关键字个数及注释中包含的关键字个数。
如权利要求3所述一种基于PCA的密码硬编码检测方法，其特征是，所述key为函数中被赋值为特定字符串的变量。
如权利要求3所述一种基于PCA的密码硬编码检测方法，其特征是，所述代码块中包含的关键字包括但不限于：‘key’、‘password’、‘pwd’、‘passwd’、‘encryption’、‘decrypt’、‘generate’、‘SHA256’、‘AES’或‘DES’。
如权利要求1所述一种基于PCA的密码硬编码检测方法，其特征是，所述步骤三的具体步骤为：

步骤3.1，步骤一中搜集到的函数代码块为样本，个数为n，n为大于0的整数，每个样本有m种属性，m为大于0的整数，则每个样本提取一组特征集F得到F＝(F ₁，F ₂...F _m)，其中，F _m为样本的第m个属性；

步骤3.2，计算协方差矩阵C；

步骤3.3，采用奇异值分解，获取协方差矩阵C的特征值和对应的特征向量；

步骤3.4，将特征向量按对应特征值大小从上到下按行排列成矩阵U。
如权利要求6所述一种基于PCA的密码硬编码检测方法，其特征是，所述步骤3.2的具体步骤为：

为第i个特征的
值，i取值范围是[1，m]，F _j为样本的第j个属性；j的取值范围[1，n]；

指的是第n个样本的第m个特征的
值。
如权利要求6所述一种基于PCA的密码硬编码检测方法，其特征是，所述步骤四的具体步骤为：

步骤4.1，对待检测的代码段，利用步骤二的方法提取出特征值，得到特征集；

步骤4.2，计算步骤4.1得到的特征集与矩阵U距离d；

步骤4.3，设置阈值σ，所述步骤4.2计算得到的距离在阈值范围内都属于误报。
一种基于PCA的密码硬编码检测装置，其特征是，包括：

数据搜集模块，用于数据搜集，搜集密码硬编码误报的数据所在的函数代码块；

特征集计算模块，用于提取函数代码块的特征值，得到特征集；

PCA模型构建模块，用于构建PCA模型；

检测模块，用于检测密码硬编码是否存在误报。
一种计算机可读存储介质，其特征是，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-8任意一项所述的一种基于PCA的密码硬编码检测方法的步骤。