KR20160064930A - 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체 - Google Patents

소스 코드의 오류 검출에 있어서 경보 유형 분류 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체 Download PDF

Info

Publication number
KR20160064930A
KR20160064930A KR1020150028436A KR20150028436A KR20160064930A KR 20160064930 A KR20160064930 A KR 20160064930A KR 1020150028436 A KR1020150028436 A KR 1020150028436A KR 20150028436 A KR20150028436 A KR 20150028436A KR 20160064930 A KR20160064930 A KR 20160064930A
Authority
KR
South Korea
Prior art keywords
alarm
error detection
source code
feature
subtree
Prior art date
Application number
KR1020150028436A
Other languages
English (en)
Other versions
KR101694783B1 (ko
Inventor
윤종원
진민식
Original Assignee
주식회사 파수닷컴
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 파수닷컴 filed Critical 주식회사 파수닷컴
Priority to JP2017528221A priority Critical patent/JP6369736B2/ja
Priority to PCT/KR2015/012792 priority patent/WO2016085273A1/ko
Priority to US15/528,792 priority patent/US10394687B2/en
Publication of KR20160064930A publication Critical patent/KR20160064930A/ko
Application granted granted Critical
Publication of KR101694783B1 publication Critical patent/KR101694783B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/40Transformation of program code
    • G06F8/41Compilation
    • G06F8/42Syntactic analysis
    • G06F8/427Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/362Software debugging
    • G06F11/3624Software debugging by performing operations on the source code, e.g. via a compiler
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3604Software analysis for verifying properties of programs
    • G06F11/3608Software analysis for verifying properties of programs using formal methods, e.g. model checking, abstract interpretation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/36Preventing errors by testing or debugging software
    • G06F11/3604Software analysis for verifying properties of programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • G06F8/75Structural analysis for program understanding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)
  • Stored Programmes (AREA)

Abstract

본 발명은 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체에 관한 것이다.
본 발명의 일측면에 따르면, 정적분석기와 연동하는 경보 유형 분류 장치에서 실행되며, 정적분석기에서 발생한 오류 검출 경보를 유형별로 분류하기 위한 방법으로서, 1) 발생한 오류 검출 경보에 관한 경보 경로(alarm path) 정보 및 경보의 대상이 된 소스 코드 정보를 입력받는 단계- 상기 경보 경로 정보는 소스 코드의 실행 경로 중에서 상기 발생한 오류 검출 경보와 관련된 실행 경로에 관한 정보임-; 2) 상기 소스 코드를 추상 구문 트리(abstract syntax tree, AST)로 변환하는 단계; 3) 상기 추상 구문 트리에서 상기 오류 검출 경보와 관련되지 않은 불요(不要) 서브트리를 제거하는 단계; 4) 미리 설정된 피쳐 패턴 세트에 근거하여, 불요(不要) 서브트리가 제거된 상기 추상 구문 트리에 대한 피쳐 벡터를 수득하는 단계; 및 5) 수득된 상기 피쳐 벡터를 미리 설정된 방식으로 클러스터링하여 상기 피쳐 벡터에 대응하는 오류 검출 경보를 유형별로 분류하는 단계;를 포함하여 구성된 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법이 개시된다.

Description

소스 코드의 오류 검출에 있어서 경보 유형 분류 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체 {ALARM CLASSIFICATION METHOD IN FINDING POTENTIAL BUG IN A SOURCE CODE, COMPUTER PROGRAM FOR THE SAME, RECORDING MEDIUM STORING COMPUTER PROGRAM FOR THE SAME}
본 발명은 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체에 관한 것으로서, 정적분석기에서 발생하는 소스 코드에 관한 다양한 경보의 발생 유형을 자동적으로 분류하고 분석하여, 경보 유형 분류에 소요되는 리소스의 낭비를 방지할 수 있도록 하는 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체에 관한 것이다.
소스 코드에 존재하는 잠재적인 오류(bug)나 취약점을 발견하기 위해 정적분석기가 널리 사용된다. 정적분석기는 각 기능별 체커의 실행에 의해 각 체커별로 미리 정의된 오류를 검출하고, 오류가 검출된 것으로 판단하면 이에 대한 경보(alarm) 메시지를 발생한다.
정적분석기의 경보가 발생하는 경우, 발생한 경보의 정확도 분석 등의 목적을 위해 경보 유형을 분류하는 과정이 이뤄질 수 있다.
예를 들어, 정적분석기의 분석 과정에서 오류 여부의 판단이 항상 정확하게 이뤄지지 못할 수가 있으며, 이로 인해 분석 대상 소스 코드에 오류가 존재하지 않음에도 불구하고 오류가 존재하는 것으로 잘못 판단하여 오경보(false alarm)를 발생할 수 있다.
이러한 경우, 경보의 발생 유형을 분류하고 분석하여, 오경보의 가능성이 높은 경보 유형에 대하여 추가적인 분석이나 대비를 할 수 있는데, 이러한 유형 분류 작업이 기존에는 개발자의 수작업에 의해 이뤄지는 것이 일반적이었으므로, 이러한 종래의 경보 유형 분류 작업은 리소스의 낭비 요인이 되었다.
대한민국 공개특허 제10-2014-0033616호 (2014.03.19 공개)
본 발명은 상기와 같은 종래의 문제점을 감안하여 안출한 것으로서, 정적분석기에서 발생하는 소스 코드에 관한 다양한 경보의 발생 유형을 자동적으로 분류하고 분석하여, 경보 유형 분류에 소요되는 리소스의 낭비를 방지할 수 있도록 하는 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체를 제공하는 것을 그 목적으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명의 일측면에 따르면, 정적분석기와 연동하는 경보 유형 분류 장치에서 실행되며, 정적분석기에서 발생한 오류 검출 경보를 유형별로 분류하기 위한 방법으로서, 1) 발생한 오류 검출 경보에 관한 경보 경로(alarm path) 정보 및 경보의 대상이 된 소스 코드 정보를 입력받는 단계- 상기 경보 경로 정보는 소스 코드의 실행 경로 중에서 상기 발생한 오류 검출 경보와 관련된 실행 경로에 관한 정보임-; 2) 상기 소스 코드를 추상 구문 트리(abstract syntax tree, AST)로 변환하는 단계; 3) 상기 추상 구문 트리에서 상기 오류 검출 경보와 관련되지 않은 불요(不要) 서브트리를 제거하는 단계; 4) 미리 설정된 피쳐 패턴 세트에 근거하여, 불요(不要) 서브트리가 제거된 상기 추상 구문 트리에 대한 피쳐 벡터를 수득하는 단계; 및 5) 수득된 상기 피쳐 벡터를 미리 설정된 방식으로 클러스터링하여 상기 피쳐 벡터에 대응하는 오류 검출 경보를 유형별로 분류하는 단계;를 포함하여 구성된 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법이 개시된다.
바람직하게, 본 발명은, 상기 1) 단계에서, 발생한 오류 검출 경보에 관한 경보 타입(alarm types) 정보를 더 입력받으며- 상기 경보 타입 정보는 발생한 오류 검출 경보가 미리 설정된 경보 타입 중에서 어느 타입에 해당하는지에 관한 정보임-, 상기 4) 단계에서, 상기 피쳐 패턴 세트는 상기 오류 검출 경보의 경보 타입에 대하여 미리 설정된 것임을 특징으로 한다.
바람직하게, 상기 3) 단계에서, 상기 불요(不要) 서브트리의 제거는, 오류 검출 경보와 관련된 실행 경로 상에서 실행된 구문을 제외한 다른 일반 구문을 제거하는 제1 정책과, 오류 검출 경보와 관련된 실행 경로 상에서 실행된 분기문이 아닌 다른 분기문을 제거하는 제2 정책과- 단, 오류 검출 경보와 관련된 실행 경로는 분기문의 조건 판별 결과를 포함함-, 오류 검출 경보와 관련된 실행 경로 상에서 실행된 반복문이 아닌 다른 반복문을 제거하는 제3 정책과, 오류 검출 경보와 관련된 실행 경로 상에서 호출된 함수 및 상기 함수의 실행 경로를 상기 함수를 호출하는 노드의 서브트리로 포함하는 제4 정책과, 오류 검출 경보와 관련된 실행 경로와 관계 없는 선언문을 제거하는 제5 정책 중의 적어도 어느 하나의 정책에 근거하여 이뤄지는 것을 특징으로 한다.
바람직하게, 상기 4) 단계에서, 상기 피쳐 패턴 세트는, 미리 설정된 n 개의 피쳐 패턴의 세트 형태로 구성되며, 상기 피쳐 패턴은, 조건문 발생, 루프문 발생, 리턴문 발생, 브레이크(break) 또는 컨티뉴(continue)문 발생, 엑시트(exit) 또는 어서트(assert) 메소드 호출(method invocation) 발생, 널 표현(null expression) 발생, 널 값과의 비교(comparisons with a null value) 발생, 널 할당(null assignments) 발생, 널 값을 리턴하는 문(statements)의 발생 중의 어느 하나인 것을 특징으로 한다.
바람직하게, 상기 4) 단계에서, 상기 불요(不要) 서브트리가 제거된 상기 추상 구문 트리에 대한 피쳐 벡터(V(R))의 수득 과정은, 401) 하기 수학식1과 같이, n 개의 피쳐 패턴(p)의 세트 형태로 구성된 피쳐 패턴 세트(P)를 정의하는 단계;
[수학식1]
P = {p1, p2, ..., pn}
402) 하기 수학식2와 같이, 추상 구문 트리 상의 임의의 노드 d에 대한 n 차원의 패턴 만족 벡터(v(P,d))를 정의하는 단계;
[수학식2]
Figure pat00001
(단, S(d,pi)는 임의의 노드 d 또는 노드 d를 루트로 하는 서브트리가 i 번째 피쳐 패턴(pi)에 매칭되는지 여부를 나타내는 인자로서, 하기 수학식3과 같이 정의되며, i 번째 피쳐 패턴(pi)은 단일 노드 또는 서브트리일 수 있음
[수학식3]
Figure pat00002
)
403) 하기 수학식4와 같이, 추상 구문 트리 상의 임의의 노드 D에 대한 피쳐 벡터(V(P,D))를 정의하는 단계; 및
[수학식4]
Figure pat00003
(단, d1,...,dm은 임의의 노드 D의 자식 노드들이며,
V(P,d1)...V(P,dm) 는 자식 노드 d1,...,dm에 대하여 상기 수학식4를 통해 구한 피쳐 벡터이며,
v(P,D)는 임의의 노드 D에 대한 n 차원의 패턴 만족 벡터임)
404) 하기 수학식5를 이용하여, 상기 불요(不要) 서브트리가 제거된 상기 추상 구문 트리에 대한 피쳐 벡터(V(R))를 수득하는 단계;를 포함하여 구성된 것을 특징으로 한다.
[수학식5]
Figure pat00004
(단, R은 상기 불요(不要) 서브트리가 제거된 상기 추상 구문 트리의 루트 노드로서 상기 수학식4의 노드 D에 대응함)
바람직하게, 상기 5) 단계에서, 상기 클러스터링은 K-means 알고리즘에 의해 실행되는 것을 특징으로 한다.
본 발명의 또 다른 일측면에 따르면, 하드웨어와 결합되어 상기 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램이 개시된다.
본 발명의 또 다른 일측면에 따르면, 상기 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터로 판독 가능한 기록 매체가 개시된다.
이와 같은 본 발명에 따르면, 정적분석기를 이용한 소스 코드의 오류 검출에 있어서, 경보의 발생 유형을 분류하고 분석하여, 오경보의 가능성이 높은 경보 유형에 대하여 추가적인 분석이나 대비를 할 수 있도록 한다는 장점이 있다.
특히, 본 발명에 따르면, 경보의 유형 분류 작업을 개발자의 수작업에 의해 수행하지 않고 자동적인 프로세스를 통해 실행할 수 있으므로, 경보 유형 분류에 소요되는 리소스의 낭비를 방지할 수 있다는 장점이 있다.
도 1은 본 발명의 일실시예에 따른 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법을 설명하기 위한 개념도이다.
본 발명은 그 기술적 사상 또는 주요한 특징으로부터 벗어남이 없이 다른 여러가지 형태로 실시될 수 있다. 따라서, 본 발명의 실시예들은 모든 점에서 단순한 예시에 지나지 않으며 한정적으로 해석되어서는 안 된다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는 데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구비하다", "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하되, 도면 부호에 관계없이 동일하거나 대응하는 구성 요소는 동일한 참조 번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일실시예에 따른 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법을 설명하기 위한 개념도이다.
본 실시예의 발명은, 정적분석기와 연동하는 경보 유형 분류 장치에서 실행되며, 정적분석기에서 발생한 오류 검출 경보를 유형별로 분류하기 위한 방법이다.
일예로, 상기 경보 유형 분류 장치는 경보 유형 분류 방법을 실행하는 컴퓨팅 수단 또는 그 기능 모듈로 이해될 수 있으며, 정적분석기에 연동 모듈 형태로 구현되거나, 내부 모듈 형태로 구현될 수 있다.
본 실시예의 경보 유형 분류 장치는 공지의 다양한 정적분석기와 연동한다. 일예로, 정적분석기는 문법기반(Syntactic) 분석 또는 의미기반(Semantic) 분석 방식의 다양한 상용 제품들이 공지된 바 있으며, 그 상세한 설명은 생략한다.
S1 단계에서, 경보 유형 분류 장치는, 발생한 오류 검출 경보에 관한 경보 경로(alarm path) 정보 및 경보의 대상이 된 소스 코드 정보를 입력받는다. 일예로, 상기 입력은 경보 유형 분류 장치의 입력 요청 또는 정적분석기의 설정에 근거하여, 경보 유형 분류 장치와 연동하는 정적분석기가 경보 유형 분류 장치로 상기 각 정보를 입력 제공하거나, 다른예로, 상기 각 정보가 기록된 파일을 사용자가 경보 유형 분류 장치가 독출 가능하도록 입력하는 방식으로 이뤄질 수 있다.
상기 경보 경로 정보는 소스 코드의 실행 경로 중에서 상기 발생한 오류 검출 경보와 관련된 실행 경로에 관한 정보이다.
정적분석기는 각 기능별 체커의 실행에 의해 각 체커별로 미리 정의된 기준에 근거하여 분석 대상 소스 코드의 오류 여부를 검출하고, 오류가 검출된 것으로 판단하면 이에 대한 특정한 경보(alarm)를 발생한다.
이때, 상기 경보는 검출된 오류에 대하여 체커에 미리 설정된 특정 경보 메시지를 출력하는 방식으로 이뤄진다. 각 경보 메시지는 기본적으로 특정 체커에 종속되어 있으며, 일반적으로 소스 코드의 특징이나 형태, 혹은 실행 경로 상의 특징을 반영하고 있지는 않다.
바람직하게, S1 단계에서, 경보 유형 분류 장치는, 발생한 오류 검출 경보에 관한 경보 타입(alarm types) 정보를 더 입력받는다.
하나의 '경보 타입'은 동일한 경보 메시지를 가진다. 일예로, 하나의 체커는 하나의 경보 메시지를 발생시키며, 하나의 '경보 타입'을 정의하는 것으로 이해될 수 있다.
일예로, 상기 '경보 타입'은 'general null dereference', 'dereferencing of an unchecked null value' 및 'dereferencing of a returned null value' 등을 그 예로 들 수 있으며, 이외에도 다양한 경보 타입이 설정될 수 있다.
일예로, 상기 경보 타입(alarm types) 별로 후술하는 피쳐 패턴 세트가 정의된다.
S2 단계에서, 경보 유형 분류 장치는, 상기 소스 코드를 추상 구문 트리(abstract syntax tree, AST)로 변환한다.
추상 구문 트리(abstract syntax tree, AST)는 프로그래밍 언어로 작성된 소스 코드의 추상 구문 구조의 트리로서, 이 트리의 각 노드는 소스 코드에서 발생되는 구조체를 나타낸다. 추상 구문 트리의 상세한 개념은 다수의 공지 자료를 통해 이해될 수 있으므로 상세 설명은 생략한다.
S3 단계에서, 경보 유형 분류 장치는, 상기 추상 구문 트리에서 상기 오류 검출 경보와 관련되지 않은 불요(不要) 서브트리를 제거한다.
불요(不要) 서브트리의 제거는 통상의 규칙 기반 기법에 의해 이뤄질 수 있다.
일예로, 상기 불요(不要) 서브트리의 제거는, 오류 검출 경보와 관련된 실행 경로 상에서 실행된 구문을 제외한 다른 일반 구문을 제거하는 제1 정책과, 오류 검출 경보와 관련된 실행 경로 상에서 실행된 분기문이 아닌 다른 분기문을 제거하는 제2 정책과- 단, 오류 검출 경보와 관련된 실행 경로는 분기문의 조건 판별 결과를 포함함-, 오류 검출 경보와 관련된 실행 경로 상에서 실행된 반복문이 아닌 다른 반복문을 제거하는 제3 정책과, 오류 검출 경보와 관련된 실행 경로 상에서 호출된 함수 및 상기 함수의 실행 경로를 상기 함수를 호출하는 노드의 서브트리로 포함하는 제4 정책과, 오류 검출 경보와 관련된 실행 경로와 관계 없는 선언문을 제거하는 제5 정책 중의 적어도 어느 하나의 정책에 근거하여 이뤄진다.
S4 단계에서, 경보 유형 분류 장치는, 미리 설정된 피쳐 패턴 세트에 근거하여, 불요(不要) 서브트리가 제거된 상기 추상 구문 트리에 대한 피쳐 벡터를 수득한다.
소스 코드로부터 구해진 추상 구문 트리(abstract syntax tree, AST)는 클러스터링을 통한 경보 유형 분류를 위해 그대로 입력 데이터로 활용 하기에는 너무 크고 복잡한 구조를 갖는다. 본 실시예와 같이 소스 코드로부터 구해진 추상 구문 트리에 대하여 피쳐 벡터를 수득하고 이를 이용하여 클러스터링을 하게 되면, 클러스터링 처리 시간을 줄이고 이에 필요한 리소스 소요를 줄이는 장점을 얻게 된다.
바람직하게, 상기 피쳐 패턴 세트는, 미리 설정된 n 개의 피쳐 패턴의 세트 형태로 구성되며, 상기 피쳐 패턴은, 조건문 발생, 루프문 발생, 리턴문 발생, 브레이크(break) 또는 컨티뉴(continue)문 발생, 엑시트(exit) 또는 어서트(assert) 메소드 호출(method invocation) 발생, 널 표현(null expression) 발생, 널 값과의 비교(comparisons with a null value) 발생, 널 할당(null assignments) 발생, 널 값을 리턴하는 문(statements)의 발생 중의 어느 하나일 수 있다. 이를 표로 정리하면 다음과 같다.
구분 피처 패턴
1 조건문 발생
2 루프문 발생
3 리턴문 발생
4 브레이크(break) 또는 컨티뉴(continue)문 발생
5 엑시트(exit) 또는 어서트(assert) 메소드 호출(method invocation) 발생
6 널 표현(null expression) 발생
7 널 값과의 비교(comparisons with a null value) 발생
8 널 할당(null assignments) 발생
9 널 값을 리턴하는 문(statements)의 발생
바람직한 일예로, 상기 피쳐 패턴 세트, 즉, n 개의 피쳐 패턴의 세트는 상기 오류 검출 경보의 각각의 경보 타입에 대하여 미리 설정된다. 이러한 설정 관계를 갖는 경우, 경보 유형 분류는 하나의 특정 경보 타입의 범위 내에서 이뤄지게 된다.
바람직하게, 상기 S4 단계에서, 상기 불요(不要) 서브트리가 제거된 상기 추상 구문 트리에 대한 피쳐 벡터(V(R))의 수득 과정은 다음과 같이 실행된다.
S401 단계에서, 경보 유형 분류 장치는, 하기 수학식1과 같이, n 개의 피쳐 패턴(p)의 세트 형태로 구성된 피쳐 패턴 세트(P)를 정의한다.
[수학식1]
P = {p1, p2, ..., pn}
S402 단계에서, 경보 유형 분류 장치는, 하기 수학식2와 같이, 추상 구문 트리 상의 임의의 노드 d에 대한 n 차원의 패턴 만족 벡터(v(P,d))를 정의한다.
[수학식2]
Figure pat00005
(단, S(d,pi)는 임의의 노드 d 또는 노드 d를 루트로 하는 서브트리가 i 번째 피쳐 패턴(pi)에 매칭되는지 여부를 나타내는 인자로서, 하기 수학식3과 같이 정의되며, i 번째 피쳐 패턴(pi)은 단일 노드 또는 서브트리일 수 있음
[수학식3]
Figure pat00006
)
S403 단계에서, 경보 유형 분류 장치는, 하기 수학식4와 같이, 추상 구문 트리 상의 임의의 노드 D에 대한 피쳐 벡터(V(P,D))를 정의한다.
[수학식4]
Figure pat00007
(단, d1,...,dm은 임의의 노드 D의 자식 노드들이며,
V(P,d1)...V(P,dm) 는 자식 노드 d1,...,dm에 대하여 상기 수학식4를 통해 구한 피쳐 벡터이며,
v(P,D)는 임의의 노드 D에 대한 n 차원의 패턴 만족 벡터임)
S404 단계에서, 경보 유형 분류 장치는, 하기 수학식5를 이용하여, 상기 불요(不要) 서브트리가 제거된 상기 추상 구문 트리에 대한 피쳐 벡터(V(R))를 수득한다.
[수학식5]
Figure pat00008
(단, R은 상기 불요(不要) 서브트리가 제거된 상기 추상 구문 트리의 루트 노드로서 상기 수학식4의 노드 D에 대응함)
상기 수학식5는, 상기 수학식4의 임의의 노드 D로서, 불요(不要) 서브트리가 제거된 상기 추상 구문 트리의 루트 노드 R을 입력하여 구해지는 식으로 이해될 수도 있다.
S5 단계에서, 경보 유형 분류 장치는, 수득된 상기 피쳐 벡터(V(R))를 미리 설정된 방식으로 클러스터링하여 상기 피쳐 벡터에 대응하는 오류 검출 경보를 유형별로 분류하게 된다.
클러스터링은 공지의 벡터 또는 데이터 클러스터링 기법이 사용될 수 있으며, 예를 들어, 공지의 계층적 클러스터링(Hierarchical Clustering) 기법, 또는 비계층적 클러스터링(Non-hierarchical Clustering) 기법이 사용될 수 있다.
본 실시예의 경우, 바람직한 일예로, 비계층적 클러스터링 방법 중 K-means 알고리즘이 사용될 수 있다. K-means는 데이터(또는 벡터)와 그 데이터(또는 벡터)가 속하는 클러스터의 중심(center)간의 유클리드 거리(Euclidean distance)를 최소화함으로써, 클러스터의 중심(centroid)을 찾아가는 방법이다.
K-means 알고리즘은 간단한 구조를 가지고 있고 일반적으로 빠르게 수렴하는 특성을 갖기 때문에 본 실시예에서 바람직한 일예로 적용될 수 있다. 더욱 정확한 클러스터링 결과를 얻기 위해, 서로 다른 초기값으로 여러 번 시도하여 가장 좋은 결과를 사용할 수도 있으며, 구하려는 클러스터의 갯수를 미리 적절한 갯수로 설정하여 클러스터링을 실행할 수도 있다.
클러스터링에 의해, 유사도가 높은 피쳐 벡터들이 동일 유형으로 분류될 수 있으며, 그 결과 동일 유형으로 분류된 피쳐 벡터들에 대응하는 각각의 오류 검출 경보들도 동일 유형의 경보들로 분류될 수 있다. 일예로, 동일 유형으로 분류될 수 있는 유사도의 세부 조건은 경보 유형 분류 장치에 미리 설정될 수 있다.
이러한 경보 유형 분류에 의해, 개발자는 오류 검출 경보의 분석에 있어서 여러가지 장점을 얻을 수 있다.
예를 들어, 새로운 오류 검출 경보가 발생한 경우, 해당 오류 검출 경보가 기존에 정상 경보로 분류된 오류 검출 경보와의 유사도가 낮아 동일 유형이 아닌 것으로 분류된다면, 해당 오류 검출 경보를 우선적으로 분석하여 개발자는 오경보 여부를 우선적으로 판단할 수 있다.
본 발명의 실시예 들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램과 이를 기록한 컴퓨터 판독가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD, USB 드라이브와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
S1,S2,S3,S4,S5: 경보 유형 분류 방법의 각 단계

Claims (8)

  1. 정적분석기와 연동하는 경보 유형 분류 장치에서 실행되며, 정적분석기에서 발생한 오류 검출 경보를 유형별로 분류하기 위한 방법으로서,
    1) 발생한 오류 검출 경보에 관한 경보 경로(alarm path) 정보 및 경보의 대상이 된 소스 코드 정보를 입력받는 단계- 상기 경보 경로 정보는 소스 코드의 실행 경로 중에서 상기 발생한 오류 검출 경보와 관련된 실행 경로에 관한 정보임-;
    2) 상기 소스 코드를 추상 구문 트리(abstract syntax tree, AST)로 변환하는 단계;
    3) 상기 추상 구문 트리에서 상기 오류 검출 경보와 관련되지 않은 불요(不要) 서브트리를 제거하는 단계;
    4) 미리 설정된 피쳐 패턴 세트에 근거하여, 불요(不要) 서브트리가 제거된 상기 추상 구문 트리에 대한 피쳐 벡터를 수득하는 단계; 및
    5) 수득된 상기 피쳐 벡터를 미리 설정된 방식으로 클러스터링하여 상기 피쳐 벡터에 대응하는 오류 검출 경보를 유형별로 분류하는 단계;를 포함하여 구성된 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법.
  2. 제1항에 있어서,
    상기 1) 단계에서,
    발생한 오류 검출 경보에 관한 경보 타입(alarm types) 정보를 더 입력받으며- 상기 경보 타입 정보는 발생한 오류 검출 경보가 미리 설정된 경보 타입 중에서 어느 타입에 해당하는지에 관한 정보임-,
    상기 4) 단계에서,
    상기 피쳐 패턴 세트는 상기 오류 검출 경보의 경보 타입에 대하여 미리 설정된 것임을 특징으로 하는 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법.
  3. 제1항에 있어서,
    상기 3) 단계에서, 상기 불요(不要) 서브트리의 제거는,
    오류 검출 경보와 관련된 실행 경로 상에서 실행된 구문을 제외한 다른 일반 구문을 제거하는 제1 정책과,
    오류 검출 경보와 관련된 실행 경로 상에서 실행된 분기문이 아닌 다른 분기문을 제거하는 제2 정책과- 단, 오류 검출 경보와 관련된 실행 경로는 분기문의 조건 판별 결과를 포함함-,
    오류 검출 경보와 관련된 실행 경로 상에서 실행된 반복문이 아닌 다른 반복문을 제거하는 제3 정책과,
    오류 검출 경보와 관련된 실행 경로 상에서 호출된 함수 및 상기 함수의 실행 경로를 상기 함수를 호출하는 노드의 서브트리로 포함하는 제4 정책과,
    오류 검출 경보와 관련된 실행 경로와 관계 없는 선언문을 제거하는 제5 정책 중의 적어도 어느 하나의 정책에 근거하여 이뤄지는 것을 특징으로 하는 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법.
  4. 제1항에 있어서,
    상기 4) 단계에서, 상기 피쳐 패턴 세트는,
    미리 설정된 n 개의 피쳐 패턴의 세트 형태로 구성되며,
    상기 피쳐 패턴은, 조건문 발생, 루프문 발생, 리턴문 발생, 브레이크(break) 또는 컨티뉴(continue)문 발생, 엑시트(exit) 또는 어서트(assert) 메소드 호출(method invocation) 발생, 널 표현(null expression) 발생, 널 값과의 비교(comparisons with a null value) 발생, 널 할당(null assignments) 발생, 널 값을 리턴하는 문(statements)의 발생 중의 어느 하나인 것을 특징으로 하는 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법.
  5. 제1항에 있어서,
    상기 4) 단계에서, 상기 불요(不要) 서브트리가 제거된 상기 추상 구문 트리에 대한 피쳐 벡터(V(R))의 수득 과정은,
    401) 하기 수학식1과 같이, n 개의 피쳐 패턴(p)의 세트 형태로 구성된 피쳐 패턴 세트(P)를 정의하는 단계;
    [수학식1]
    P = {p1, p2, ..., pn}
    402) 하기 수학식2와 같이, 추상 구문 트리 상의 임의의 노드 d에 대한 n 차원의 패턴 만족 벡터(v(P,d))를 정의하는 단계;
    [수학식2]
    Figure pat00009

    (단, S(d,pi)는 임의의 노드 d 또는 노드 d를 루트로 하는 서브트리가 i 번째 피쳐 패턴(pi)에 매칭되는지 여부를 나타내는 인자로서, 하기 수학식3과 같이 정의되며, i 번째 피쳐 패턴(pi)은 단일 노드 또는 서브트리일 수 있음
    [수학식3]
    Figure pat00010
    )
    403) 하기 수학식4와 같이, 추상 구문 트리 상의 임의의 노드 D에 대한 피쳐 벡터(V(P,D))를 정의하는 단계; 및
    [수학식4]
    Figure pat00011

    (단, d1,...,dm은 임의의 노드 D의 자식 노드들이며,
    V(P,d1)...V(P,dm) 는 자식 노드 d1,...,dm에 대하여 상기 수학식4를 통해 구한 피쳐 벡터이며,
    v(P,D)는 임의의 노드 D에 대한 n 차원의 패턴 만족 벡터임)
    404) 하기 수학식5를 이용하여, 상기 불요(不要) 서브트리가 제거된 상기 추상 구문 트리에 대한 피쳐 벡터(V(R))를 수득하는 단계;를 포함하여 구성된 것을 특징으로 하는 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법.
    [수학식5]
    Figure pat00012

    (단, R은 상기 불요(不要) 서브트리가 제거된 상기 추상 구문 트리의 루트 노드로서 상기 수학식4의 노드 D에 대응함)
  6. 제1항에 있어서,
    상기 5) 단계에서, 상기 클러스터링은 K-means 알고리즘에 의해 실행되는 것을 특징으로 하는 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법.
  7. 하드웨어와 결합되어 제1항 내지 제6항 중의 어느 한 항에 따른 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법을 실행시키기 위하여 매체에 저장된 컴퓨터 프로그램.
  8. 제1항 내지 제6항 중의 어느 한 항에 따른 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법을 컴퓨터에서 실행하기 위한 컴퓨터 프로그램이 기록된, 컴퓨터로 판독 가능한 기록 매체.
KR1020150028436A 2014-11-28 2015-02-27 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체 KR101694783B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017528221A JP6369736B2 (ja) 2014-11-28 2015-11-26 ソースコードの誤り検出における警報類型分類方法、そのためのコンピュータプログラム、およびその記録媒体
PCT/KR2015/012792 WO2016085273A1 (ko) 2014-11-28 2015-11-26 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체
US15/528,792 US10394687B2 (en) 2014-11-28 2015-11-26 Method for classifying alarm types in detecting source code error and nontransitory computer readable recording medium therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20140168971 2014-11-28
KR1020140168971 2014-11-28

Publications (2)

Publication Number Publication Date
KR20160064930A true KR20160064930A (ko) 2016-06-08
KR101694783B1 KR101694783B1 (ko) 2017-01-10

Family

ID=56193856

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150028436A KR101694783B1 (ko) 2014-11-28 2015-02-27 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체

Country Status (3)

Country Link
US (1) US10394687B2 (ko)
JP (1) JP6369736B2 (ko)
KR (1) KR101694783B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102096017B1 (ko) * 2018-11-29 2020-04-01 중앙대학교 산학협력단 추상 구문 트리를 기반으로 소스코드를 임베딩하여 소프트웨어 버그를 예측하는 방법 및 시스템

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10055329B2 (en) * 2015-09-30 2018-08-21 International Business Machines Corporation Detection of antipatterns through statistical analysis
CN107291521B (zh) * 2016-03-31 2020-12-04 阿里巴巴集团控股有限公司 编译计算机语言的方法和装置
US10241892B2 (en) * 2016-12-02 2019-03-26 International Business Machines Corporation Issuance of static analysis complaints
CN109635569B (zh) * 2018-12-10 2020-11-03 国家电网有限公司信息通信分公司 一种漏洞检测方法及装置
US10761962B1 (en) * 2019-02-07 2020-09-01 Fujitsu Limited Automated software program repair
CN109933332B (zh) * 2019-03-11 2022-07-05 中山大学 一种应用于敏捷芯片开发的硬件编译系统
CN110851367B (zh) * 2019-11-18 2023-09-01 杭州安恒信息安全技术有限公司 一种基于ast评估源码泄漏风险的方法、装置和电子设备
CN111382779B (zh) * 2019-12-31 2024-04-30 清华大学 警情相似度识别方法、装置及设备
US11765193B2 (en) 2020-12-30 2023-09-19 International Business Machines Corporation Contextual embeddings for improving static analyzer output
KR20240019514A (ko) 2022-08-04 2024-02-14 숭실대학교산학협력단 안드로이드 애플리케이션용 이기종 언어 프로그램 오염 분석 방법 및 이를 수행하기 위한 장치 및 기록 매체
KR102613919B1 (ko) * 2022-11-24 2023-12-13 고려대학교 산학협력단 널 포인터 예외를 수정하기 위한 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078651A1 (en) * 2009-09-28 2011-03-31 Cadence Design Systems, Inc. Method and system for test reduction and analysis
US20120216280A1 (en) * 2011-02-18 2012-08-23 Microsoft Corporation Detection of code-based malware
KR20140033616A (ko) 2012-09-07 2014-03-19 삼성전자주식회사 혼합 모드 프로그램의 소스 코드 오류 위치 검출 장치 및 방법

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070277163A1 (en) * 2006-05-24 2007-11-29 Syver, Llc Method and tool for automatic verification of software protocols
JP4839424B2 (ja) * 2008-12-15 2011-12-21 インターナショナル・ビジネス・マシーンズ・コーポレーション プログラムの解析を支援するための方法、並びにそのコンピュータ・プログラム及びコンピュータ・システム
US8806441B2 (en) 2009-06-29 2014-08-12 International Business Machines Corporation Static code analysis
EP2369529A1 (en) 2010-03-24 2011-09-28 Alcatel Lucent A method of detecting anomalies in a message exchange, corresponding computer program product, and data storage device therefor
JP5665128B2 (ja) * 2011-05-30 2015-02-04 日本電気通信システム株式会社 静的解析支援装置、静的解析支援方法、及びプログラム
US8745578B2 (en) 2011-12-04 2014-06-03 International Business Machines Corporation Eliminating false-positive reports resulting from static analysis of computer software
US9720925B1 (en) * 2012-04-12 2017-08-01 Orchard Valley Management Llc Software similarity searching
WO2015191737A1 (en) * 2014-06-13 2015-12-17 The Charles Stark Draper Laboratory, Inc. Systems and methods for software analysis
US10055329B2 (en) * 2015-09-30 2018-08-21 International Business Machines Corporation Detection of antipatterns through statistical analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110078651A1 (en) * 2009-09-28 2011-03-31 Cadence Design Systems, Inc. Method and system for test reduction and analysis
US20120216280A1 (en) * 2011-02-18 2012-08-23 Microsoft Corporation Detection of code-based malware
KR20140033616A (ko) 2012-09-07 2014-03-19 삼성전자주식회사 혼합 모드 프로그램의 소스 코드 오류 위치 검출 장치 및 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102096017B1 (ko) * 2018-11-29 2020-04-01 중앙대학교 산학협력단 추상 구문 트리를 기반으로 소스코드를 임베딩하여 소프트웨어 버그를 예측하는 방법 및 시스템

Also Published As

Publication number Publication date
JP2017537400A (ja) 2017-12-14
US20170329694A1 (en) 2017-11-16
US10394687B2 (en) 2019-08-27
JP6369736B2 (ja) 2018-08-08
KR101694783B1 (ko) 2017-01-10

Similar Documents

Publication Publication Date Title
KR101694783B1 (ko) 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체
CN110245496B (zh) 一种源代码漏洞检测方法及检测器和其训练方法及系统
US10558554B2 (en) Machine learning based software correction
US11899800B2 (en) Open source vulnerability prediction with machine learning ensemble
US11568134B2 (en) Systems and methods for diagnosing problems from error logs using natural language processing
US8495429B2 (en) Log message anomaly detection
US9208057B2 (en) Efficient model checking technique for finding software defects
US8539475B2 (en) API backward compatibility checking
Xu et al. VFix: Value-flow-guided precise program repair for null pointer dereferences
US20110066908A1 (en) Similarity detection for error reports
US20120072988A1 (en) Detection of global metamorphic malware variants using control and data flow analysis
Nguyen et al. Filtering noise in mixed-purpose fixing commits to improve defect prediction and localization
US20080127043A1 (en) Automatic Extraction of Programming Rules
KR101979329B1 (ko) 바이너리의 취약점을 유발하는 입력데이터 위치 추적 방법 및 그 장치
CN110806962B (zh) 日志级别的预测方法、设备及存储介质
WO2023177442A1 (en) Data traffic characterization prioritization
Alomari et al. Clone detection through srcClone: A program slicing based approach
CN110750297A (zh) 一种基于程序分析和文本分析的Python代码参考信息生成方法
Hegedűs et al. Static code analysis alarms filtering reloaded: A new real-world dataset and its ML-based utilization
CN110286912B (zh) 代码检测方法、装置及电子设备
WO2016085273A1 (ko) 소스 코드의 오류 검출에 있어서 경보 유형 분류 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체
KR101694778B1 (ko) 소스 코드의 오류 검출에 있어서 오경보 저감 방법, 이를 위한 컴퓨터 프로그램, 그 기록매체
Lavoie et al. A case study of TTCN-3 test scripts clone analysis in an industrial telecommunication setting
CN113596043B (zh) 攻击检测方法、攻击检测装置、存储介质与电子设备
CN113392016A (zh) 对程序异常情况处理的规约生成方法、装置、设备及介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191217

Year of fee payment: 4