KR20200144051A

KR20200144051A - 애플리케이션 프로그램들에 대한 취약성 기반 하이브리드 테스트 시스템

Info

Publication number: KR20200144051A
Application number: KR1020200054366A
Authority: KR
Inventors: 펑 리; 유롱 장; 타오 웨이
Original assignee: 바이두 유에스에이 엘엘씨
Priority date: 2019-06-17
Filing date: 2020-05-07
Publication date: 2020-12-28
Also published as: US11205004B2; US20200394311A1; KR102307364B1; JP7058302B2; CN112100050A; JP2020205047A; EP3754527B1; EP3754527A1; CN112100050B

Abstract

일 실시예에 따라, 시스템은 소스 코드에 기초하는 컴파일러에 의해 생성된 중간 결과를 수신하며, 중간 결과는 잠재적으로 취약한 소스 코드의 하나 이상의 라인들을 표시하는 하나 이상의 취약성 표시자들을 포함한다. 상기 시스템은 시드(seed) 입력들의 제 1 세트를 생성하기 위하여 중간 결과로부터 생성된 제 1 실행 코드에 대해 그레이 박스 퍼징을 수행한다. 상기 시스템은 도달 가능하지만 그레이 박스 퍼징에 의해 탐색되지 않은 소스 코드의 라인들에 대해 취약성 표시자들에 기초하는 제 1 세트의 시드 입력들 각각에 대한 취약성 스코어를 계산한다. 상기 시스템은 가장 높은 취약성 스코어를 가지는 제 1 세트에서의 시드 입력들 중 하나를 선택한다. 상기 시스템은 선택된 시드 입력을 우선 순위에 따라 사용함으로써 콘콜릭 실행을 수행하며, 콘콜릭 실행은 중간 결과로부터 생성된 제 2 실행 코드에 대해 수행된다.

Description

애플리케이션 프로그램들에 대한 취약성 기반 하이브리드 테스트 시스템{A VULNERABILITY DRIVEN HYBRID TEST SYSTEM FOR APPLICATION PROGRAMS}

본 발명의 실시예들은 일반적으로 안전한 다자간 컴퓨팅(secure multiparty computing)에 관한 것이다. 보다 구체적으로, 본 발명의 실시예들은 애플리케이션 프로그램들에 대한 취약성 기반 테스트 시스템(vulnerability driven test system)에 관한 것이다.

하이브리드 퍼즈 테스팅(hybrid fuzz testing)은 퍼즈 테스팅(또는 퍼징) 및 콘콜릭 실행(concolic execution)을 모두 활용하여, 상기 접근법들 중 하나만에 비해서는 코드 커버리지를 개선시키지만, 코드 커버리지-중심의 설계는, 취약성이 전혀 없을 수도 있는 코드 공간(code space)을 맹목적으로 탐색할 수 있기 때문에, 취약성 검출에 있어서 비효율적이다. 또한, 커버리지-중심(coverage-centric)의 하이브리드 테스팅은 코드의 청크(chunk) 내에서의 숨겨진 결함들을 검사하지 않고, 코드의 청크에 도달한 이후에 빠르게 진행된다. 빈번하게, 커버리지-중심의 하이브리드 퍼즈 테스팅은 취약성들을 둘러싸는(surrounding) 코드 경로들을 이미 탐색했음에도 불구하고, 악용될 수 있는 취약성들을 놓칠 수 있다.

현재의 커버리지-중심의 하이브리드 테스팅 방법들은, 드릴러(Driller): 선택적인 심볼릭 실행을 통한 증강 퍼징(augmenting fuzzing), QSYM: 하이브리드 퍼징에 맞춰진 실용적 콘콜릭 실행 엔진; 및 하이브리드 퍼징에 대한 확률론적 경로 우선순위화를 포함한다. 이러한 커버리지-중심의 하이브리드 퍼징 방법들은 상기 언급된 문제들을 모두 겪게 된다.

본 발명의 실시예들은 예시의 수단으로서 도시되고 유사한 참조번호가 유사한 요소들을 나타내는 첨부되는 도면들에서의 도시들로 제한되지 않는다.
도 1은 일 실시예에 따라 호스트 시스템(host system)을 도시하는 블록 다이어그램(block diagram)이다.
도 2는 일 실시예에 따라 취약성 기반 하이브리드 퍼즈 테스트(vulnerability driven hybrid fuzz test)를 위한 방법에 대한 플로우 차트(flow chart)의 예시를 도시한 블록 다이어그램이다.
도 3은 일 실시예에 따라 잠재적 취약성에 대한 컴파일러 삽입 코드(compiler injected code)를 도시한 블록 다이어그램이다.
도 4는 일 실시예에 따라 애플리케이션 프로그램에 대한 제어 흐름 그래프(control flow graph) 및 대응하는 매핑 튜플들(mapping tuples)의 예시이다.
도 5는 일 실시예에 따라 도달 가능한 취약성들을 가지는 기본 블록 매핑의 예시이다.
도 6은 일 실시예에 따라 시나리오(scenario)에 대한 취약성 스코어(score) 연산의 예시이다.
도 7은 일 실시예에 따라 방법을 도시하는 플로우 다이어그램이다.
도 8은 일 실시예에 따라 데이터 처리 시스템(data processing system)을 도시한 블록 다이어그램이다.

본 발명의 다양한 실시예들 및 양상들이 아래에서 설명되는 세부사항들을 참조하여 기술될 것이며, 첨부 도면들은 다양한 실시예들을 도시할 것이다. 이후의 설명 및 도면들은 본 발명의 예시일 뿐, 본 발명을 제한하는 것으로 해석되지 않아야 한다. 본 발명의 다양한 실시예들에 대한 전반적인 이해를 제공하기 위해 다수의 구체적인 세부사항들이 기술된다. 그러나, 어떤 경우들에서, 본 발명들의 실시예들의 간결한 설명을 제공하기 위해 공지되거나 종래의 세부사항들은 기술되지 않는다.

본 명세서에서 "일 실시예" 또는 "실시예"에 대한 언급은 실시예와 함께 기술되는 특정한 특징, 구조, 또는 특성들이 본 발명의 적어도 하나의 실시예에 포함됨을 의미한다. 본 명세서의 다양한 부분들에서 "일 실시예에서"라는 문구의 등장들은 반드시 동일한 실시예를 모두 지칭하는 것은 아니다.

본 개시내용의 실시예들은 프로그램 코드의 취약성들을 평가하기 위한 방법들 및 시스템들을 개시한다. 일 실시예에 따라, 시스템은 소스 코드에 기초하는 컴파일러에 의해 생성된 중간 결과를 수신하며, 중간 결과는 잠재적으로 취약한 소스 코드의 하나 이상의 라인들을 표시하는 하나 이상의 취약성 표시자들을 포함한다. 시스템은 시드(seed) 입력들의 제 1 세트를 생성하기 위하여 중간 결과로부터 생성된 제 1 실행 코드에 대해 그레이 박스 퍼징 프로세스(grey box fuzzing process)를 수행한다. 시스템은 도달 가능(reachable) 하지만 그레이 박스 퍼징 프로세스에 의해 탐색되지 않은 소스 코드 영역들에 대한 취약성 표시자들의 개수에 기초하여 제 1 세트의 시드 입력들 각각에 대한 취약성 스코어(score)를 계산한다. 시스템은 가장 높은 취약성 스코어를 가지는 제 1 세트에서의 시드 입력들 중 하나를 선택한다. 시스템은 선택된 시드 입력을 우선 순위에 따라 사용함으로써 콘콜릭 실행(concolic execution)을 수행하며, 콘콜릭 실행은 중간 결과로부터 생성된 제 2 실행 코드에 대해 수행된다.

도 1은 일 실시예에 따라 데이터 처리 시스템을 도시하는 블록 다이어그램이다. 도 1을 참고하면, 데이터 처리 시스템(예를 들어, 호스트(host))(100)은 웹 또는 클라우드 서버들, 애플리케이션 서버들, 백엔드(backend) 서버들, 또는 이들의 조합과 같이 서버들의 클러스터 또는 서버를 포함하는 컴퓨팅 시스템의 임의의 종류일 수도 있다. 다른 실시예들에서, 시스템(100)은 개인 컴퓨터(예를 들어, 데스크탑들(desktops), 랩탑들(laptops), 그리고 타블랫들(tablets)), "씬(thin)" 클라이언트, 개인 휴대 정보 단말기(personal digital assistant, PDA), 웹 지원 전자기기(Web enabled appliance), 스마트 워치(Smartwatch), 또는 모바일 폰(예를 들어, 스마트 폰) 등과 같은 임의의 종류의 디바이스들일 수도 있다. 시스템(100)은 시스템(100)에 의해 제공되는 서비스들 또는 리소스들(resources)에 클라이언트가 접근하도록 허용하는 인터페이스(interface)를 포함할 수 있다. 서비스들의 예시들은 버그/취약성 분석, 퍼즈 테스팅, 콘콜릭 실행, 및 소프트웨어 프로그램 애플리케이션 소스 코드들에 대해서 우선순위화 된 하이브리드 퍼즈 테스팅 서비스들을 포함할 수 있다. 서비스들은 취약성-기반(Vulnerability-driven) 우선순위화 모듈(110)을 사용하여 수행될 수 있다. 시스템(100)은 개인 클라우드, 공용 클라우드, 또는 하이브리드 클라우드일 수도 있는, 클라우드를 통한 SaaS (Software-as-a-Service) 또는 PaaS (Platform-as-a-Service) 시스템의 일부로서 구성될 수도 있다. 인터페이스는 웹 인터페이스, 애플리케이션 프로그래밍 인터페이스(API), 및/또는 명령 라인 인터페이스(command line interface, CLI)를 포함할 수도 있다.

취약성-기반 우선순위화 모듈(110)은 취약성/검열기(sanitizer) 모듈(101), 기본 블록(basic block, BB) 매핑 모듈(105), 제어 흐름 그래프 모듈(103), 코디네이터 모듈(coordinator module)(107), 퍼징 모듈(109), 및 콘콜릭 실행 모듈(111)을 포함할 수 있다. 취약성/검열기 모듈(101)은 소프트웨어 프로그램의 소스 코드 내 잠재적 취약성들을 식별하는 도구(tool)일 수 있다. 이러한 취약성들은 메모리 손상(memory corruption), 데이터 불일치(data mismatch), 스레드(thread) 관련 버그들/취약성 등을 포함할 수 있다. 일 실시예에서, 모듈(101)은 컴파일러 'Clang'에 대해서 'Undefined Behavior Sanitizer'와 같은, 컴파일러의 프론트엔드(frontend) 또는 백엔드(backend)를 통해 취약성 레이블링(labeling)을 수행한다. 다른 일 실시예에서, 모듈(101)은 잠재적 취약성들을 포함하는 코드 영역들을 분석하고, 취약성 레이블들(labels)의 개수를 식별할 수 있는 독립형 분석기(standalone analyzer)이다. 또 다른 일 실시예에서, 소스 코드는 코드 분석에 대한 중간 결과로서, 중간 표시(intermediate representation, IR)로 변환될 수 있다.

흐름 제어 그래프(CFG) 모듈(103)은 소프트웨어 프로그램에 대해서 하나의 기본 블록(BB)에서 다른 블록으로 상이한 경로들 또는 제어 흐름들의 그래프를 식별하고 매핑할 수 있다. 여기서 기본 블록(또는 BB)는 소프트웨어 프로그램 내의 코드의 블록들 또는 코드의 하나 이상의 라인들을 포함하는 코드의 단위를 지칭한다. 그래프 매핑은 BB들을 함께 연결하는 하나 이상의 브랜치들(branches)을 설명하는 하나 이상의 튜플들(tuples)로서 저장된 트리 그래프(tree graph)일 수 있다. 주어진 소프트웨어 응용 프로그램에 대해, 모듈(103)은 소프트웨어 프로그램에서 함수들/절차들 각각의 하나 이상의 절차적(intraprocedural) CFG들을 생성하고, 그리고 모듈(103)은 소프트웨어 프로그램에 대한 절차간(inter-procedural) CFG를 생성하기 위해 함수들을 호출자-호출 수신자(caller-callee) 관계들에 의해 절차적(또는 함수-레벨(function-level)) CFG들과 연결한다. 함수에 대한 간접 호출들(indirect calls)을 해결하기 위해(예를 들어, 포인터들(pointers)을 통해서), 모듈(103)은 애플리케이션 프로그램 내의 포인터들에 대해 Andersen의 포인트간 분석(point-to analysis)을 수행하고, 포인터들이 함수 호출들을 가리키는 경우 임의의 호출들의 기능들을 확장할 수 있다. Andersen의 포인트간 분석은 어떤 포인터들 또는 더미 참조들(heap references)이 어떤 변수들을 가리키는지 분석하는 정적 코드 분석이다. 포인터들 분석은 예를 들어, 변수의 주소 지정, 포인터의 역참조(dereferencing), 한 변수에서 다른 변수로 포인터 복사, 포인터를 통한 할당 등, 4가지 명령어 유형들에 대한 분석을 포함할 수 있다. 다른 일 실시예에서, 모듈(103)은 동적 메모리 할당(dynamic memory allocation), 예를 들어, malloc 또는 새로운 메모리 동작들과 관련된 코드를 가지는 코드에 Anderson의 포인트간 분석을 적용시킬 수도 있다.

기본 블록(BB) 매핑 모듈(105)은 소프트웨어 프로그램 내의 BB 각각을 BB와 관련된 다수의 잠재적 취약성들로 매핑할 수 있다. 매핑은 BB들에 대한 하나 이상의 튜플들 및 BB들에 의해 도달 가능한 잠재적 취약성들의 이들의 관련 카운트(count)로서 저장될 수 있다. 코디네이터(coordinator) 모듈(107)은 하나 이상의 그레이 박스 퍼징 및/또는 콘콜릭 실행들을 조정할 수 있다. 퍼징 모듈(109)은 하나 이상의 시드 입력들을 생성하기 위해 소프트웨어 애플리케이션 프로그램에 대한 퍼징(예를 들어, 블랙 박스, 그레이 박스, 또는 화이트 박스 퍼징)을 수행할 수 있다. 콘콜릭 실행 모듈(111)은 하나 이상의 시드 입력들에 기초하여 소프트웨어 애플리케이션 프로그램에 대한 콘콜릭 실행을 수행할 수 있다. 참고로, 그레이 박스 퍼징은 커버리지 가이드된(guided) 퍼징을 의미하며, 따라서, 그레이 박스 퍼징은 애플리케이션 프로그램의 새로운 제어 경로들을 탐색하는 시드 입력들의 무작위 생성을 우선 순위화할 수 있다. 무작위 생성들의 예시들에는 스왑 바이트들(swap bytes), 시드 입력들의 역 비트들(reverse bits) 등과 같은 시드 입력들에 대한 변경들(mutations)을 포함한다. 참고로, BB들에 의해 도달 가능한 취약성들은 BB의 제어 흐름 내의 잠재적 취약성들/버그들을 의미한다.

일 실시예에서, 취약성-기반(vulnerability-driven) 우선순위화 모듈(110)은 분석을 위해 클라이언트로부터 애플리케이션 프로그램 소스 코드를 수신할 수도 있다. 소스 코드는 소스 코드(151)의 일부분으로서 메모리(150)에 저장될 수도 있다. 소스 코드의 중간 표시들(IR)(예를 들어, 중간 결과들)은 컴파일러에 의해 (IR 코드들(153)의 일부분으로서) 생성될 수 있다. CFG 모듈(103) 및 BB 매핑 모듈(105)은 그 다음에 IR 코드로부터 BB 매핑들 및 CFG들을 생성하기 위해 IR을 분석하고, 그리고 취약성들 분석에 대한 CFG/BB 맵들(155)의 일부분으로 이들을 저장한다.

도 2는 일 실시예에 따라 취약성 기반 하이브리드 퍼즈 테스트 방법에 대한 플로우 차트의 예시를 도시한 블록 다이어그램이다. 플로우 차트(200)는 소프트웨어 프로그램(들)에 대한 콘콜릭 실행들을 갖는 우선 순위화된 하이브리드 퍼징에 대한 동작들을 도시한다. 플로우 차트(200)는 소프트웨어, 하드웨어, 또는 이들의 조합을 포함할 수 있는 처리 로직에 의해 수행될 수도 있다. 일 실시예에서, 플로우 차트는 도 1의 시스템(100)에 의해 수행될 수 있다. 도 2를 참고하면, 처리 로직은 타겟(target) 프로그램(들)(201)을 수신한다. 타겟 프로그램(들)(201)은 임의의 프로그래머블(programmable) 언어들(C, C++, 자바(Java), 파이썬(python), 오브젝티브-C(objective-C), 자바스크립트(JavaScript), 등.)의 소스 코드들일 수 있다. 1 동작(operation 1)에서, 검열기 모듈을 갖는 컴파일러는 타겟 프로그램들의 소스 코드로부터 검열기 레이블들을 갖는 중간 표시(예를 들어, IR 코드)(203)를 생성한다. 검열기 모듈은 소스 코드의 하나 이상의 잠재적 취약성들을 표시하는 하나 이상의 컴파일러 삽입 검열기 코드들(예를 들어, 검열기/취약성 레이블들) 에 대응하는 하나 이상의 검열기 레이블들을 생성한다. 참고로, 중간 표시(IR)는 소스 코드를 표시하기 위한 버추얼 머신(virtual machine) 또는 컴파일러에 의해 내부적으로 사용되는 코드 또는 데이터 구조를 의미한다.

도 2를 참고하면, IR 코드(203)가 생성되는 경우, 2 동작에서, IR 코드(203)의 각각의 BB 내의 취약성 레이블들의 개수를 카운트하기 위한 IR 코드(203)에 대해 정적 분석이 수행된다. 처리 로직은 추가적으로 BB 식별자(ID)로 각각의 BB를 레이블링할 수 있고, BB 내의 (또는 이에 의해 도달 가능한) 취약성 레이블들의 개수로 BB ID에 대한 매핑을 생성할 수 있다. 참고로, BB는 엔트리(entry)를 제외하고 브랜치즈-인(branches-in)이 없고, 엑시트(exit)를 제외하고 브랜치즈-아웃(branches-out)이 없는 소스 라인 시퀀스(source line sequence)를 의미한다. 기본 블록들은 제어 흐름 그래프(CFG)에서 정점들(vertices) 또는 노드들(nodes)을 형성할 수 있다. CFG는 실행 중에 애플리케이션 프로그램을 통해 순회할 수 있는 모든 경로들의 표시(그래프 표기법을 사용하는)를 의미한다.

도 2를 참고하면, 3 동작에서, IR(203)은 2개의 실행 파일들(209-211)(그레이 박스 퍼징에 사용되는 제 1 실행 파일(209) 및 콘콜릭 실행에 사용되는 제 2 실행 파일(211))로 컴파일될(compiled) 수 있다. 여기서, 2개의 실행 파일들만 도시되어 있지만, 다수의 퍼징 및/또는 콘콜릭 실행들이 동시에 실행될 수 있도록 둘 이상의 실행 파일들이 생성될 수 있다. 일 실시예에서, BB 페어링 정보(BB pairing information)(207)가 생성될 수 있다. BB 페어링 정보(207)는 우선 순위 분석에 대한 타겟 프로그램의 CFG를 표시할 수 있다. BB 페어링 정보는 상위-하위(parent-child) 관계의 ID들에 의해 BB들을 이들의 에지들(edges)(또는, 브랜치들)에 매핑하는, 하나 이상의 매핑 튜플들을 포함할 수 있다. 에지들은 매핑되는 BB의 하위 BB들의 브랜치들에 대응한다.

도 2를 참고하면, 일 실시예에서, 퍼징 반복은 시드 입력들의 제 1 세트를 생성하기 위해 제 1의 컴파일된 실행 파일에 대해 수행된다. 퍼징 또는 퍼지(fuzz) 테스팅은 컴퓨터 프로그램에 대한 시드 입력들로 유효하지 않거나, 예정되지 않거나, 또는 무작위의 데이터를 생성하는 자동화된 소프트웨어 애플리케이션 프로그램 테스팅 기술을 의미한다. 일 실시예에서, 퍼징은 프로그램에 대해 발생된 예외들(예를 들어, 캐치/트라이(catch/try))를 모니터링(monitor)할 수 있다. 퍼저(fuzzer)는 블랙 박스, 그레이 박스, 또는 화이트 박스 퍼저일 수 있다. 블랙 박스 퍼저는 애플리케이션 프로그램을 블랙 박스로 취급하며, 퍼저는 프로그램의 내부 구조를 인식하지 못 한다. 화이트 박스 퍼저는 프로그램의 내부 구조에 접근할 수 있으며, 접근에 기초하여 프로그램의 상이한 경로들을 체계적으로 탐색할 수 있으나, 분석하는데 오랜 시간이 걸리기 때문에 실행 시간이 많이 소요된다. 그레이 박스 퍼저들은 프로그램의 구조에 대한 정보를 수집하기 위해 수단(instrumentation)을 이용할 수 있다. 예를 들어, 그레이 박스 퍼저는 추적기(tracer)를 이용하여 시드 입력에 대한 기본 블록 전환/브랜칭(branching)을 추적할 수 있으므로, 탐색되고 있는 소스 코드에 새로운 브랜치들이 있는지를 표시할 수 있다. 참고로, 수단은 성능의 레벨을 모니터링 또는 측정하고, 오류들을 진단하고, 및/또는 애플리케이션 프로그램의 추적 정보에 접근하는 기능일 수 있다.

일 실시예에서, 퍼징은 시드 입력들을 무작위로 생성한다. 다른 일 실시예에서, 퍼징은 기존 시드 입력들을 변경시키는 시드 입력들을 생성한다. 퍼징을 위한 사용자 구성은 시드 입력들을 무작위로 생성할지 또는 기존 시드 입력들을 수정하여 추가 시드 입력들을 생성할지를 선택할 수도 있다.

퍼징의 반복이 완료되고, 시드 입력들의 제 1 세트가 생성되면, 4 동작에서, 코디네이터는 제 1 세트의 시드 입력들 각각에 대한 취약성 스코어를 계산한다. 취약성 스코어는 도달 가능 하지만 시드 입력들에 대한 퍼저에 의해 탐색되지 않은 브랜치들의 취약성 레이블들의 카운트일 수 있다. 일 실시예에서, 시드 입력들에 대한 취약성 스코어들은 순서대로 정렬되고, 그리고 더 높은 취약성 스코어를 가지는 시드 입력은 콘콜릭 실행에 대한 입력으로서 우선순위화 된다. 여기서, 콘콜릭 실행은 제 2의 컴파일된 실행 파일에 의해 실행될 수 있다. 다른 일 실시예에서, 하나 이상의 콘콜릭 실행이 동시에 실행될 수 있다. 참고로, 콘콜릭 실행 또는 콘콜릭 테스팅은 특정 실행 경로를 따라 프로그램 변수들을 기호 변수들로 처리하는 기술인, 수단을 통한 기호 실행에 의한 테스팅을 의미한다. 참고로, 시드 입력들의 제 1 세트에 대한 도달 가능하지만 탐색되지 않은 경로들에 대해 콘콜릭 실행이 실행될 수 있다. 하나 이상의 콘콜릭 실행들에 기초하여, 시드 입력들의 제 2 세트는 취약성 기반(또는, 우선 순위화된) 방식(manner)으로 결정될 수 있다. 여기서, 이들의 범위(reach)에서 탐색되지 않은 잠재적 취약성들의 높은 카운트를 가지는 시드 입력들에게 우선 순위가 부여된다.

도 2를 참고하면, 5 동작에서, 시드 입력들의 제 2 세트는 시드 입력들의 제 1 세트와 병합하고, 코디네이터는 시드 입력들의 제 3 세트(제 1 세트 및 제 2 세트들에 고유한)를 생성하도록 제 2 반복에서 수행될 퍼징을 조정한다. 그리고, 출력은 시드 입력들의 제 4 세트를 생성하도록 하나 이상의 콘콜릭 실행들에 대한 입력들로서 제공된다. 소정의 시간이 경과할 때까지, 또는 반복이 취약성들 백분율 및/또는 카운트에 도달할 때까지 반복들을 반복할 수 있다. 일 실시예에서, 코디네이터는 모든 시드 입력들의 추적을 유지한다. 다른 일 실시예에서, 코디네이터는 새로운 취약성들 및/또는 브랜치들을 발견하지 않는 시드 입력들을 버리고, 고유한 브랜치들 및/또는 취약성들을 탐색하는 시드 입력들만 유지한다.

도 3은 일 실시예에 따라 잠재적 취약성에 대한 컴파일러 삽입 코드(compiler injected code)를 도시한 블록 다이어그램이다. 도 3을 참고하면, c = a + b의 동작들에 대한 출력을 프린트하는 C++ 소스 코드(301)가 도시되어 있다. 검열기를 가지는 컴파일러는 소스 코드(303)에 대한 코드 "int c = a+b"의 라인에 대한 IR 코드(303)를 생성할 수 있다. 여기서, IR 코드(303)는 코드 "int c=a+b"에 대한 정수 오버플로우 오류(integer overflow error)(예를 들어, 잠재적 취약성)를 캐치하는 핸들러(handler)이다. 정수 오버플로우 오류는 산술 동작의 결과가 결과 유형의 범위에서 표시될 수 없는 경우에 발생할 수 있다. 이는 a+b 동작의 결과가 [INT_MIN, INT_MAX]를 초과하는 경우에 발생할 수 있다.

도 4는 일 실시예에 따라 애플리케이션 프로그램에 대한 제어 흐름 그래프(control flow graph) 및 대응하는 매핑 튜플들(mapping tuples)의 예시이다. 도 4를 참고하면, CFG(400)는 ID들: ID (A1), ID (B1) 및 ID (B2), 및 ID들을 가지는 2개의 브랜치들: A1에서 B1로의 브랜치에 대한 ID(A1 -> B1) 및 A1에서 B2로의 브랜치에 대한 ID(A1 -> B1)을 가지는 3개의 기본 블록들을 포함할 수 있다. CFG(400)를 기반으로, 페어링 정보 또는 매핑 튜플들은 {<ID (A1): ID (A1-> B1)>, <ID (A1): ID (A1-> B2)>}로 생성될 수 있다.

도 5는 일 실시예에 따라 도달 가능한 취약성들을 가지는 기본 블록 매핑의 예시이다. 도 5를 참고하면, CFG(500)는 BB에 의해 앞으로 도달될 수 있는 다수의 취약성 레이블들을 도시한다. 여기서, 'Clang'에 대한 'undefined behavior sanitizer(UBSan)'는 IR 잠재적 취약성 코드 블록들을 생성하기 위해 사용된다. 도 5를 참고하면, BB(501)는 8개의 하위 BB들을 포함하고, 그 중 3개의 BB들(예를 들어, BB들(502-504))은 UBSan (또는 잠재적 취약성들)을 포함한다. 따라서, BB(501)는 BB(501)에 의해 도달 가능한 잠재적 취약성들의 개수에 대해 3의 카운트를 가진다. BB(501)에서 취약성 레이블링 번호로의 BB 매핑은 <ID (BB): number>(예를 들어 <501: 3>) 일 수 있다. BB매핑은 BB에 대응하는 시드 입력들에 대한 콘콜릭 실행들을 우선 순위화 하기 위해 코디네이터 모듈에 의해 사용될 수 있다.

도 6은 일 실시예에 따라 시나리오에 대한 취약성 스코어 연산의 예시이다. 도 6의 연산은 도 1의 코디네이터 모듈(107)과 같은, 코디네이터 모듈에 의해 수행될 수 있다. 도 6을 참고하면, 일 실시예에서, 코디네이터는 취약성 기반 하이브리드 그레이 박스 퍼징 및 콘콜릭 실행의 제 1 반복을 개시할 수 있다. 이 시나리오에서, 퍼징 반복은 CFG(600)를 가지는 애플리케이션 프로그램의 실행 파일에 의해 수행됐을 수도 있으며, 시드 입력들(601-602)을 생성했을 수도 있다. 여기서, 시드 입력들(601-602)은 BB의 D1 및 BB의 C5에 도달하는 경로들 각각에 대응할 수 있다. 시드 입력 생성은 스위칭 바이트들(switching bytes) 또는 플리핑 비트들(flipping bits)에 의해 무작위화 되거나 변경됐을 수도 있다. 다음으로, 취약성/버그 커버리지를 최대화하기 위해 콘콜릭 실행에 대한 더 높은 스코어를 가진 시드를 우선 순위화 하기 위해 시드 입력들(601 및 602) 각각에 대한 취약성 스코어가 계산된다.

도 6을 참고하면, CFG(600)는 애플리케이션 프로그램에 대한 제어 흐름 그래프(전술한 바와 같이)를 표시할 수 있다. 보다 구체적으로, CFG(600)은 트리 계층 구조에서 하나 이상의 BB들을 포함하며, BB 각각은 BB 각각에 의해 도달 가능한 다수의 취약성들 또는 버그들을 표시한다. 예를 들어, BB의 A1(A1:24로 표시된)은 주요 노드 A1이 24개의 도달 가능한 잠재적 취약성들을 가짐을 표시할 수 있다.

일 실시예에서, 취약성 스코어 연산은 시드 입력의 BB에 대응하는, 도달 가능하지만 탐색되지 않은 BB들의 개수에 기초하여 계산된다. 예를 들어, 시드 입력 또는 경로(601)는 A1에서 D1까지의 경로에 대응한다. 여기서, 경로(601)의 탐색된 BB들은 A1, B1, C1 및 D1을 포함한다. 경로(601)에 대한 탐색되지 않은 BB는 D2, C2, C3 및 C4를 포함한다. 탐색되지 않은 BB들에 기초하여, 일 실시예에서, 취약성 스코어는 도달 가능하지만 탐색되지 않은 BB들의 개수의 카운트에 대해서 도달 가능하지만 탐색되지 않은 잠재적 버그들의 총 개수를 평균화하는 것으로 인해 계산될 수 있다(예를 들어, 경로(601)의 스코어 = ¼ (4+5+3+4) = 4). 다른 일 실시예에서, 취약성 스코어는 가중 평균화(weighted averaging)에 대한 해결 시도들의 카운터(solving attempts counter)에 기초하여 계산될 수 있다.

A1에서 C5로의 경로에 대응하는 경로(602) 또는 시드 입력에 대해, 경로(602)에 대한 탐색된 BB들은 A1, B2, 및 C5를 포함한다. 경로(602)에 대한 탐색되지 않은 BB들은 C6을 포함한다. 탐색되지 않은 BB들을 기반으로, 취약성 스코어는 도달 가능하지만 탐색되지 않은 BB들의 개수의 카운트에 대해서 도달 가능하지만 탐색되지 않은 잠재적 버그들의 총 개수를 평균화하는 것으로 인해 계산될 수 있다(예를 들어, BB의 C6에 대해서 도달 가능한 취약성들/버그, 경로(602)에 대한 스코어 = 3). 경로들(601-602)의 계산된 취약성 스코어들에 기초하여, 코디네이터는 가장 큰 취약성 스코어를 가지는 시드 입력 (예를 들어, 4의 스코어를 가지는 경로(601))을 콘콜릭 실행에 대한 시드 입력으로 선택하게 된다. 여기서, 콘콜릭 실행은 시드 입력으로서 시드 입력(601)을 수신하는 것이다. 콘콜릭 실행은 시드 입력(601)을 리플레이하고, 경로(601)의 즉각적으로 도달 가능하지만 탐색되지 않은 BB들에 대한 시드 입력들을 결정하도록 브랜치 조건들을 탐색하기 위한 콘콜릭 실행을 수행한다(예를 들어, 콘콜릭 실행은 BB들: D2, C2, C3, 그리고 C4에 도달할 수 있는 시드 입력들을 결정함). 경로(601)에 대한 콘콜릭 실행이 수행된 이후에, 코디네이터는 취약성 스코어가 가장 높은 다음 시드 입력을 결정하게 된다(예를 들어, 시드 입력(602)). 그리고 시드 입력(602)은 다음으로 가장 높은 취약성 스코어인 3의 스코어를 가지므로 시드 입력(602)을 이용하여 콘콜릭 실행이 이어서 수행된다. 콘콜릭 실행은 경로(602)에 대응하는 임의의 즉각적으로 도달 가능하지만 탐색되지 않은 경로들에 대한 시드 입력들을 결정하기 위해 이어서 수행된다(예를 들어, 콘콜릭 실행은 BB의 C6에 도달할 수 있는 시드 입력을 결정함). 이용가능한 퍼징 시드 입력들에 대해 콘콜릭 실행이 수행된 후에, 일 실시예에서, 콘콜릭 실행 생성 시드 입력들은 재실행(rerun)을 위해 퍼저로 피드백 된다. 그 후 퍼저는 시드 입력들 각각이 버그 커버리지를 향상시키는지 여부에 기초하여 시드 입력들을 유지하거나 버릴 수 있다. 다른 일 실시예에서, 해결 시도들의 카운터는 발견되지 않은 브랜치들에 대해 증가될 수 있다. 따라서, 해결 시도 값이 훨씬 더 높은 브랜치는 탐색됐으므로 우선 순위가 낮을 것이다. 일 실시예에서, 코디네이터는 생성된 시드 입력들을 모니터링하고, 퍼징 및 우선 순위화된 콘콜릭 실행의 다른 반복을 개시한다. 다른 일 실시예에서, 퍼징 및 우선 순위화된 콘콜릭 실행들은 미리 결정된 시간 또는 반복들이 발생할 때까지 반복될 수 있다. 또 다른 일 실시예에서, 퍼징 및 우선 순위화된 콘콜릭 실행들은 버그 커버리지의 미리 결정된 백분율이 달성될 때까지 반복될 수 있다.

참고로, 취약성 스코어들은 보다 검증되지 않은 버그들로 이어질 수 있고, 반면에 장기적으로는 임의의 해결이 어려운 브랜치 조건들에 빠져서는 안되는 시드 입력들을 우선 순위화에 하는데 사용된다.

도 7은 일 실시예에 따라 방법을 도시하는 플로우 다이어그램이다. 프로세스(700)는 소프트웨어, 하드웨어, 또는 이들의 조합을 포함할 수도 있는 처리 로직에 의해 수행될 수도 있다. 예를 들어, 프로세스(700)는 도 1의 데이터 처리 시스템(100)에 의해 수행될 수도 있다. 도 7을 참고하면, 블록(701)에서, 처리 로직은 소스 코드에 기초하여 컴파일러에 의해 생성된 중간 결과(예를 들어, 컴파일러 삽입 취약성 코드들을 가지는 중간 표시)를 수신하며, 중간 결과는 잠재적으로 취약한 소스 코드의 하나 이상의 라인들을 표시하는 하나 이상의 취약성 표시자들을 포함한다. 블록(702)에서, 처리 로직은 시드 입력들의 제 1 세트를 생성하기 위해 중간 결과로부터 생성된 제 1 실행 코드에 대해 그레이 박스 퍼징 프로세서를 수행한다. 블록(703)에서, 처리 로직은 도달 가능하지만 그레이 박스 퍼징 프로세스에 의해 탐색되지 않은 소스 코드의 라인들에 대해 취약성 표시자들에 기초하여 제 1 세트의 시드 입력들 각각에 대한 취약성 스코어를 계산한다. 블록(704)에서, 처리 로직은 가장 높은 취약성 스코어를 가지는 제 1 세트의 시드 입력들 중 하나를 선택한다. 블록(705)에서 처리 로직은 선택된 시드 입력을 우선순위로서 이용하는 콘콜릭 실행을 수행하고, 콘콜릭 실행은 중간 결과로부터 생성된 제 2 실행 코드에 대해 수행된다.

일 실시예에서, 콘콜릭 실행들은 그레이 박스 퍼징 프로세스에 의해 탐색되지 않은 소스 코드의 하나 이상의 브랜치들을 탐색하도록 콘콜릭 실행의 프로그램 흐름 제어를 야기시키는 시드 입력들의 제 2 세트를 생성한다. 다른 일 실시예에서, 처리 로직은 추가적으로 시드 입력들의 제 2 세트를 시드 입력들의 제 1 세트에 추가하여, 제 2 세트의 하나 이상의 시드 입력들이 다음 반복동안 그레이 박스 퍼징 프로세스에 의해 이용되도록 한다.

일 실시예에서, 제 1 세트의 시드 입력들 각각에 대한 취약성 스코어를 계산하는 단계는 시드 입력에 대응하는 그레이 박스 퍼징 프로세스에 의해 탐색된 프로그램 제어 흐름을 식별하는 단계, 및 그레이 박스 퍼징 프로세스에 의해 탐색되지 않았지만 프로그램 제어 흐름에 의해 도달 가능한 취약성 표시자들의 개수에 기초하여 시드 입력에 대한 취약성 스코어를 계산하는 단계를 포함한다. 일 실시예에서, 가장 높은 취약성 스코어를 가지는 제 1 세트에서의 시드 입력들 중 하나를 선택하는 단계는 시드 입력들의 제 1 세트에 대한 콘콜릭 실행들을 우선 순위화 하기 위해 이들 각각의 취약성 스코어들에 기초하여 제 1 세트의 시드 입력들을 순서화하는 단계를 포함한다.

일 실시예에서, 처리 로직은 중간 결과로부터 코드의 복수의 기본 블록들을 추가적으로 식별한다. 기본 블록들 각각에 대해서, 처리 로직은 추가적으로 기본 블록 내의 다수의 취약성 표시자들을 결정하고, 그리고 기본 블록 각각의 블록 식별자(ID)를 기본 블록과 관련된 다수의 취약성 표시자들에 매핑하는 매핑 테이블을 생성하며, 여기서 매핑 테이블은 취약성 스코어를 계산하는 것에 사용된다. 다른 일 실시예에서, 제 1 세트의 시드 입력들 각각에 대한 취약성 스코어를 계산하는 단계는 시드 입력에 대응하는 중간 결과의 프로그램 제어 흐름에 기초하여 프로그램 제어 흐름 그래프(CFG)를 생성하는 단계, 및 시드 입력에 대해 취약성 스코어를 표시하기 위해 프로그램 CFG에 의해 탐색되지 않았지만 도달 가능한 모든 기본 블록들의 취약성 표시자들의 개수를 합산하는 단계를 포함하며, 여기서 합산하는 단계는 기본 블록과 관련된 다수의 취약성 표시자들을 결정하기 위해 매핑 테이블에서 룩업(lookup) 동작을 수행하는 것을 포함한다. 일 실시예에서, 취약성 표시자 중 적어도 하나는 컴파일러에 의해 삽입된 예외 스로우 및 캐치(throw/catch) 블록을 포함하며, 관련된 소스 코드의 라인이 실행 동안에 안전 규칙을 위반할 경우, 예외가 운영 체제에 의해 스로우되고 캐치된다.

참고로, 도시되고 상술한 바와 같이 구성 요소들 중 일부 또는 전부는 소프트웨어, 하드웨어, 또는 이들의 조합으로 구현될 수도 있다. 예를 들어, 이러한 구성 요소들은 본 출원 전체에서 기술되는 프로세스들 또는 동작들을 수행할 수 있는 프로세서(미도시)에 의해 메모리에 로딩 및 실행될 수 있는, 영구 저장 디바이스에 설치 및 저장되는 소프트웨어로서 구현될 수 있다. 대안적으로, 이러한 구성 요소들은 집적 회로(예를 들어, 애플리케이션 특정 IC 또는 ASIC), 디지털 신호 프로세서(DSP), 또는 필드 프로그래머블 게이트 어레이(field programmable gate array, FPGA)와 같이 전용 하드웨어에 프로그래밍 되거나 임베디드(embedded) 실행 코드로서 구현될 수 있으며, 이는 애플리케이션로부터의 대응하는 드라이버 및/또는 운영 체제를 통해 접근될 수 있다. 또한, 이러한 구성 요소들은 하나 이상의 특정 명령들을 통해 소프트웨어 구성 요소에 의해 접근 가능한 명령어 세트의 일부로서 프로세서 코어 또는 프로세서에서 특정 하드웨어 로직으로서 구현될 수 있다.

도 8은 일 실시예에 따라 데이터 처리 시스템(data processing system)을 도시한 블록 다이어그램이다. 예를 들어, 시스템(1500)은 예를 들어, 상술한 클라이언트 디바이스 또는 서버와 같은(예를 들어, 상술한 바와 같이 시스템(100)과 같은), 상술한 임의의 프로세스들 또는 방법들을 수행하는 상술한 임의의 데이터 처리 시스템들을 표시할 수도 있다.

시스템(1500)은 다수의 상이한 구성 요소들을 포함할 수 있다. 이러한 구성 요소들은 집적 회로(IC), 이들의 일부, 개별 전자 디바이스, 컴퓨터 시스템의 애드-인(add-in)카드 또는 마더보드(motherboard)와 같이 회로 보드에 적합한 다른 모듈들, 또는 컴퓨터 시스템의 전체 구조(chassis) 내에 포함된 구성 요소들로서 구현될 수 있다.

참고로, 또한 시스템(1500)은 컴퓨터 시스템의 많은 구성 요소들의 높은 레벨의 뷰(view)를 나타내도록 의도된다. 그러나, 추가적인 구성 요소들이 특정 구현들에 존재할 수도 있으며, 나아가, 도시되는 구성 요소들의 상이한 배열이 다른 구현들에서 발생할 수도 있음을 이해하여야 한다. 시스템(1500)은 데스크탑, 랩탑, 태블릿, 서버, 모바일 폰, 미디어 플레이어(media player), 개인 휴대 정보 단말기(PDA), 스마트 워치, 개인 통신기(communicator), 게임 디바이스, 네트워크 라우터(router)또는 허브, 무선 접근 포인트(AP) 또는 리피터(repeater), 셋-탑(set-top) 박스, 또는 이들의 조합을 표시할 수 있다. 또한, 단일 기기(machine) 또는 시스템만이 도시되어 있지만, 용어 "기기" 또는 "시스템"은 마찬가지로 본 명세서에서 논의된 임의의 하나 이상의 방법론들을 수행하기 위한 명령들의 한 세트를 개별적 또는 공동적으로 실행하는 기기들 또는 시스템들의 임의의 집합을 포함하는 것으로 간주되어야 한다.

일 실시예에서, 시스템(1500)은 버스 또는 인터커넥트(interconnect)(1510)를 통해 프로세서(1501), 메모리(1503) 및 디바이스들(1505-1508)을 포함한다. 프로세서(1501)는 단일 프로세서 또는 단일 프로세서 코어 또는 다중 프로세서 코어가 포함된 다중 프로세서들을 표시할 수도 있다. 프로세서(1501)는 마이크로 프로세서, 중앙 처리 디바이스(CPU) 등과 같은 하나 이상의 범용 프로세서를 나타낼 수 있다. 보다 구체적으로, 프로세서 (1501)는 복합 명령어 집합 컴퓨팅 (CISC) 마이크로 프로세서, 축소 명령어 집합 컴퓨팅 (RISC) 마이크로 프로세서, 훨씬 긴 명령어 워드 (VLIW) 마이크로 프로세서, 또는 다른 명령어 세트들을 구현하는 프로세서, 또는 명령어 세트들의 조합을 구현하는 프로세서들 일 수 있다. 프로세서(1501)는 또한, ASIC (application specific integrated circuit), 셀룰러(cellular) 또는 기저 대역 프로세서(baseband processor), FPGA (Field Programmable Gate Array), DSP (Digital Signal Processor), 네트워크 프로세서, 그래픽 프로세서, 통신 프로세서, 암호화 프로세서, 코-프로세서(co-processeor), 임베디드 프로세서, 또는 명령어들의 처리가 가능한 임의의 다른 유형의 로직과 같은, 하나 이상의 특수-목적(special-purpose) 프로세서들일 수 있다.

초-저전압(ultra-low voltage) 프로세서와 같은 저전력 멀티-코어 프로세서 소켓(socket)일 수도 있는 프로세서(1501)는 시스템의 다양한 구성 요소들과 통신하기 위한 메인 처리 유닛 및 중앙 허브로서 작동할 수도 있다. 이러한 프로세서는 SoC(system on chip)으로서 구현될 수 있다. 프로세서(1501)는 본 명세서에서 논의된 동작들 및 단계들을 수행하기 위한 명령들을 실행하도록 구성된다. 시스템(1500)은 디스플레이 컨트롤러, 그래픽 프로세서 및/또는 디스플레이 디바이스를 포함할 수 있는, 선택적인 그래픽 서브시스템(optional graphics subsystem)(1504)과 통신하는 그래픽 인터페이스를 더 포함할 수도 있다.

프로세서(1501)는 일 실시예에서 주어진 양의 시스템 메모리를 제공하기 위해 다수의 메모리 디바이스들을 통해 구현될 수 있는 메모리(1503)와 통신할 수 있다. 메모리 (1503)는 랜덤 액세스 메모리 (RAM), 동적 RAM (DRAM), 동기식 DRAM (SDRAM), 정적 RAM (SRAM), 또는 다른 유형들의 저장 디바이스들과 같은 하나 이상의 휘발성 저장(volatile storage)(또는 메모리) 디바이스들을 포함할 수 있다. 메모리 (1503)는 프로세서 (1501) 또는 임의의 다른 디바이스에 의해 실행되는 명령들의 시퀀스들을 포함하는 정보를 저장할 수도 있다. 예를 들어, 다양한 운영 체제들, 디바이스 드라이버들, 펌웨어(예를 들어, 입력 출력 기본 시스템 또는 BIOS), 및/또는 애플리케이션의 실행가능 코드 및/또는 데이터들은 메모리(1503)에 로딩되고 프로세서(1501)에 의해 실행될 수 있다. 운영 체제는, 예를 들어, Microsoft®의 Windows® 운영 체제, Apple의 Mac OS®/iOS®, Google의 Android®, Linux®, Unix® 또는 VxWorks와 같은 리얼-타임(real-time) 또는 임베디드 운영 체제들과 같은, 임의의 종류의 운영 체제들일 수 있다.

시스템(1500)은 네트워크 인터페이스 디바이스(들)(1505), 선택적인 입력 디바이스 (들)(1506) 및 다른 선택적인 IO 디바이스(들)(1507)를 포함하는 디바이스들(1505-1508)과 같은 IO 디바이스들을 더 포함할 수 있다. 네트워크 인터페이스 디바이스(1505)는 무선 트랜시버 및/또는 네트워크 인터페이스 카드(NIC)를 포함할 수도 있다. 무선 트랜시버(transceiver)는 WiFi 트랜시버, 적외선 트랜시버, 블루투스 트랜시버, WiMax 트랜시버, 무선 셀룰러 전화 트랜시버, 위성 트랜시버 (예를 들어, GPS (Global Positioning System) 트랜시버), 또는 다른 라디오 주파수(RF) 트랜시버 또는 이들의 조합일 수도 있다. NIC는 이더넷 카드(Ethernet card)일 수도 있습니다.

입력 디바이스(들)(1506)은 마우스, 터치 패드, 터치 감지 스크린(디스플레이 디바이스(1504)와 통합될 수도 있는), 스타일러스(stylus)와 같은 포인터 디바이스, 및/또는 키보드(예를 들어, 물리적 키보드 또는 터치 감지 스크린의 일부분으로 디스플레이된 가상 키보드)일 수도 있다. 예를 들어, 입력 디바이스(1506)는 터치 스크린에 연결된 터치 스크린 컨트롤러를 포함할 수도 있다. 터치 스크린 및 터치 스크린 컨트롤러는, 예를 들어, 터치 스크린과 하나 이상의 접촉점을 결정하기 위한 다른 근접 센서 어레이들 또는 다른 요소들뿐 아니라, 용량성, 저항성, 적외선 및 표면 탄성파(surface acoustic wave) 기술들을 포함하지만 이에 제한 되지 않는, 다수의 터치 감지 기술들 중 임의의 것을 사용하여 발생되는 접촉 및 움직임 또는 이의 중단(brake)을 감지할 수 있다.

IO 디바이스들(1507)은 오디오 디바이스를 포함할 수도 있다. 오디오 디바이스는 음성 인식, 음성 복제, 디지털 기록, 및. 또는 전화 기능들과 같은, 음성-가능(voice-enabled) 기능들을 용이하게 하는 스피커 및/또는 마이크로폰을 포함할 수도 있다. 다른 IO 디바이스들(1507)은 범용 직렬 버스(USB) 포트(들), 병렬 포트(들), 직렬 포트(들), 프린터, 네트워크 인터페이스, 버스 브리지 (예를 들어, PCI-PCI 브리지), 센서(들)(예를 들어, 가속도계, 자이로스코프, 자기력계(magnetometer), 광 센서, 나침반, 근접 센서 등과 같은 모션 센서) 또는 이들의 조합을 더 포함할 수도 있다. 디바이스들(1507)은, 사진들 및 비디오 클립들을 녹화하는 것과 같은 카메라 기능들을 용이하게 하기 위해 이용되는 고체촬상소자(charged coupled device, CCD) 또는 상보성 금속산화물 반도체 (complementary metal-oxide semiconductor, CMOS) 광학 센서와 같은 광학 센서를 포함할 수도 있는 이미징 처리 서브 시스템(예를 들어, 카메라)을 더 포함할 수 있다. 특성 센서들은 센서 허브(도시되지 않은)를 통해 인터커넥트(interconnect)(1510)에 연결될 수 있으며, 반면에, 키보드 또는 열 센서와 같은 다른 디바이스들은 시스템(1500)의 특정 구성 또는 설계에 따라 임베디드된 컨트롤러(미도시)에 의해 제어될 수도 있다.

데이터, 애플리케이션들, 하나 이상의 운영 체제들과 같은 정보의 영구 저장을 제공하기 위해, 대용량 저장소(mass storage)(미도시) 또한, 프로세서(1501)에 결합될 수도 있다. 다양한 실시예들에서, 시스템 응답성을 향상시킬 뿐 아니라, 더 얇고 더 가벼운 시스템 설계가 가능하도록, 이러한 대용량 저장소는 솔리드 스테이트 디바이스(solid state device, SSD)를 통해 구현될 수도 있다. 그러나, 다른 실시예들에서, 전원 차단 이벤트들 동안에 컨텍스트 상태(context state) 및 다른 기타 정보의 비-휘발성 저장이 가능하여 시스템 활동들의 재시작에 빠른 전원 공급이 가능하도록 하는 SSD 캐시로서 작동하는 적은 양의 SSD 저장소를 가지는 하드 디스크 드라이브(HDD)를 사용하여 대용량 저장소가 주로 구현될 수도 있다. 또한, 플래시 디바이스는 예를 들어, 직렬 주변 디바이스 인터페이스(SPI)를 통해 프로세서(1501)에 연결될 수도 있다. 이러한 플래시 디바이스는 시스템의 다른 펌웨어뿐만 아니라, 기본 입/출력 소프트웨어(BIOS)를 포함하여 시스템 소프트웨어의 비-휘발성 저장을 제공할 수도 있다.

저장 디바이스(1508)는 본 명세서에서 기술된 임의의 하나 이상의 방법론들 또는 기능들을 구현하는 명령들 또는 소프트웨어의 하나 이상의 세트들(예를 들어, 모듈, 유닛, 및/또는 로직(1528))이 저장된 컴퓨터-접근가능한 저장 매체(1509)(또한, 기기-판독가능 저장 매체 또는 컴퓨터-판독가능 매체라고도 하는)를 포함할 수도 있다. 처리 모듈/유닛/로직(1528)은 예를 들어, 도 1의 취약성 기반 우선순위화 모듈(110) 또는 시스템(100)과 같은 전술된 임의의 구성 요소들을 나타낼 수도 있다. 처리 모듈/유닛/로직(1528)은 데이터 처리 시스템(1500), 메모리(1503) 및, 기기-접근가능한 저장 매체를 구성하기도 하는 프로세서(1501)에 의해 실행 동안 메모리(1503) 내에 그리고/또는 프로세서(1501) 내에 완전히 또는 적어도 부분적으로 존재할 수 있다. 처리 모듈/유닛/로직(1528)은 추가로 네트워크 인터페이스 디바이스(1505)를 통해 네트워크를 통해 송신되거나 또는 수신될 수도 있다.

컴퓨터-판독가능 저장 매체(1509)는 또한, 전술한 일부 소프트웨어 기능들을 영구적으로 저장하는데 사용될 수도 있다. 컴퓨터-판독가능 저장 매체(1509)가 예시적인 실시예에서 단일 매체인 것으로 도시되어 있지만, "컴퓨터-판독가능 저장 매체"라는 용어는 단일 매체 또는 하나 이상의 명령어들의 세트들을 저장하는 다중 매체(예를 들어, 중앙 또는 분산 데이터베이스, 및/또는 관련된 캐시들 및 서버들)를 포함하는 것으로 간주되어야 한다. "컴퓨터-판독 가능 저장 매체"라는 용어는 또한, 기기에 의해 실행되는 명령들의 세트를 저장 또는 인코딩할 수 있고, 기기가 본 발명의 방법론들 중 임의의 하나 이상을 수행하게 하는 임의의 매체를 포함하는 것으로 간주되어야 한다. 따라서, "컴퓨터-판독 가능 저장 매체"라는 용어는 솔리드-스테이트 메모리, 및 광학 및 자기 매체, 또는 임의의 다른 비-일시적 기기-판독 가능 매체를 포함하지만 이에 제한되지는 않는다.

본 명세서에 기술된 처리 모듈/유닛/로직(1528), 구성요소들 및 다른 특징들은 이산 하드웨어 구성 요소들(discrete hardware components)로서 구현되거나 ASICS, FPGA, DSP 또는 유사한 디바이스들과 같은 하드웨어 구성 요소들의 기능에 통합될 수 있다. 추가적으로, 처리 모듈/유닛/로직(1528)은 하드웨어 디바이스 내에서 펌웨어 또는 기능 회로로서 구현될 수 있다. 또한, 처리 모듈/유닛/로직(1528)은 하드웨어 디바이스들 및 소프트웨어 구성요소들의 임의의 조합으로 구현될 수 있다.

참고로, 시스템(1500)이 데이터 처리 시스템의 다양한 구성 요소들로 도시되어 있지만, 구성 요소들을 상호 연결하는 임의의 특정 아키텍처(architecture) 또는 방식을 나타내도록 의도되지 않았으며; 이러한 세부 사항들은 본 발명의 실시예들과 밀접한 관련이 없다. 또한, 더 적은 구성 요소들 또는 아마도 더 많은 구성 요소들을 가지는 다른 데이터 처리 시스템들, 서버들, 모바일 폰들, 소형 컴퓨터들(handheld computers), 및/또는 네트워크 컴퓨터들이 또한 본 발명의 실시예들과 사용될 수도 있음이 이해될 것이다.

전술한 상세한 설명들의 몇몇 부분들은 컴퓨터 메모리 내의 데이터 비트들에 대한 동작들의 알고리즘 및 상징적 표시들의 관점에서 제시되고 있다. 이러한 알고리즘적 설명들 및 표시들은 데이터 처리 분야의 당업자들이 그들의 작업 내용을 다른 당업자들에게 가장 효과적으로 전달하기 위해 사용되는 방식들이다. 여기서, 알고리즘은 일반적으로, 원하는 결과를 도출하는 일관된 동작들의 시퀀스인 것으로 생각될 수 있다. 동작들은 이러한 물리적 수량들의 물리적 조작들이 요구된다.

그러나, 이들 및 유사한 용어들은 모두 적절한 물리적 수량들과 관련되어야 하며, 이들 수량들에 적용되는 단지 편리한 레이블들일 뿐임을 명심해야 한다. 상기 논의로부터 명백하게 달리 구체적으로 언급되지 않는 한, 설명 전반에 걸쳐, 아래의 청구 범위들에 제시된 것과 같은 용어들을 이용하는 논의들은, 컴퓨터 시스템의 레지스터들 및 메모리들 내의 물리적(전기적) 수량들로 표시된 데이터를 컴퓨터 시스템 메모리들 또는 레지스터들 또는 다른 그러한 정보 저장, 전송 또는 디스플레이 디바이스들 내의 물리적 수량들로 유사하게 표시되는 다른 데이터로 조작 및 변환하는, 컴퓨터 시스템 또는 유사한 전자 컴퓨팅 디바이스의 작동 및 프로세스들을 의미하는 것으로 이해된다.

도면들에서 도시되는 기술들은 하나 이상의 전자 디바이스들에 저장되고 실행되는 코드 및 데이터를 사용하여 구현될 수 있다. 이러한 전자 디바이스들은 비-일시적 컴퓨터-판독 가능 저장 매체(예를 들어, 자기 디스크, 광 디스크, 랜덤 액세스 메모리, 읽기 전용 메모리, 플래시 메모리 디바이스, 위상 변경 메모리) 및 일시적 컴퓨터-판독 가능 전송 매체(예를 들어, 전기, 광학, 음향 또는 기타 형태의 전파 신호(반송파, 적외선 신호, 디지털 신호와 같은))와 같은 컴퓨터-판독 가능 매체를 사용하여 코드 및 데이터를 저장하고 통신한다(네트워크를 통해 내부 및/또는 다른 전자 디바이스와).

전술한 도면들에 도시된 프로세스들 또는 방법들은 하드웨어(예를 들어, 회로, 전용 로직 등), 펌웨어, 소프트웨어 (예를 들어, 비 일시적 컴퓨터 판독 가능 매체에 구현되는) 또는 이들의 조합을 포함하는 처리 로직에 의해 수행될 수도 있다. 프로세스들 또는 방법들이 몇몇 순차적 동작들과 관련하여 위에서 설명되었음에도, 설명된 동작들 중 몇몇은 다른 순서로 수행될 수도 있음을 이해해야 한다. 또한, 몇몇 동작들은 순차적이 아닌 병렬로 수행될 수도 있다.

전술한 명세서에서, 본 발명의 실시예들은 특정 예시적인 실시예들을 참고하여 설명되었다. 다음의 청구 범위들에 기재된 본 발명의 더 넓은 사상 및 범위를 벗어나지 않고 다양한 변형들이 이루어질 수 있음이 명백할 것이다. 따라서, 명세서 및 도면들은 제한적인 의미보다는 예시적인 의미로 간주되어야 한다.

Claims

프로그램 코드의 취약성(vulnerability)을 평가하기 위한 컴퓨터-구현 방법으로서,
소스 코드에 기초하여 컴파일러에 의해 생성된 중간 결과(intermediate result)를 수신하는 단계 ― 상기 중간 결과는 잠재적으로 취약한 상기 소스 코드의 하나 이상의 라인들을 표시하는 하나 이상의 취약성 표시자(vulnerability indicator)들을 포함함 ―;
시드(seed) 입력들의 제 1 세트를 생성하기 위하여 상기 중간 결과로부터 생성된 제 1 실행 코드에 대해 그레이 박스 퍼징 프로세스(grey box fuzzing process)를 수행하는 단계;
도달 가능(reachable) 하지만 상기 그레이 박스 퍼징 프로세스에 의해 탐색되지 않은 상기 소스 코드의 상기 라인들에 대한 상기 취약성 표시자들에 기초하여 상기 제 1 세트의 상기 시드 입력들 각각에 대한 취약성 스코어(score)를 계산하는 단계;
가장 높은 취약성 스코어를 가지는, 상기 제 1 세트에서의 상기 시드 입력들 중 하나를 선택하는 단계; 및
상기 선택된 시드 입력을 우선 순위에 따라 사용함으로써 콘콜릭 실행(concolic execution)을 수행하는 단계 ― 상기 콘콜릭 실행은 상기 중간 결과로부터 생성된 제 2 실행 코드에 대해 수행됨 ―;
를 포함하는,
컴퓨터-구현 방법.
제 1 항에 있어서,
상기 콘콜릭 실행은 상기 그레이 박스 퍼징 프로세서에 의해 탐색되지 않은 상기 소스 코드의 하나 이상의 브랜치들(branches)을 탐색하기 위한 상기 콘콜릭 실행의 프로그램 흐름(flow) 제어를 발생시키는 시드 입력들의 제 2 세트를 생성하는,
컴퓨터-구현 방법.
제 2 항에 있어서,
시드 입력들의 상기 제 2 세트를 시드 입력들의 상기 제 1 세트에 부가하여, 상기 제 2 세트의 상기 하나 이상의 시드 입력들이 다음 반복 동안 상기 그레이 박스 퍼징 프로세스에 의해 이용되도록 하는 단계를 더 포함하는,
컴퓨터-구현 방법.
제 1 항에 있어서,
상기 제 1 세트의 상기 시드 입력들 각각에 대한 취약성 스코어를 계산하는 단계는:
상기 시드 입력에 대응하는 상기 그레이 박스 퍼징 프로세스에 의해 탐색된 프로그램 제어 흐름을 식별하는 단계; 및
상기 프로그램 제어 흐름에 의해 도달 가능 하지만 상기 그레이 박스 퍼징 프로세스에 의해 탐색되지 않은 다수의 취약성 표시자들에 기초하여 상기 시드 입력에 대한 상기 취약성 스코어를 계산하는 단계;
를 포함하는,
컴퓨터-구현 방법.
제 1 항에 있어서,
상기 가장 높은 취약성 스코어를 가지는, 상기 제 1 세트에서의 상기 시드 입력들 중 하나를 선택하는 단계는:
상기 시드 입력들의 상기 제 1 세트에 대한 콘콜릭 실행들을 우선 순위화 하기 위해서 상기 시드 입력들 각각에 대한 취약성 스코어들에 기초하여 상기 제 1 세트의 상기 시드 입력들을 순서화 하는 단계;
를 포함하는,
컴퓨터-구현 방법.
제 1 항에 있어서,
상기 중간 결과로부터의 코드의 복수의 기본 블록들을 식별하는 단계;
상기 기본 블록들 각각에 대해서, 상기 기본 블록 내부에 다수의 취약성 표시자들을 결정하는 단계; 및
기본 블록 각각의 블록 식별자(identifier, ID)를 상기 기본 블록과 관련된 다수의 취약성 표시자들로 매핑하는 매핑(mapping) 테이블을 생성하는 단계 ― 상기 매핑 테이블은 취약성 스코어를 계산하기 위해 이용됨 ―;
을 더 포함하는,
컴퓨터-구현 방법.
제 6 항에 있어서,
상기 제 1 세트의 상기 시드 입력들 각각에 대한 취약성 스코어를 계산하는 단계는:
상기 시드 입력에 대응하는 상기 중간 결과의 프로그램 제어 흐름에 기초하여 프로그램 제어 흐름 그래프(control flow graph, CFG)를 생성하는 단계; 및
상기 시드 입력에 대한 상기 취약성 스코어를 나타내도록 도달 가능 하지만 상기 프로그램 CFG에 의해 탐색되지 않은 모든 기본 블록들의 취약성 표시자들의 개수를 합산하는 단계 ― 상기 합산은 상기 기본 블록과 관련된 다수의 취약성 표시자들을 결정하기 위한 상기 매핑 테이블에서 룩업(lookup) 동작을 수행하는 것을 포함함 ―;
을 포함하는,
컴퓨터-구현 방법.
제 1 항에 있어서,
상기 취약성 표시자 중 적어도 하나는 상기 컴파일러에 의해 삽입된 예외 스로우(throw) 및 캐치(catch)(스로우/캐치) 블록을 포함하여, 소스 코드의 관련된 라인이 실행 동안 안전 규칙을 위반할 경우, 운영 체제에 의해 예외가 스로우되고 캐치되는,
컴퓨터-구현 방법.
프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금 동작들을 수행하도록 하는 명령들이 저장된 비-일시적 기기-판독가능 매체로서, 상기 동작들은:
소스 코드에 기초하여 컴파일러에 의해 생성된 중간 결과를 수신하는 동작 ― 상기 중간 결과는 잠재적으로 취약한 상기 소스 코드의 하나 이상의 라인들을 표시하는 하나 이상의 취약성 표시자들을 포함함 ―;
시드 입력들의 제 1 세트를 생성하기 위하여 상기 중간 결과로부터 생성된 제 1 실행 코드에 대해 그레이 박스 퍼징 프로세스를 수행하는 동작;
도달 가능 하지만 상기 그레이 박스 퍼징 프로세스에 의해 탐색되지 않은 상기 소스 코드의 상기 라인들에 대한 상기 취약성 표시자들에 기초하여 상기 제 1 세트의 상기 시드 입력들 각각에 대한 취약성 스코어를 계산하는 동작;
가장 높은 취약성 스코어를 가지는, 상기 제 1 세트에서의 상기 시드 입력들 중 하나를 선택하는 동작; 및
상기 선택된 시드 입력을 우선 순위에 따라 사용함으로써 콘콜릭 실행을 수행하는 동작 ― 상기 콘콜릭 실행은 상기 중간 결과로부터 생성된 제 2 실행 코드에 대해 수행됨 ―;
을 포함하는,
비-일시적 기기-판독가능 매체.
제 9 항에 있어서,
상기 콘콜릭 실행은 상기 그레이 박스 퍼징 프로세서에 의해 탐색되지 않은 상기 소스 코드의 하나 이상의 브랜치들을 탐색하기 위한 상기 콘콜릭 실행의 프로그램 흐름 제어를 발생시키는 시드 입력들의 제 2 세트를 생성하는,
비-일시적 기기-판독가능 매체.
제 10 항에 있어서,
상기 동작들은,
시드 입력들의 상기 제 2 세트를 시드 입력들의 상기 제 1 세트에 부가하여, 상기 제 2 세트의 상기 하나 이상의 시드 입력들이 다음 반복 동안 상기 그레이 박스 퍼징 프로세스에 의해 이용되도록 하는 동작을 더 포함하는,
비-일시적 기기-판독가능 매체.
제 9 항에 있어서,
상기 제 1 세트의 상기 시드 입력들 각각에 대한 취약성 스코어를 계산하는 동작은:
상기 시드 입력에 대응하는 상기 그레이 박스 퍼징 프로세스에 의해 탐색된 프로그램 제어 흐름을 식별하는 동작; 및
상기 프로그램 제어 흐름에 의해 도달 가능 하지만 상기 그레이 박스 퍼징 프로세스에 의해 탐색되지 않은 다수의 취약성 표시자들에 기초하여 상기 시드 입력에 대한 상기 취약성 스코어를 계산하는 동작;
을 포함하는,
비-일시적 기기-판독가능 매체.
제 9 항에 있어서,
상기 가장 높은 취약성 스코어를 가지는, 상기 제 1 세트에서의 상기 시드 입력들 중 하나를 선택하는 동작은:
상기 시드 입력들의 상기 제 1 세트에 대한 콘콜릭 실행들을 우선 순위화하기 위해서 상기 시드 입력들 각각에 대한 취약성 스코어들에 기초하여 상기 제 1 세트의 상기 시드 입력들을 순서화 하는 동작;
을 포함하는,
비-일시적 기기-판독가능 매체.
제 9 항에 있어서,
상기 동작들은,
상기 중간 결과로부터의 코드의 복수의 기본 블록들을 식별하는 동작;
상기 기본 블록들 각각에 대해서, 상기 기본 블록 내부에 다수의 취약성 표시자들을 결정하는 동작; 및
기본 블록 각각의 블록 식별자를 상기 기본 블록과 관련된 다수의 취약성 표시자들로 매핑하는 매핑 테이블을 생성하는 동작 ― 상기 매핑 테이블은 취약성 스코어를 계산하기 위해 이용됨 ―;
을 더 포함하는,
비-일시적 기기-판독가능 매체.
제 14 항에 있어서,
상기 제 1 세트의 상기 시드 입력들 각각에 대한 취약성 스코어를 계산하는 동작은:
상기 시드 입력에 대응하는 상기 중간 결과의 프로그램 제어 흐름에 기초하여 프로그램 제어 흐름 그래프(CFG)를 생성하는 동작; 및
상기 시드 입력에 대한 상기 취약성 스코어를 나타내도록 도달 가능 하지만 상기 프로그램 CFG에 의해 탐색되지 않은 모든 기본 블록들의 취약성 표시자들의 개수를 합산하는 동작 ― 상기 합산은 상기 기본 블록과 관련된 다수의 취약성 표시자들을 결정하기 위한 상기 매핑 테이블에서 룩업 동작을 수행하는 것을 포함함 ―;
을 포함하는,
비-일시적 기기-판독가능 매체.
제 9 항에 있어서,
상기 취약성 표시자 중 적어도 하나는 상기 컴파일러에 의해 삽입된 예외 스로우(throw) 및 캐치(catch)(스로우/캐치) 블록을 포함하여, 소스 코드의 관련된 라인이 실행 동안 안전 규칙을 위반할 경우, 운영 체제에 의해 예외가 스로우 되고 캐치되는,
비-일시적 기기-판독가능 매체.
데이터 처리(data processing) 시스템에 있어서,
프로세서; 및
상기 프로세서에 의해 실행되는 경우, 상기 프로세서로 하여금 동작들을 수행하도록 하는 명령들을 저장하기 위해 상기 프로세서와 연결된 메모리를 포함하고,
상기 동작들은:
소스 코드에 기초하여 컴파일러에 의해 생성된 중간 결과를 수신하는 동작 ― 상기 중간 결과는 잠재적으로 취약한 상기 소스 코드의 하나 이상의 라인들을 표시하는 하나 이상의 취약성 표시자들을 포함함 ―;
시드 입력들의 제 1 세트를 생성하기 위하여 상기 중간 결과로부터 생성된 제 1 실행 코드에 대해 그레이 박스 퍼징 프로세스를 수행하는 동작;
도달 가능 하지만 상기 그레이 박스 퍼징 프로세스에 의해 탐색되지 않은 상기 소스 코드의 상기 라인들에 대한 상기 취약성 표시자들에 기초하여 상기 제 1 세트의 상기 시드 입력들 각각에 대한 취약성 스코어를 계산하는 동작;
가장 높은 취약성 스코어를 가지는, 상기 제 1 세트에서의 상기 시드 입력들 중 하나를 선택하는 동작; 및
상기 선택된 시드 입력을 우선 순위에 따라 사용함으로써 콘콜릭 실행을 수행하는 동작 ― 상기 콘콜릭 실행은 상기 중간 결과로부터 생성된 제 2 실행 코드에 대해 수행됨 ―;
을 포함하는,
데이터 처리 시스템.
제 17 항에 있어서,
상기 콘콜릭 실행은 상기 그레이 박스 퍼징 프로세서에 의해 탐색되지 않은 상기 소스 코드의 하나 이상의 브랜치들을 탐색하기 위한 상기 콘콜릭 실행의 프로그램 흐름 제어를 발생시키는 시드 입력들의 제 2 세트를 생성하는,
데이터 처리 시스템.
제 18 항에 있어서,
상기 동작들은,
시드 입력들의 상기 제 2 세트를 시드 입력들의 상기 제 1 세트에 부가하여, 상기 제 2 세트의 상기 하나 이상의 시드 입력들이 다음 반복 동안 상기 그레이 박스 퍼징 프로세스에 의해 이용되도록 하는 동작을 더 포함하는,
데이터 처리 시스템.
제 17 항에 있어서,
상기 제 1 세트의 상기 시드 입력들 각각에 대한 취약성 스코어를 계산하는 동작은:
상기 시드 입력에 대응하는 상기 그레이 박스 퍼징 프로세스에 의해 탐색된 프로그램 제어 흐름을 식별하는 동작; 및
상기 프로그램 제어 흐름에 의해 도달 가능 하지만 상기 그레이 박스 퍼징 프로세스에 의해 탐색되지 않은 다수의 취약성 표시자들에 기초하여 상기 시드 입력에 대한 상기 취약성 스코어를 계산하는 동작;
을 포함하는,
데이터 처리 시스템.
제 17 항에 있어서,
상기 가장 높은 취약성 스코어를 가지는, 상기 제 1 세트에서의 상기 시드 입력들 중 하나를 선택하는 동작은:
상기 시드 입력들의 상기 제 1 세트에 대한 콘콜릭 실행들을 우선 순위화 하기 위해서 상기 시드 입력들 각각에 대한 취약성 스코어들에 기초하여 상기 제 1 세트의 상기 시드 입력들을 순서화 하는 동작;
을 포함하는,
데이터 처리 시스템.