WO2021085983A1

WO2021085983A1 - 소스 코드에서 취약성을 탐지하기 위한 방법, 디바이스, 및 컴퓨터 판독가능 매체

Info

Publication number: WO2021085983A1
Application number: PCT/KR2020/014747
Authority: WO
Inventors: 최신형
Original assignee: 삼성전자 주식회사
Priority date: 2019-10-28
Filing date: 2020-10-27
Publication date: 2021-05-06
Also published as: US20220253533A1; KR20210050178A

Abstract

본 개시에 의해, 방법으로서, 소스 코드를 획득하는 동작; 상기 소스 코드를 파싱하여 값 할당 라인들을 추출하는 동작; 상기 값 할당 라인들 중, 키워드들에 기초하여 제 1 라인들을 탐지하는 동작; 상기 값 할당 라인들 중, 크리덴셜 (credential) 패턴들에 기초하여 제 2 라인들을 탐지하는 동작; 상기 제 1 라인들 중 소정의 조건을 충족하는 라인들의 개수에 기초하여, 상기 제 1 라인들 중 제 3 라인들을 결정하는 동작; 및 상기 제 2 라인들 및 상기 제 3 라인들의 취약성을 출력하는 동작; 을 포함하는 방법이 제공될 수 있다.

Description

소스 코드에서 취약성을 탐지하기 위한 방법, 디바이스, 및 컴퓨터 판독가능 매체

본 개시는 소스 코드에서 취약성 탐지하는 것에 관하고, 구체적으로, 소스 코드에 하드코딩된 (hard coded) 정보로 인한 취약성을 탐지하는 것에 관한다.

소스 코드는 사람이 읽을 수 있는 (human-readable) 프로그래밍 언어로 쓰여진 텍스트로서, 프로그램을 구성하는 요소이다. 컴퓨터는 컴파일러 (compiler) 를 통해 소스 코드를 판독함으로써 프로그램을 실행할 수 있다.

소스 코드는 프로그램의 구조나 알고리즘에 대한 데이터를 포함하므로, 소스 코드가 유출될 경우 해당 프로그램 개발자에게 불리할 수 있다. 하지만, 공중과 기술을 공유하여 프로그램의 신뢰성을 보장하고, 외부 개발자의 참여를 유도하여 다양한 환경에서 프로그램을 시험하기 위해, 소스 코드를 공개하는 오픈 소스 방식으로 프로그램을 개발하는 프로젝트가 증가하고 있다.

소프트웨어가 오픈 소스로 개발되는 경우, 소스 코드에 하드코딩된 (hard coded) 텍스트 또한 모두 공개되므로, 개발자들은 의도치 않게 기밀 정보, 예를 들어, API (application programming interface) 나 특정 정보에 액세스하는데 필요한 인증 정보를 해당 소스 코드에 남겨두지 않도록 조심해야 한다. 하지만, 프로젝트의 규모가 커져 그 프로젝트에 관여하는 사람의 수가 증가할수록, 기밀 정보가 소스 코드에 기록되는 실수가 발생할 가능성이 높아진다.

따라서, 소스 코드에서 취약성을 탐지하기 위한 기술의 개발이 요구되고 있다.

본 개시의 실시예들은, 소스 코드에서 취약성을 탐지하는 기술을 제공하기 위한 것이다.

상기 소스 코드는, 웹페이지를 통해 사용자로부터 전송된 액세스 정보에 기초하여 획득되는 방법이 제공될 수 있다.

상기 방법은 프로젝트 파일들을 획득하는 동작을 더 포함하고, 상기 소스 코드는 상기 프로젝트 파일들 중 코드 파일에 포함되는 방법이 제공될 수 있다.

상기 소스 코드를 획득하는 동작은, 상기 프로젝트 파일들 중 미디어 파일을 배제하는 동작을 포함하는 방법이 제공될 수 있다.

상기 값 할당 라인들은, 상기 소스 코드를 키 (key), 구분자 (separator), 및 값 (value) 으로 토큰화 (tokenizing) 함으로써 추출되는 방법이 제공될 수 있다.

상기 키워드들은 제 1 키워드 및 제 2 키워드를 포함하고, 상기 제 1 라인들은 상기 제 1 키워드에 연관된 라인을 포함하고, 상기 제 1 라인들을 탐지하는 동작은, 상기 제 2 키워드에 연관되면서 소정의 단어를 포함하는 라인을 배제하는 동작을 포함하는 방법이 제공될 수 있다.

상기 소정의 단어는 사전에 등재된 단어인 방법이 제공될 수 있다.

상기 제 1 라인들을 탐지하는 동작은, 상기 값 할당 라인들 중 상기 키워드들 중 적어도 하나에 연관되면서 암호화되어 있는 라인을 배제하는 동작을 포함하는 방법이 제공될 수 있다.

상기 크리덴셜 패턴들은 서비스 제공자들에 따라 서로 상이한 방법이 제공될 수 있다.

상기 제 2 라인들을 탐지하는 동작은, 상기 크리덴셜 패턴들 중 적어도 하나에 매칭되면서 소정의 엔트로피 조건을 충족하는 라인을 배제하는 동작을 포함하는 방법이 제공될 수 있다.

상기 소정의 조건은 유사도를 포함하는 방법이 제공될 수 있다.

상기 제 3 라인들을 결정하는 동작은, 상기 제 1 라인들 중 상기 소정의 조건을 충족하는 상기 라인들을 개수에 기초하여 상기 라인들을 배제하는 동작을 포함하는 방법이 제공될 수 있다.

상기 소정의 조건을 충족하는 상기 라인들의 개수가 소정의 수보다 큰 경우, 상기 라인들이 배제되는 방법이 제공될 수 있다.

상기 소정의 수는 10인 방법이 제공될 수 있다.

상기 방법은, 상기 제 2 라인들 또는 상기 제 3 라인들을 포함하는 파일들의 파일경로 및 파일이름을 식별하는 동작을 포함하고, 상기 제 2 라인들 및 상기 제 3 라인들의 취약성은, 상기 파일경로 및 상기 파일이름에 기초하여 출력되는 방법이 제공될 수 있다.

파일경로 또는 파일이름에 소정의 단어가 포함된 라인은, 파일경로 또는 파일이름에 상기 소정의 단어가 포함되지 않은 라인보다 더 적은 취약성을 가지는 방법이 제공될 수 있다.

상기 방법은, 상기 제 2 라인들에 기초하여 서비스 제공자들로의 접속성 (connectivity) 을 결정하는 동작을 포함하고, 상기 제 2 라인들의 취약성은 상기 접속성에 기초하여 출력되는 방법이 제공될 수 있다.

상기 취약성은 웹페이지를 통해 사용자에게 제공되는 방법이 제공될 수 있다.

나아가, 본 개시에 의해, 디바이스로서, 인스트럭션들을 저장하는 컴퓨터 판독가능 매체; 및 프로세서를 포함하고, 상기 프로세서는 상기 인스트럭션들을 실행하여: 소스 코드를 획득하는 동작; 상기 소스 코드를 파싱하여 값 할당 라인들을 추출하는 동작; 상기 값 할당 라인들 중, 키워드들에 기초하여 제 1 라인들을 탐지하는 동작; 상기 값 할당 라인들 중, 크리덴셜 (credential) 패턴들에 기초하여 제 2 라인들을 탐지하는 동작; 상기 제 1 라인들 중 소정의 조건을 충족하는 라인들의 개수에 기초하여, 상기 제 1 라인들 중 제 3 라인들을 결정하는 동작; 및 상기 제 2 라인들 및 상기 제 3 라인들의 취약성을 출력하는 동작; 을 수행하도록 구성되는 디바이스가 제공될 수 있다.

나아가, 본 개시에 의해, 인스트럭션들을 저장하는 컴퓨터 판독 가능 매체로서, 상기 인스트럭션들은 프로세서에 의해 실행되는 경우 상기 프로세서로 하여금, 소스 코드를 획득하는 동작; 상기 소스 코드를 파싱하여 값 할당 라인들을 추출하는 동작; 상기 값 할당 라인들 중, 키워드들에 기초하여 제 1 라인들을 탐지하는 동작; 상기 값 할당 라인들 중, 크리덴셜 (credential) 패턴들에 기초하여 제 2 라인들을 탐지하는 동작; 상기 제 1 라인들 중 소정의 조건을 충족하는 라인들의 개수에 기초하여, 상기 제 1 라인들 중 제 3 라인들을 결정하는 동작; 및 상기 제 2 라인들 및 상기 제 3 라인들의 취약성을 출력하는 동작; 을 수행하게 하는 컴퓨터 판독 가능 매체가 제공될 수 있다.

도 1은 일 실시예에 따른 디바이스의 블록도이다.

도 2는 일 실시예에 따른 방법의 흐름도이다.

도 3은 일 실시예에 따른 파싱부의 블록도이다.

도 4는 일 실시예에 따른 취약 라인 탐지부의 블록도이다.

도 5는 일 실시예에 따라 키워드에 기초하여 취약 라인을 탐지하는 방법의 흐름도이다.

도 6은 일 실시예에 따라 크리덴셜 (credential) 패턴에 기초하여 취약 라인을 탐지하는 방법의 흐름도이다.

도 7은 일 실시예에 따른 취약성 출력부의 블록도이다.

도 8은 일 실시예에 따라 유사도에 기초하여 라인들을 분류하는 방법의 흐름도이다.

도 9는 일 실시예에 따라 취약성의 등급을 분류하는 방법의 흐름도이다.

도 10은 일 실시예에 따른 자동 취약성 분석 시스템의 블록도이다.

도 11은 일 실시예에 따른 서버의 동작 방식을 설명하기 위한 도면이다.

도 12는 크리덴셜 스캐너의 설정 파일의 예시적인 소스 코드를 도시한다.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.

아래에서는 첨부한 도면을 참고하여 실시예들에 대하여 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 실시예들은 다양한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고, 도면에서 실시예들을 명확하게 설명하기 위해 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

용어는 다양한 실시예에 따른 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 개시에서 사용되는 용어는 단순히 그 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 개시 전반에 걸친 내용을 토대로 정의되어야 한다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수개의 표현을 포함한다. "포함하다" 또는 "가지다" 등의 용어는 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다. 특히, 숫자들은 이해를 돕기 위한 예로서, 기재된 숫자들에 의해 실시예들이 한정되는 것으로 이해되지 말아야 한다.

또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.

명세서 전체에서 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서 이하에서 언급되는 "제1 구성요소"는 실시예의 기술적 사상 내에서 "제2 구성요소"일 수도 있음은 물론이다.

"적어도 하나의"와 같은 표현은, 구성요소들의 리스트 전체를 수식하고, 그 리스트의 구성요소들을 개별적으로 수식하지 않는다. 예를 들어, "A, B, 및 C 중 적어도 하나"는 오직 A, 오직 B, 오직 C, A와 B 모두, B와 C 모두, A와 C 모두, A와 B와 C 전체, 또는 그 조합을 가리킨다.

명세서 전체에서 전자 디바이스는 스마트폰, 태블릿, 휴대폰, PDA (personal digital assistant), 미디어 플레이어, PMP (Portable Multimedia Player), 전자책 단말기, 디지털방송용 단말기, PC (Personal Computer), 노트북 (laptop), 마이크로 서버, GPS (global positioning system) 장치, 네비게이션, 키오스크, MP3 플레이어, 스마트 TV, 디지털 카메라 및 기타 모바일, 또는, 비모바일 컴퓨팅 장치일 수 있으나, 이에 제한되지 않는다.

일 실시예에 따르면, 소스 코드에서 취약 라인이 탐지되고, 탐지된 라인의 취약성이 출력될 수 있다. 따라서, 오픈 소스 프로그램의 소스 코드의 공개 전, 소스 코드의 취약성을 검사함으로써, 기밀 정보 유출로 인한 사고가 예방될 수 있다.

본 개시에서 취약 라인은 소스 코드에서, 기밀 정보, 예를 들어, API (application programming interface) 나 특정 정보에 액세스하는데 필요한 인증 정보를 포함하거나, 포함하는 것으로 결정되는 라인을 가리킨다. 취약 라인이 소스 코드와 함께 공개되는 경우, 취약 라인에 포함된 기밀 정보가 부당이용될(exploited) 수 있다.

본 개시에서 라인의 취약성은, 해당 라인이 기밀 정보를 포함하거나, 포함하는 것으로 결정되었음을 나타낸다. 취약성은 취약성의 정도를 가리킬 수 있으며, 취약성의 정도는, 해당 라인에 포함된 기밀 정보의 중요도, 해당 라인과 유사한 라인의 존재 여부, 유사한 라인들의 수, 등에 기초하여 결정될 수 있다.

도 1은 일 실시예에 따른 디바이스의 블록도이다.

도 1을 참조하면, 일 실시예에 따른 디바이스(100) 는 파싱부 (110), 취약 라인 탐지부 (120), 및 취약성 출력부 (130) 를 포함할 수 있다. 파싱부 (110), 취약 라인 탐지부 (120), 및 취약성 출력부 (130) 는 대응하는 기능을 수행하는 모듈, 예를 들어, 소프트웨어 모듈로 구현될 수 있으나, 이에 제한되지 않고, 하드웨어 모듈로 구현되거나, 하드웨어 모듈과 소프트웨어 모듈의 조합으로 구현될 수 있다.

실시예들에 따라, 디바이스(100)는 전술된 유닛들의 수보다 더 많거나 더 적은 유닛들을 포함할 수 있다. 디바이스(100)에서 수행되는 동작들을 구별하여(distinctively) 설명하기 위해, 디바이스(100)의 유닛들이 개별적으로 명명되었을 뿐이므로, 디바이스(100)에서 수행되는 특정 동작이 반드시 특정 유닛에 의해 수행되는 것으로 이해되지 말아야 한다. 예를 들어, 본 개시에서 디바이스(100)의 특정 유닛에서 수행되는 것으로 묘사된 동작이 다른 유닛에서 수행될 수 있고, 디바이스(100)의 하나의 유닛에서 수행되는 것으로 묘사된 동작이 복수의 유닛들에서 수행될 수 있고, 디바이스(100)의 복수의 유닛들 간의 상호적 처리 (interactive processing) 에 의해 수행되는 것으로 묘사된 동작이 하나의 유닛에 의해 수행될 수도 있다. 나아가, 디바이스(100)에서 수행되는 것으로 묘사된 동작이 다른 디바이스에서 수행되거나, 다른 디바이스의 도움을 받아 수행될 수도 있다.

디바이스 (100) 는 메모리 및 프로세서를 포함할 수 있다. 디바이스 (100) 의 소프트웨어 모듈들, 예를 들어, 프로그램 모듈들은 인스트럭션들의 집합으로서 메모리에 저장될 수 있고, 인스트럭션들이 프로세서에 의해 실행됨으로써 대응하는 기능들이 수행될 수 있다.

파싱부(110)를 통해 정보가 파싱될 수 있다. 예를 들어, 파싱부(110)에 입력된 소스 코드 파일들이 파싱될 수 있다.

취약 라인 탐지부(120)를 통해, 소스 코드에서 취약 라인이 탐지될 수 있다. 취약 라인은, 기밀 정보, 예를 들어, API나 특정 정보에 액세스하는데 필요한 인증 정보를 포함하는 라인을 가리킨다. 취약 라인 탐지부(120)는 소스 코드에서, 암호, 키, 크리덴셜, 토큰, 등에 관련된 텍스트를 포함하는 라인을 탐지할 수 있다. 취약 라인은 소스 코드에서 기밀 정보에 대응하는 텍스트만을 가리키거나, 해당 텍스트를 포함하는 라인을 가리킬 수 있다.

본 명세서에서 라인은, 코드 라인 (lines of code) 뿐만 아니라, 주석 라인 (comment lines) 을 포함할 수 있다. 라인들은 물리적 라인 (physical lines) 뿐만 아니라, 논리적 라인 (logical lines) 으로 구분될 수 있다. 각각의 물리적 라인은 줄 바꿈 여부로 구분될 수 있고, 각각의 논리적 라인은 명령 (command) 으로 구분될 수 있다.

일 실시예에 따르면, 취약 라인 탐지부(120)를 통해, 키워드나 크리덴셜 패턴에 기초하여 소스 코드에서 취약 라인이 탐지될 수 있다.

취약성 출력부(130)를 통해, 탐지된 취약 라인의 취약성이 출력될 수 있다. 라인의 취약성은, 해당 라인이 기밀 정보를 포함하거나, 포함하는 것으로 결정되었음을 나타낸다. 일 실시예에 따르면, 취약성 출력부(130)를 통해, 탐지된 취약 라인들 중 실제로는 취약하지 않은 라인들이 분별되거나, 취약성의 정도에 따라 라인들이 분류될 수 있다.

본 개시의 일 실시예에 따라 소스 코드에서 취약성을 탐지하는 방법은, 도 2를 더 참조하여 설명한다.

도 2는 일 실시예에 따른 방법의 흐름도이다.

동작 210 에서 디바이스(100)는 소스 코드를 획득할 수 있다. 파싱부(110)를 통해 파일로부터 소스 코드가 획득될 수 있다. 복수의 파일들로부터 복수의 소스 코드 세트들이 획득될 수 있다. 소스 코드를 획득하는 방법은 도 3을 참조하여 후술할 것이다.

동작 220 에서 디바이스(100)는 소스 코드에서 값 할당 라인들 (value assignment lines)을 추출할 수 있다. 값 할당 라인들은 소스 코드에서 값이 할당된 라인들을 가리키고, 파싱부(110)를 통해 소스 코드를 파싱함으로써 추출될 수 있다. 소스 코드에서 값 할당 라인들을 추출하는 방법은 도 3을 참조하여 후술할 것이다.

동작 230 에서 디바이스(100)는 값 할당 라인들 중 제 1 라인들을 탐지할 수 있다. 취약 라인 탐지부(120)를 통해, 제 1 라인들이 키워드들에 기초하여 탐지될 수 있다. 제 1 라인을 탐지하는 방법은 도 5를 참조하여 후술할 것이다.

동작 240 에서 디바이스(100)는 값 할당 라인들 중 제 2 라인들을 탐지할 수 있다. 취약 라인 탐지부(120)를 통해, 제 2 라인들이 크리덴셜 (credential) 패턴들에 기초하여 탐지될 수 있다. 제 2 라인을 탐지하는 방법은 도 6을 참조하여 후술할 것이다

동작 250 에서 디바이스(100)는 제 1 라인들 중 제 3 라인들을 결정할 수 있다. 취약성 출력부(130)를 통해, 제 1 라인들 중 소정의 조건을 충족하는 라인들에 기초하여 제 3 라인들이 결정될 수 있다. 제 1 라인들 중 제 3 라인들을 결정하는 방법은 도 8을 참조하여 후술할 것이다.

동작 260 에서 디바이스(100)는 탐지된 라인들의 취약성을 출력할 수 있다. 예를 들어, 취약성 출력부(130)를 통해, 제 1 라인들 및 제 2 라인들의 취약성이 출력될 수 있다. 취약성 출력부(130)를 통해, 제 1 라인들 중 결정된 제 3 라인들, 및 제 2 라인들의 취약성이 출력될 수 있다. 라인들의 취약성 등급을 분류하는 방법은 도 9를 참조하여 후술할 것이다.

본 개시에서 크리덴셜 스캐너는, 소스 코드에서 취약 라인을 탐지하는 프로그램을 가리킬 수 있다.

한편, 실시예들에 따라, 디바이스(100)의 각각의 유닛, 예를 들어, 파싱부 (110), 취약 라인 탐지부 (120), 및 취약성 출력부 (130) 는 각각 하위 유닛들을 포함할 수 있다. 각각의 유닛의 하위 유닛들은 본 개시에서 묘사된 것보다 더 많거나 더 적을 수 있다. 각각의 유닛에서 수행되는 동작들을 구별하여 설명하기 위해 각각의 유닛에서 하부유닛들이 개별적으로 명명되었을 뿐이므로, 각각의 유닛에서 수행되는 특정 동작이 반드시 특정 하부 유닛에 의해 수행되는 것으로 이해되지 말아야 한다. 예를 들어, 본 개시에서 특정 하부 유닛에서 수행되는 것으로 묘사된 동작이 다른 하부 유닛에서 수행될 수 있고, 하나의 하부 유닛에서 수행되는 것으로 묘사된 동작이 복수의 하부 유닛들에서 수행될 수 있고, 복수의 하부 유닛들 간의 상호적 처리 (interactive processing) 에 의해 수행되는 것으로 묘사된 동작이 하나의 하부 유닛에 의해 수행될 수도 있다. 나아가, 특정 유닛에서 수행되는 것으로 묘사된 동작이 다른 유닛에서 수행되거나, 다른 유닛의 도움을 받아 수행될 수도 있다. 유닛과 하위 유닛들은 서로 계층(hierarchy) 관계에 있을 수 있으나, 각각의 유닛에서 수행되는 동작들을 구별하여 설명하기 위해 각각의 유닛에서 하부유닛들이 개별적으로 명명되었을 뿐이므로, 유닛과 하위 유닛들은 서로 계층 관계에 있지 않을 수도 있다.

본 개시의 일 실시예에 따른 디바이스(100)의 각 유닛에서 수행되는 동작들은 도 3 내지 도 9를 참조하여 설명한다.

도 3은 일 실시예에 따른 파싱부의 블록도이다.

도 3에 도시된 바와 같이, 디바이스(100)의 파싱부(110)는 파일 선택부(112), 파일 유형 결정부(114), 및 값 할당 라인 추출부(116)를 포함할 수 있다.

디바이스(100)는 파싱부(110)를 통해 소스 코드 파일들을 획득하여 파싱함으로써, 값 할당 라인들(L1)을 추출할 수 있다. 소스 코드는 파일로부터 획득될 수 있고, 프로젝트 파일들의 집합으로부터 복수의 소스 코드 세트들이 획득될 수 있다. 일 실시예에서, 소스 코드는 웹페이지를 통해 사용자로부터 전송된 액세스 정보에 기초하여 획득될 수 있다. 액세스 정보는 프로젝트 파일들의 위치를 나타낼 수 있고, 디바이스(100)로 액세스 정보를 통해 프로젝트 파일들에 액세스할 수 있다. 프로젝트 파일들은 디바이스(100) 외부의 저장소(repository)에 저장되어 있을 수 있다.

파일 선택부(112)를 통해, 프로젝트 파일들 중 검사될 파일들이 선택되거나 배제될 수 있다. 즉, 선택된 일부 파일들에 대해 검사가 수행되고, 배제된 파일들에 대해서는 검사가 수행되지 않을 수 있다. 따라서, 프로젝트 파일들의 취약성이 효율적으로 탐지될 수 있다. 일 실시예에 따르면, 프로젝트 파일들 중 취약 라인을 포함하지 않을 가능성이 높은 파일들, 예를 들어, 미디어 파일들이 검사에서 배제될 수 있다. 특정 파일들을 검사에서 배제하기 위해, 도 12의 4번째 라인에 기재된 바와 같이 크리덴셜 스캐너의 설정 파일에서, 배제될 파일의 확장자가 설정될 수 있다.

파일 유형 결정부(114)를 통해, 검사되는 파일의 파일 유형이 판별될 수 있다. 파일 유형은 파일의 확장자나 파일 시그니처(signature)에 기초하여 판별될 수 있다. 판별된 파일 유형에 따라 상이한 파서를 이용하여 파일이 파싱될 수 있다. 이때, 파일이 파싱 가능한 지 여부가 결정될 수 있고, 파싱이 가능한 파일만 파싱될 수 있다.

값 할당 라인 추출부 (116) 를 통해, 소스 코드가 파싱되어 소스 코드에서 값 할당 라인들(L1)이 추출될 수 있다. 소스 코드를 키 (key), 구분자(separator), 및 값 (value) 토큰화(tokenizing)함으로써, 값 할당 라인들(L1)이 소스 코드에서 추출될 수 있다. 즉, 값 할당 라인은 키, 구분자, 및 값을 포함하고, 키와 값은 구분자에 의해 구분될 수 있다. 구분자는 도 12의 10번째 라인에 기재된 바와 같이 등호 (=) 또는 콜론 (:) 일 수 있으나, 이에 제한되지 않는다. 구분자는 파싱되는 파일의 파일 유형에 따라 상이할 수 있다.

본 개시의 일 실시예에 따르면, 소스 코드에서 추출된 값 할당 라인들(L1) 중 취약 라인이 탐지될 수 있고, 이는 도 4를 참조하여 설명한다..

도 4는 일 실시예에 따른 취약 라인 탐지부의 블록도이다.

도 4를 참조하면, 디바이스(100)의 취약 라인 탐지부(120)는 제 1 라인 탐지부(121) 및 제 2 라인 탐지부(122)를 포함할 수 있다.

디바이스(100)의 취약 라인 탐지부(120)를 통해 소스 코드의 값 할당 라인들 (L1) 중에서 취약 라인들(L2)이 탐지될 수 있다. 취약 라인들(L2)은 키워드 또는 패턴에 기초하여 탐지될 수 있다. 본 개시에서 키워드에 기초하여 탐지되는 취약 라인(L2)은 제 1 라인으로 지칭될 수 있고, 패턴에 기초하여 탐지되는 취약 라인(L2)은 제 2 라인으로 지칭될 수 있다.

제 1 라인 탐지부(121)는 정형화되지 않거나 정형화되기 어려운 취약 라인(L2)을 탐지하기 위해, 특정 키워드를 포함하는 라인을 탐지할 수 있다. 제 2 라인 탐지부(122)는 상대적으로 정형화된 취약 라인(L2)을 탐지하기 위해, 특정한 패턴을 가지는 라인을 탐지할 수 있다.

일 실시예에서, 제 1 라인 탐지부(121)는 키워드 기반 추출부(121a), 화이트리스트 검증부(121b), 및 딕셔너리 검증부(121c)를 포함할 수 있고, 제 1 라인 탐지부(121)를 통해 키워드에 기초하여 제 1 라인을 탐지하는 방법은 도 5를 더 참조하여 설명한다.

동작 231에서 제 1 라인 탐지부(121)는, 소스 코드로부터 추출된 값 할당 라인들 (L1) 중에서, 키워드에 기초하여 라인을 추출할 수 있다. 키워드는 암호, 키, 크리덴셜, 토큰, 등에 관련된 키워드일 수 있다. 예를 들어, 도 12의 6번째 라인의 "Keywords" 에 기재된 바와 같이, 키워드는 "token", "credential", "api", "key", "credentials", 및 "secret"일 수 있으나, 이에 제한되지 않으며, 키워드는 도 12의 7번째 라인의 "dicKeywords"에 기재된 바와 같이, "password", "pw", 및 "pass"를 더 포함할 수 있다. 일 실시예에 따르면, 키워드 기반 추출부(121a)를 통해, 값 할당 라인들(L1) 중 상기 키워드를 포함하는 라인들이 추출될 수 있다. 값 할당 라인들(L1) 중 상기 키워드를 포함하는 라인들을 추출하기 위해, 예를 들어, 다음과 정규 표현식(regular expression)이 이용될 수 있다:

Regex(Key(Keywords, dicKeywords) + Separator(=, :) + Value)

상기 키워드를 포함하는 라인은, API 나 특정 정보에 액세스하는데 필요한 인증 정보와 연관된 라인, 즉 기밀 정보를 포함하는 라인일 확률이 높으므로, 해당 라인이 소스 코드에 포함된 채 공개될 경우 해당 프로그램의 취약점 (vulnerable point)으로 부당이용될(exploited) 수 있다. 따라서, 소스 코드의 공개 전에 이러한 취약 라인(L2)을 미리 탐지함으로써, 기밀 정보 유출로 인한 사고가 예방될 수 있다.

동작 232에서 제 1 라인 탐지부(121)는 추출된 라인이 화이트리스트에 해당하는지를 결정할 수 있다. 값 할당 라인들(L1) 중 키워드를 포함하는 라인이 모두 취약 라인(L2)이 아닐 수 있다. 따라서, 화이트리스트 검증부(121b)를 통해 화이트리스트에 해당하는 라인을 걸러냄(filtering out)으로써, 비취약 라인, 즉, 기밀 정보를 포함하지 않거나, 부당이용될 수 없는 것으로 결정된 라인이 배제될 수 있다. 예를 들어, 도 12의 8번째 라인에 기재된 바와 같이, 암호화된 라인이 화이트리스트에 포함될 수 있다. 라인이 암호화되어 있는지 여부는 해당 라인이 암호화에 연관된 정규 표현식을 포함하는지에 기초하여 결정될 수 있다. 여기서, 암호화된 라인은, 기밀 정보뿐만 아니라, 라인 전체가 암호화된 라인을 가리킬 수 있다. 암호화된 라인은 유출되더라도 취약점으로 부당 이용되기 불가능하거나 어려우므로, 암호화된 라인을 제 1 라인 리스트로부터 제외함으로써, 탐지된 취약 라인들(L2)의 FP (false positive) 비율이 감소할 수 있다.

동작 233에서 제 1 라인 탐지부(121)는 추출된 라인이 딕셔너리 검증이 필요한 라인인지 여부를 결정하여, 해당 라인에 대해 딕셔너리 검증을 수행할 수 있다. 일 실시예에 따르면, 화이트리스트 해당 여부의 결정과 딕셔너리 검증은 그 순서를 바꾸어 수행되거나 병렬적으로 수행될 수 있다.

동작 234에서 제 1 라인 탐지부(121)는 딕셔너리 검증을 통해, 추출된 라인들 중 소정의 단어를 더 포함하는 라인을 걸러낼 수 있다. 즉, 딕셔너리 검증을 통해, 추출된 라인이, 소스 코드에서 빈번하게 사용되고 사전에 등록된 단어를 더 포함하는지가 결정될 수 있다.

값 할당 라인들(L1) 중 키워드를 포함하는 라인이 모두 취약 라인(L2)이 아닐 수 있다. 따라서, 딕셔너리 검증부(121c)를 통해 소정의 단어를 더 포함하는 라인을 걸러냄으로써, 비취약 라인, 즉, 기밀 정보를 포함하지 않거나, 부당이용될 수 없는 것으로 결정된 라인이 배제될 수 있다. 예를 들어, 딕셔너리 검증부(121c)는 도 12의 7번째 라인에 기재된 dicKeyword, 즉, "password", "pw", 및 "pass"를 포함하는 라인에 대해서는, 딕셔너리 검증이 필요한 것으로 결정하여, 해당 라인이 소정의 단어, 예를 들어, 사전에 등록된 단어로서 소스 코드에서 빈번하게 사용되는 단어를 더 포함하는지를 결정할 수 있다. 딕셔너리 검증부(121c)는 소스 코드에서 빈번하게 사용되는 상위 k개의 단어셋을 참조할 수 있으며, 단어셋은 업데이트될 수 있다. "password", "pw", 및 "pass"는 사용자 인터페이스에서 자주 사용되어, 기밀 정보와는 다른 문맥에서 사용될 가능성이 높다. 따라서, 딕셔너리 검증을 통해 "password", "pw", 및 "pass"를 비롯하여, 소스 코드에서 빈번하게 사용되는 사전 등재 단어를 더 포함하는 라인을 배제함으로써, 탐지된 취약 라인들(L2)의 FP (false positive) 비율이 감소할 수 있다.

본 개시에서, 키워드들 중 딕셔너리 검증을 필요로 하지 않는 키워드는 제 1 키워드로 지칭될 수 있고, 딕셔너리 검증을 필요로 하는 키워드는 제 2 키워드로 지칭될 수 있다. 전술된 제 1 키워드, 예를 들어, token", "credential", "api", "key", "credentials", 및 "secret", 그리고, 제 2 키워드, 예를 들어, "password", "pw", 및 "pass"는 예시적이므로, 다양하게 변형될 수 있다.

일 실시예에서, 키 할당 라인들 (L1) 중 비취약 라인을 제외한 제 1 라인들 (L2a)이 제 1 라인 탐지부(121)에 의해 탐지될 수 있다. 일 실시예에 따르면, 취약 라인(L2)에 해당하지 않을 가능성이 높은 라인들은 제 1 라인(L2a)으로 탐지되지 않으므로, 탐지된 취약 라인들(L2)의 FP (false positive) 비율이 감소할 수 있다.

한편, 제 2 라인 탐지부(122)는 상대적으로 정형화된 취약 라인(L2)을 탐지하기 위해, 특정한 패턴을 가지는 라인을 탐지할 수 있다. 여기서 패턴은 다양한 서비스 제공자의 API에 액세스하기 위한 크리덴셜의 패턴일 수 있다.

일 실시예에서, 제 2 라인 탐지부(122)는 패턴 기반 추출부(122a), 및 엔트로피 검증부(122b)를 포함할 수 있고, 제 2 라인 탐지부(122)를 통해 패턴에 기초하여 제 2 라인을 탐지하는 방법은 도 6을 더 참조하여 설명한다.

동작 241에서 제 2 라인 탐지부(122)는 크리덴셜 패턴에 기초하여 값 할당 라인들 (L1) 중 라인들을 추출할 수 있다. 서비스 제공자에 상이한 인증 크리덴셜 패턴은 서비스 제공자에 따라 상이할 수 있다. 예를 들어, 도 12의 11번째 라인부터 26번째 라인에 기재된 바와 같이, 서비스 제공자 별로 상이한 크리덴셜 패턴이 정의될 수 있다. 일 실시예에 따르면, 패턴 기반 추출부(122a)를 통해, 값 할당 라인들(L1) 중에서, 정의된 크리덴셜 패턴과 매칭되는 부분을 포함하는 라인이 추출될 수 있다. 라인이 크리덴셜 패턴과 매칭되는 부분을 포함하는지 여부는, 해당 라인이 크리덴셜 패턴의 정규 표현식에 매칭되는 부분을 포함하는지에 기초하여 결정될 수 있다.

동작 242에서 제 2 라인 탐지부(122)는 추출된 라인이 엔트로피 검증이 필요한 라인인지 여부를 결정하여, 해당 라인에 대해 엔트로피 검증을 수행할 수 있다. 엔트로피 검증이 필요한 라인인지 여부는, 매칭된 크리덴셜 패턴에 따라 상이할 수 있다. 예를 들어, 도 12의 12, 15, 17-24번째 라인에 기재된 바와 같이, "entropy"의 값이 "true"인 크리덴셜 패턴에 매칭된 라인에 대해, 엔트로피 검증이 수행될 수 있다. 엔트로피 검증의 수행 여부는 크리덴셜 패턴이 단순한지, 크리덴셜 패턴에 크리덴셜임을 나타내는 식별자가 포함되는지에 기초하여 결정될 수 있다. 즉, 식별자를 포함하지 않음에도 불구하고 크리덴셜 패턴에 매칭되는 라인은 일반적으로 높은 엔트로피 값을 가지므로 취약 라인(L2), 즉, 제 2 라인(L2b)으로 탐지되어도 FP에 해당할 가능성이 거의 없으므로, 이러한 경우 엔트로피 검증을 스킵함으로써 검사 시간이 단축될 수 있다.

제 2 라인 탐지부(122)는 후술되는 동작 243 및 244 에서 엔트로피 검증을 통해, 추출된 라인들 중 엔트로피 값이 낮은 라인을 걸러낼 수 있다. 일반적으로 기밀 정보는 임의의 문자열의 조합으로 구성되므로, 상대적으로 높은 엔트로피 값을 가진다. 정의된 크리덴셜 패턴과 동일한 패턴을 가지는 라인이더라도 해당 라인, 또는 해당 패턴이 낮은 엔트로피 값을 가지는 경우 취약 라인이 아닐 가능성이 높다. 따라서, 엔트로피 검증을 통해, 정의된 크리덴셜 패턴과 동일한 패턴을 가지더라도 낮은 엔트로피 값을 가지는 라인을 배제함으로써, 탐지된 취약 라인들(L2)의 FP (false positive) 비율이 감소할 수 있다.

동작 243 에서 제 2 라인 탐지부(122)는 추출된 라인, 또는, 추출된 라인에서 크리덴셜 패턴과 매칭되는 부분에 대해 BASE64 엔트로피를 계산하여, 계산된 값이 소정의 조건을 충족하는지, 예를 들어, n1보다 큰지를 결정할 수 있다. n1보다 큰 BASE64 엔트로피 값을 갖는 라인은 제 2 라인(L2b)로 탐지될 수 있다. n1은 3일 수 있으나, 이에 제한되지 않는다. n1은 값 할당 라인들 (L1) 중 제 2 라인 (L2b) 를 탐지하는 과정에서 비취약 라인을 걸러내기 위해, 시뮬레이션을 통해 결정된 수이므로, n1은 전술된 값이 아닌 다른 적절한 값일 수 있다.

동작 244 에서 제 2 라인 탐지부(122)는, n1보다 작거나 n1과 동일한 BASE64 엔트로피 값을 갖는 라인, 또는, 그 라인에서 크리덴셜 패턴과 매칭되는 부분에 대해 HEX 엔트로피를 계산하여, 계산된 값이 소정의 조건을 충족하는지, 예를 들어, n2보다 큰지를 결정할 수 있다. n2보다 큰 HEX 엔트로피 값을 갖는 라인은 제 2 라인(L2b)로 탐지될 수 있다. n2는 4.5일 수 있으나, 이에 제한되지 않는다. n2는 값 할당 라인들 (L1) 중 제 2 라인 (L2b) 를 탐지하는 과정에서 비취약 라인을 걸러내기 위해, 시뮬레이션을 통해 결정된 수이므로, n2는 전술된 값이 아닌 다른 적절한 값일 수 있다.

일 실시예에 따르면, 243 및 244 동작들을 통해 엔트로피 검증이 수행되므로, 엔트로피 검증의 효율이 향상될 수 있다.

일 실시예에서, 키 할당 라인들 (L1) 중 비취약 라인을 제외한 제 2 라인들 (L2b)이 제 2 라인 탐지부(122)에 의해 탐지될 수 있다. 이에 따라, 취약 라인(L2)에 해당하지 않을 가능성이 높은 라인들은 제 2 라인(L2b)으로 탐지되지 않으므로, 탐지된 취약 라인들(L2)의 FP (false positive) 비율이 감소할 수 있다.

본 개시의 일 실시예에 따르면, 탐지된 취약 라인들 (L2) 의 취약성이 출력될 수 있고, 이는 도 7을 참조하여 설명한다.

도 7은 일 실시예에 따른 취약성 출력부의 블록도이다.

도 7을 참조하면, 디바이스(100)의 취약성 출력부(130)는 제 3 라인 결정부(131) 및 스코어링(scoring)부(132)를 포함할 수 있다.

디바이스(100)의 취약성 출력부(130)를 통해 탐지된 취약 라인들(L2)의 취약성이 출력될 수 있다. 라인의 취약성은, 해당 라인이 기밀 정보를 포함하거나, 포함하는 것으로 결정되었음을 나타낸다.

탐지된 취약 라인들(L2) 에, 실제로는 기밀 정보와 무관한 라인이 포함될 수 있다. 따라서, 제 3 라인 결정부(131)는 탐지된 취약 라인 중 FP 를 제거하기 위해, 취약 라인 탐지부(120) 를 통해 탐지된 취약 라인들(L2) 중 제 3 라인(L3)을 결정할 수 있다. 예를 들어, 제 3 라인 결정부(131)를 통해 소스 코드에서 반복적으로 기재된 라인을 걸러냄으로써, 비취약 라인, 즉, 기밀 정보와 무관하거나, 부당이용될 수 없는 것으로 결정된 라인이 배제될 수 있다. 이를 통해, 탐지 결과 중 FP (false positive) 비율이 감소하고, 검사 시간이 단축될 수 있다.

한편, 취약성은 취약성의 정도를 가리킬 수 있으며, 취약성의 정도는, 해당 라인에 포함된 기밀 정보의 중요도, 해당 라인과 유사한 라인의 존재 여부, 유사한 라인들의 수, 등에 기초하여 결정될 수 있다. 스코어링부(132)는 취약 라인의 취약성의 정도를 결정할 수 있다.

일 실시예에서, 제 3 라인 결정부(131)는 유사도 측정부(131a), 및 라인 분류부(131b)를 포함할 수 있고, 제 3 라인 결정부(131)를 통해 제 3 라인을 결정하는 방법은 도 8을 더 참조하여 설명한다.

동작 251에서 제 3 라인 결정부(131)는, 탐지된 취약 라인들(L2) 중 키워드에 기초하여 탐지된 라인들을 식별할 수 있다. 즉, 제 3 라인 결정부(131)는 제 1 라인 탐지부(121) 를 통해 탐지된 제 1 라인들 (L2a) 을 식별할 수 있다. 패턴은 임의의 문자들의 조합이지만, 키워드는 의미를 갖는 단어이기 때문에, 키워드에 기초하여 탐지된 제 1 라인들 (L2a) 은, 패턴에 기초하여 탐지된 제 2 라인들 (L2b) 보다 FP 비율이 높을 수 있다. 일 실시예에 따르면, 제 1 라인들 (L2a) 간의 유사도만 측정되므로, 검사 속도가 향상될 수 있다.

동작 252에서 제 3 라인 결정부(131)는, 라인들 간의 유사도를 결정할 수 있다. 즉, 제 3 라인 결정부(131)는 키워드에 기초하여 탐지된 제 1 라인들 (L2a) 간의 유사도를 결정할 수 있다. 소스 코드에서 반복되어 기재된 유사한 라인들은 기밀 정보와 무관할 확률이 높으므로, 키워드에 기초하여 탐지된 제 1 라인들 (L2a) 중에서 유사한 라인들을 걸러냄으로써, FP 비율이 감소할 수 있다.

일 실시예에서, 유사도 측정부(131a)를 통해, 키워드에 기초하여 탐지된 제 1 라인들 (L2a) 간의 유사도가 결정될 수 있다. 라인들 간의 유사도를 결정하기 위해 라인들 간의 레벤슈타인 거리가 측정될 수 있으나, 이에 제한되지 않고, 당업자에게 알려진 다른 알고리즘이 사용될 수 있다.

동작 253에서 제 3 라인 결정부(131)는 유사한 라인들을 분류할 수 있다. 즉, 제 3 라인 결정부(131)는 탐지된 취약 라인들 (L2) 중, 특히, 키워드에 기초하여 탐지된 제 1 라인들 (L2a) 중에서 유사한 라인들을 분류할 수 있다. 예를 들어, 제 1 라인들 (L2a) 간의 레벤슈타인 거리에 기초하여, 제 1 라인들 (L2a) 중 유사한 라인들이 분류될 수 있다.

동작 254에서 제 3 라인 결정부(131)는 분류된 라인들의 개수가 소정 조건을 충족하는지, 예를 들어, n3보다 큰지를 결정할 수 있다. 일 실시예에서, 소스 코드에서 n3 보다 큰 횟수로 반복되는 유사한 라인들은 제외하고, 다른 라인과 상이한 라인 및 n3 이하로 반복된 유사한 라인들이 제 3 라인들(L3)로 결정될 수 있다. 즉, 제 3 라인 결정부(131)는 제 1 라인들 (L2a) 중 n3 보다 큰 횟수로 반복되는 유사한 라인들을 제외한, 다른 라인과 상이한 라인 및 n3 이하로 반복된 유사한 라인들을 제 3 라인들(L3)로 결정될 수 있다. n3은 10일 수 있으나, 이에 제한되지 않는다. n3는 제 1 라인들 (L2a) 중 비취약 라인을 걸러내기 위해 시뮬레이션을 통해 결정된 수이므로, n3는 전술된 값이 아닌 다른 적절한 값일 수 있다.

일 실시예에서, 취약성 출력부(130)는 소스 코드에서 특정 라인들의 취약성을 출력할 수 있다. 취약성 출력부(130)는 소스 코드에서 제 3 라인들 (L3) 이 취약할 수 있음을 출력할 수 있다. 취약성 출력부(130)는 제 1 라인들 (L2a) 중 결정된 제 3 라인들 (L3), 및 제 2 라인들 (L2b) 이 취약할 수 있음을 출력할 수 있다.

일 실시예에서, 제 3 라인 결정부(131)가 제 1 라인 탐지부(121)에 포함될 수 있다. 제 3 라인 결정부(131)가 제 1 라인 탐지부(121)에 포함되는 경우, 동작 251 은 생략될 수 있고, 제 1 라인 탐지부(121)에 포함된 제 3 라인 결정부(131)에 의해 결정된 제 3 라인들은, 제 2 라인 탐지부(122)에 의해 탐지된 제 2 라인들과 함께 취약 라인으로 취급되어, 그 취약성이 출력될 수 있다.

한편, 스코어링부(132)는 라인의 취약성의 정도를 결정하기 위해, 해당 라인에 연관된 소정의 동작들을 수행할 수 있다. 스코어링부(132)는 제 3 라인 결정부(131)를 통해 결정된 제 3 라인들(L3)의 취약성의 정도를 결정할 수 있다.

일 실시예에서, 스코어링부(132)는 파일경로 및 파일이름 분류부(132a), 및 접속성 결정부(132b)를 포함할 수 있고, 스코어링부(132)를 통해 취약 라인의 취약성을 결정하는 방법은 도 9를 더 참조하여 설명한다.

소스 코드는 애플리케이션의 테스트나 예제에 관한 내용을 포함할 수 있고, 소스 코드에서 테스트나 예제에 관한 라인들에 포함된 정보의 중요도는 상대적으로 낮을 수 있다. 따라서, 탐지된 취약 라인이 포함된 소스 코드가 테스트나 예제에 관한 경우, 해당 라인은 저위험군으로 분류될 수 있다.

동작 261에서 스코어링부(132)는 라인이 포함된 파일의 파일경로 및 파일이름을 식별할 수 있다. 스코어링부(132)는 제 3 라인 결정부(131)에 의해 결정된 제 3 라인들 (L3)을 포함하는 파일들의 파일경로 및 파일이름을 식별할 수 있다. 스코어링부(132)는 제 1 라인들 (L2a) 중 결정된 제 3 라인들 (L3), 및 제 2 라인들(L2b)을 포함하는 파일들의 파일경로 및 파일이름을 식별할 수 있다.

동작 262에서 스코어링부(132)는 라인이 포함된 파일의 파일경로 또는 파일이름이 소정 단어를 포함하는지를 결정할 수 있다. 예를 들어, 소정 단어는 "test", "example", 등일 수 있으나, 이에 제한되지 않는다. 파일의 파일경로 또는 파일이름에 "test", 또는 "example" 이 포함되는 경우, 해당 파일은 애플리케이션의 테스트나 예제에 관할 확률이 높으므로, 해당 파일에 포함된 라인은 저위험군으로 분류될 수 있다.

한편, 크리덴셜 패턴에 매칭되는 라인을 통해, 해당 크리덴셜 패턴의 서비스 제공자로 접속이 가능한지에 기초하여, 해당 라인의 취약성의 정도가 결정될 수 있다. 서비스 제공자로의 접속성을 제공하는 라인은 고위험군으로 분류되고, 그렇지 않은 라인은 중위험군으로 분류될 수 있다.

동작 263에서 스코어링부(132)는 라인이 크리덴셜 패턴에 기초하여 탐지된 라인인지를 식별할 수 있다. 스코어링부(132)는, 동작 262 에서 저위험군으로 분류되지 않은 라인, 즉, 파일경로 또는 파일이름에 소정 단어를 포함하지 않는 파일의 라인이 크리덴셜 패턴에 기초하여 탐지된 라인인지를 식별할 수 있다. 키워드에 기초하여 탐지된 라인은 저위험군으로 분류되고, 크리덴셜 패턴에 기초하여 탐지된 라인은 중위험군 또는 고위험군으로 분류될 수 있다.

동작 264에서 스코어링부(132)는 라인의 서비스 제공자로의 접속성을 결정할 수 있다. 스코어링부(132)는 동작 262에서 저위험군으로 분류되지 않은 라인이, 크리덴셜 패턴에 기초하여 탐지된 라인인 경우, 즉, 제 2 라인들(L2b) 중 하나인 경우, 해당 라인을 통해, 해당 라인과 매칭되는 크리덴셜 패턴의 서비스 제공자로 접속이 가능한지를 결정할 수 있다. 크리덴셜 패턴에 기초하여 탐지된 라인에 대해서만 서비스 제공자로의 접속성을 테스트함으로써, 검사 속도가 향상될 수 있다.

동작 264 에서 서비스 제공자로의 접속성 테스트 결과, 서비스 제공자로 접속을 가능케 하는 라인은 고위험군으로 분류되고, 그렇지 않은 라인은 중위험군으로 분류될 수 있다.

일 실시예에서, 접속성 결정부(132b)가 제 2 라인 탐지부(122)에 포함될 수 있다. 접속성 결정부(132b)가 제 2 라인 탐지부(122)에 포함되는 경우, 동작 263 은 생략될 수 있고, 제 2 라인 탐지부(122)에 의해 탐지된 제 2 라인들(L2b) 에 대해 동작 264 가 수행될 수 있다. 동작 264가 수행된 이후, 제 2 라인들 (L2b) 중 서비스 제공자로의 접속성을 제공하지 않는 라인들이 포함된 파일의 파일경로 및 파일이름을 식별하여, 파일경로 또는 파일이름에 소정 단어가 포함된 라인의 취약성은 저위험을 갖고, 그렇지 않은 라인의 취약성은 중위험을 갖고, 서비스 제공자로의 접속성을 제공하는 라인의 취약성은 고위험을 갖는 것으로 출력될 수 있다.

도 10은 일 실시예에 따른 자동 취약성 분석 시스템 (automated vulnerability analysis system; AVAS)의 블록도이다.

자동 취약성 분석 시스템 (1000) 은 소프트웨어의 개발 환경에서 존재할 수 있는 취약성을 자동으로 분석할 수 있다. 예를 들어, 자동 취약성 분석 시스템 (1000) 은, 오픈 소스로 개발되는 소프트웨어의 소스 코드에 존재할 수 있는 취약성을 분석할 수 있다.

자동 취약성 분석 시스템 (1000) 은 웹 포탈 (1010) 및 크리덴셜 스캐너 (credential scanner)(1020) 를 포함할 수 있다. 실시예들에 따라, 자동 취약성 분석 시스템 (1000) 은 전술된 유닛들의 수보다 더 많거나 더 적은 수의 유닛들을 포함할 수 있다. 예를 들어, 자동 취약성 분석 시스템 (1000) 은 취약성을 분석하기 위한 다양한 모듈들을 더 포함할 수 있다. 일 실시예에 따른 디바이스 (100)는 자동 취약성 분석 시스템 (1000) 의 일부일 수 있다.

웹 포탈 (1010) 및 크리덴셜 스캐너 (1020) 는 대응하는 서비스를 제공하기 위해, 소프트웨어, 하드웨어, 또는 소프트웨어와 하드웨어의 결합으로 구현될 수 있으나, 이에 제한되지 않는다.

웹 포탈 (1010) 은 사용자가 자동 취약성 분석 시스템(1000)을 이용하기 위한 인터페이스를 제공하고, 크리덴셜 스캐너 (1020) 는 소스 코드를 검사하여 소스 코드에 크리덴셜과 같은 기밀 정보가 포함되어 있는지 결정할 수 있다. 크리덴셜 스캐너 (1020) 는 전술된 방법들을 통해 소스 코드에서 취약성을 탐지할 수 있다. 일 실시예에 따른 디바이스 (100) 에서 크리덴셜 스캐너(1020)의 일련의 동작들이 수행될 수 있다.

웹 포탈 (1010) 을 통해, 크리덴셜 스캐너 (1020) 로 소스 코드가 직접 업로드되거나, 소스 코드의 위치를 나타내거나 소스 코드에 액세스하게 하는 액세스 정보, 예를 들어, URL (uniform resource locator) 을 통해 소스 코드가 크리덴셜 스캐너 (1020) 에서 획득될 수 있다. 크리덴셜 스캐너 (1020) 는 저장소 (repository) 에 저장된 소스 코드를 획득할 수도 있다. 저장소는 자동 취약성 분석 시스템 (1000) 외부에 위치할 수 있다.

일 실시예에서 자동 취약성 분석 시스템 (1000) 은 복수의 서버들로 구성될 수 있다. 웹 포탈 (1010) 및 크리덴셜 스캐너 (1020) 는 별도의 서버로 구현될 수 있다. 서버로 구성된 자동 취약성 분석 시스템 (1000) 을 설명하기 위해 도 11을 참조한다.

자동 취약성 분석 시스템 (1000)은 웹 포탈 (1010), 프론트-엔드 서버(1110), 백-엔드 서버(1120), 및 데이터베이스 (1130) 로 구현될 수 있다.

사용자는 자동 취약성 분석 시스템 (1000) 에게 서비스 실행을 요청하여 요청 처리 결과를 제공받을 수 있다. 사용자의 클라이언트 디바이스 (2000) 는 웹 포탈 (1010) 을 통해 프론트-엔드 서버(1110)에 서비스 실행을 요청할 수 있고, 이로써, 사용자는 자동 취약성 분석 시스템 (1000) 에게 서비스 실행을 요청할 수 있다. 여기서, 소스 코드에서 취약성을 탐지하기 위한 요청이 웹 포탈 (1010) 을 통해 프론트-엔드 서버(1110)에게 전송될 수 있다.

프론트-엔드 서버(1110)는 직접 프로그램을 호출하여, 요청을 처리하고, 웹 포탈 (1010) 을 통해 클라이언트 디바이스(2000)에게 요청 처리 결과를 출력할 수 있으나, 프론트-엔드 서버(1110)로부터 백-엔드 서버(1120)에게 해당 요청이 전달되어 백-엔드 서버(1120)에서 처리될 수도 있다. 요청 처리 결과는 백-엔드 서버(1120)로부터 프론트-엔드 서버(1110)에게 전달되어, 웹 포탈 (1010)을 통해 클라이언트 디바이스(2000)에게 출력될 수 있고, 이로써, 자동 취약성 분석 시스템 (1000) 에 의해 요청 처리 결과가 사용자에게 제공될 수 있다. 백-엔드 서버(1120)는 요청을 처리하거나 정보를 저장하기 위해 데이터베이스 (1130) 에 액세스할 수 있다.

프론트-엔드 서버(1110)는 웹 서버로 지칭될 수 있다. 백-엔드 서버(1120)는 애플리케이션 서버, 웹 애플리케이션 서버로 지칭될 수 있다.

크리덴셜 스캐너(1020)는 백-엔드 서버(1120)에 위치할 수 있으나, 이에 제한되지 않는다.

서버의 기능을 분리하여 서버에 로드되는 부하를 분산시키고 보안을 강화하기 위해, 프론트-엔드 서버(1110) 및 백-엔드 서버(1120)는 물리적으로 분리된 별개의 서버들로 구현될 수 있으나, 이에 제한되지 않는다. 프론트-엔드 서버(1110) 및 백-엔드 서버(1120)는 물리적으로 하나의 서버로 구현될 수도 있다.

도 12는 이전 도면들을 참조하여 설명되었으므로, 중복 설명은 생략한다.

크리덴셜 스캐너는 설정 파일을 참조하여 소스 코드에서 취약 라인을 탐지할 수 있다. 크리덴셜 스캐너는 기본적으로 노말 모드 (normal mode) 에서 프로젝트 파일들을 검사하지만, 특정 파일들을 패스트 모드 (fast mode) 에서 검사함으로써 검사 효율을 향상시킬 수 있다.

실시예들은 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 실시예들은 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직 (logic), 룩업 테이블 (look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 각각의 구성들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 실시예들은 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바 (Java), 어셈블러 (assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 실시예들은 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. '메커니즘', '요소', '수단', '구성'과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들 (routines) 의 의미를 포함할 수 있다.

실시예들은 어떠한 방법으로도 본 개시의 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. 또한, '필수적인', '중요하게' 등과 같이 구체적인 언급이 없다면 실시예들에서 반드시 필요한 구성 요소가 아닐 수 있다.

본 개시, 특히 특허청구범위에서 '상기'의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 범위 (range) 가 기재된 실시예의 경우 상기 범위에 속하는 개별적인 값을 적용한 것을 포함하는 것으로서 (이에 반하는 기재가 없다면), 상기 범위를 구성하는 각각의 개별적인 값을 기재한 것과 같은 것으로 이해되어야 한다. 실시예에 따른 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 상기 단계들의 기재 순서에 따라 실시예가 한정되는 것은 아니다. 모든 예들 또는 예시적인 용어 (예들 들어, 등등) 의 사용은 단순히 실시예들을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 본 개시의 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

Claims

방법으로서,

소스 코드를 획득하는 동작;

상기 소스 코드를 파싱하여 값 할당 라인들을 추출하는 동작;

상기 값 할당 라인들 중, 키워드들에 기초하여 제 1 라인들을 탐지하는 동작;

상기 값 할당 라인들 중, 크리덴셜 (credential) 패턴들에 기초하여 제 2 라인들을 탐지하는 동작;

상기 제 1 라인들 중 소정의 조건을 충족하는 라인들의 개수에 기초하여, 상기 제 1 라인들 중 제 3 라인들을 결정하는 동작; 및

상기 제 2 라인들 및 상기 제 3 라인들의 취약성을 출력하는 동작;

을 포함하는 방법.
제 1 항에 있어서,

상기 소스 코드는, 웹페이지를 통해 사용자로부터 전송된 액세스 정보에 기초하여 획득되는 방법.
제 1 항에 있어서,

상기 방법은 프로젝트 파일들을 획득하는 동작을 더 포함하고,

상기 소스 코드는 상기 프로젝트 파일들 중 코드 파일에 포함되는 방법.
제 3 항에 있어서,

상기 소스 코드를 획득하는 동작은, 상기 프로젝트 파일들 중 미디어 파일을 배제하는 동작을 포함하는 방법.
제 1 항에 있어서,

상기 값 할당 라인들은, 상기 소스 코드를 키 (key), 구분자 (separator), 및 값 (value) 으로 토큰화 (tokenizing) 함으로써 추출되는 방법.
제 1 항에 있어서,

상기 키워드들은 제 1 키워드 및 제 2 키워드를 포함하고,

상기 제 1 라인들은 상기 제 1 키워드에 연관된 라인을 포함하고,

상기 제 1 라인들을 탐지하는 동작은, 상기 제 2 키워드에 연관되면서 사전에 등재된 소정의 단어를 포함하는 라인을 배제하는 동작을 포함하는 방법.
제 1 항에 있어서,

상기 제 1 라인들을 탐지하는 동작은, 상기 값 할당 라인들 중 상기 키워드들 중 적어도 하나에 연관되면서 암호화되어 있는 라인을 배제하는 동작을 포함하는 방법.
제 1 항에 있어서,

상기 크리덴셜 패턴들은 서비스 제공자들에 따라 서로 상이한 방법.
제 1 항에 있어서,

상기 제 2 라인들을 탐지하는 동작은, 상기 크리덴셜 패턴들 중 적어도 하나에 매칭되면서 소정의 엔트로피 조건을 충족하는 라인을 배제하는 동작을 포함하는 방법.
제 1 항에 있어서,

상기 소정의 조건은 유사도를 포함하는 방법.
제 1 항에 있어서,

상기 제 3 라인들을 결정하는 동작은, 상기 제 1 라인들 중 상기 소정의 조건을 충족하는 상기 라인들을 개수가 소정의 수보다 큰 경우 상기 라인들을 배제하는 동작을 포함하는 방법.
제 1 항에 있어서,

상기 방법은, 상기 제 2 라인들 또는 상기 제 3 라인들을 포함하는 파일들의 파일경로 및 파일이름을 식별하는 동작을 포함하고,

상기 제 2 라인들 및 상기 제 3 라인들의 취약성은, 상기 파일경로 및 상기 파일이름에 기초하여 출력되는 방법.
제 1 항에 있어서,

상기 방법은, 상기 제 2 라인들에 기초하여 서비스 제공자들로의 접속성 (connectivity) 을 결정하는 동작을 포함하고,

상기 제 2 라인들의 취약성은 상기 접속성에 기초하여 출력되는 방법.
디바이스로서,

인스트럭션들을 저장하는 컴퓨터 판독가능 매체; 및

프로세서를 포함하고,

상기 프로세서는 상기 인스트럭션들을 실행하여:

소스 코드를 획득하는 동작;

상기 소스 코드를 파싱하여 값 할당 라인들을 추출하는 동작;

상기 값 할당 라인들 중, 키워드들에 기초하여 제 1 라인들을 탐지하는 동작;

상기 값 할당 라인들 중, 크리덴셜 (credential) 패턴들에 기초하여 제 2 라인들을 탐지하는 동작;

상기 제 1 라인들 중 소정의 조건을 충족하는 라인들의 개수에 기초하여, 상기 제 1 라인들 중 제 3 라인들을 결정하는 동작; 및

상기 제 2 라인들 및 상기 제 3 라인들의 취약성을 출력하는 동작;

을 수행하도록 구성되는 디바이스.
인스트럭션들을 저장하는 컴퓨터 판독 가능 매체로서,

상기 인스트럭션들은 프로세서에 의해 실행되는 경우 상기 프로세서로 하여금,

소스 코드를 획득하는 동작;

상기 소스 코드를 파싱하여 값 할당 라인들을 추출하는 동작;

상기 값 할당 라인들 중, 키워드들에 기초하여 제 1 라인들을 탐지하는 동작;

상기 값 할당 라인들 중, 크리덴셜 (credential) 패턴들에 기초하여 제 2 라인들을 탐지하는 동작;

상기 제 1 라인들 중 소정의 조건을 충족하는 라인들의 개수에 기초하여, 상기 제 1 라인들 중 제 3 라인들을 결정하는 동작; 및

상기 제 2 라인들 및 상기 제 3 라인들의 취약성을 출력하는 동작;

을 수행하게 하는 컴퓨터 판독 가능 매체.