WO2022114392A1

WO2022114392A1 - 특성 선택에 기반한 모바일 악성 코드 분류 방법, 이를 수행하기 위한 기록 매체 및 장치

Info

Publication number: WO2022114392A1
Application number: PCT/KR2021/001194
Authority: WO
Inventors: 이정현; 고은별
Original assignee: 숭실대학교 산학협력단
Priority date: 2020-11-26
Filing date: 2021-01-29
Publication date: 2022-06-02
Also published as: US11809557B2; KR102302484B1; US20220179955A1

Abstract

특성 선택에 기반한 모바일 악성 코드 분류 방법은, 카테고리가 정해진 악성 애플리케이션으로부터 패키지 명, 클래스 명, 메소드 명 및 디스크립션을 포함하는 API 특성정보를 추출하는 단계; 상기 API 특성정보 중 패키지 명, 클래스 명 및 메소드 명을 이용하여 생성한 트레이닝 데이터셋을 딥 러닝할 수 있도록 벡터화하는 단계; 벡터화된 트레이닝 데이터셋을 학습하여 분류기를 생성하는 단계; 타겟 악성 애플리케이션이 어떤 카테고리에 적합한지 확률로써 분류하는 단계; 및 분류 결과를 이용하여 타겟 악성 애플리케이션의 카테고리를 지정해주고 분류 중요 API를 출력하는 단계;를 포함한다. 이에 따라, 악성 애플리케이션의 악성 행위에 대해 빠르게 대처할 수 있고 악성 행위로 인한 피해를 방지할 수 있다. [대표도] 도 1

Description

특성 선택에 기반한 모바일 악성 코드 분류 방법, 이를 수행하기 위한 기록 매체 및 장치

본 발명은 특성 선택에 기반한 모바일 악성 코드 분류 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 애플리케이션의 기능 구현에 사용되는 API를 기반으로 딥러닝을 이용하여 악성 애플리케이션을 탐지한 후 해당 악성 애플리케이션의 동작별로 분류하는 기술에 관한 것이다.

IoT 기술과 5G 기술이 결합한 massive IoT의 시대에서 연결 기기들의 수가 증가함과 더불어 생성되고 공유하는 데이터의 양도 증가할 것이다. IDC에 의하면 2025년까지 전 세계적으로 연결 기기가 559억 개, IoT 장치에서 생성된 데이터가 79.4Z B에 달할 것으로 예상된다.

이렇게 기기들과 데이터가 늘어남에 따라 2024년에는 연결 기기 중 90억 대가 스마트폰일 것이라고 예상되는 만큼 모바일 기기의 영향력이 커지며 모바일 애플리케이션 시장도 성장하였다. 이에 따른 모바일 악성 코드의 규모도 점차 커지고 있다.

그 중에서도 애플리케이션 시장에서 가장 많은 점유율을 가진 안드로이드는 오픈 마켓 정책에 의해 불법복제와 무단수정, 유포를 누구나 쉽게 할 수 있으므로, 악성 코드 중에서도 가장 많은 비율을 차지한다. 오픈 마켓 정책을 이용하여 공격자는 악성 행위 코드를 애플리케이션에 삽입하여 재배포하는 방법으로 사용자에게 개인 정보 유출이나 금전적 손실과 같은 피해를 만들 수 있기 때문이다. 따라서, 안드로이드 악성 애플리케이션을 정확하고 빠르게 탐지하여 악성 행위를 막을 필요가 있다.

또한, 공격자마다 다른 목적을 가지고 악성 애플리케이션을 배포하기 때문에 각각 실행되는 악성 행위와 그에 따른 대처 방법이 다르다. 더욱 급격하게 생겨나는 악성 애플리케이션을 빠르게 대처하기 위해서는 단순히 악성 애플리케이션만을 탐지하는 것이 아니라 동작별로 악성 애플리케이션을 탐지하는 방법이 필요하다.

기존 연구들은 악성 애플리케이션을 탐지하기 위해 퍼미션, 디스크립션, 유저 리뷰 기반 등을 이용하였다. 하지만, 위의 방법들은 애플리케이션의 실제 동작별로 탐지를 하기에는 분명한 한계점을 가지고 있다. 이에 따라, 애플리케이션의 실제 동작을 탐지하기 위해 API(Application Programming Interface)를 기반으로 한 많은 연구들이 진행되었다.

그러나, 언급한 위의 기법들은 모두 악성과 양성만을 구분할 뿐, 어떤 악성 행위를 하는지에 대해서는 설명이 부족하다. 사용자에게 어떤 기능들에 의해 피해를 입을 수 있는지 알려주기 위하여 우리는 실제 기능적 특징을 나타내는 API를 이용하여 어떤 악성 행위를 하는지에 대한 설명을 제공할 필요가 있다.

그와 동시에 악성 애플리케이션을 카테고리 분류하는 연구들도 많이 진행되었다. 그러나, 이들은 세세한 카테고리 분류는 제공하지 않거나 Antivirus scanning report가 필요하다는 단점을 가지고 있다. 따라서, 애플리케이션에서 API를 직접 추출하여 애플리케이션만 있어도 카테고리 분류를 기능에 따라 세세하게 분류하는 것이 필요하다.

왜냐하면 Antivirus scanning report는 Anti-Virus Vendor에서 제공하는 것인데, 각각 Vendor마다 분류하는 카테고리 이름이 달라 애매한 경우가 생길 수 있고, 새로 생긴 악성 애플리케이션의 경우 Anti-Virus Vendor에서 악성으로 탐지하지 못하는 경우가 있기 때문이다.

[선행기술문헌]

[특허문헌]

(특허문헌 1) KR 10-2090423 B1

(특허문헌 2) KR 10-1589656 B1

(특허문헌 3) KR 10-2020-0073822 A

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 특성 선택에 기반한 모바일 악성 코드 분류 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 특성 선택에 기반한 모바일 악성 코드 분류 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.

본 발명의 또 다른 목적은 상기 특성 선택에 기반한 모바일 악성 코드 분류 방법을 수행하기 위한 장치를 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 특성 선택에 기반한 모바일 악성 코드 분류 방법은, 카테고리가 정해진 악성 애플리케이션으로부터 패키지 명, 클래스 명, 메소드 명 및 디스크립션을 포함하는 API 특성정보를 추출하는 단계; 상기 API 특성정보 중 패키지 명, 클래스 명 및 메소드 명을 이용하여 생성한 트레이닝 데이터셋을 딥 러닝할 수 있도록 벡터화하는 단계; 벡터화된 트레이닝 데이터셋을 학습하여 분류기를 생성하는 단계; 타겟 악성 애플리케이션이 어떤 카테고리에 적합한지 확률로써 분류하는 단계; 및 분류 결과를 이용하여 타겟 악성 애플리케이션의 카테고리를 지정해주고 분류 중요 API를 출력하는 단계;를 포함한다.

본 발명의 실시예에서, 상기 벡터화하는 단계는, 카테고리별로 각 애플리케이션에 대해 추출한 API를 모두 합쳐서 트레이닝 데이터셋으로 구축하는 단계; 및 트레이닝 데이터셋을 딥 러닝 알고리즘의 입력 값으로 이용하기 위하여 API를 벡터화하는 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 분류하는 단계는, 타겟 악성 애플리케이션에 대해 어떤 카테고리와 적합한지 각 카테고리별 확률을 부여하는 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 분류 중요 API를 출력하는 단계는, 타겟 악성 애플리케이션에 대한 각 카테고리별 확률 중 미리 설정된 임계값보다 큰 값에 해당하는 카테고리를 타겟 악성 애플리케이션의 특성으로 결정하는 단계; 및 타겟 악성 애플리케이션이 상기 분류기에서 확률을 부여 받을 때 가장 영향이 큰 미리 설정된 수만큼의 API를 출력하는 단계;를 포함할 수 있다.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 특성 선택에 기반한 모바일 악성 코드 분류 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 특성 선택에 기반한 모바일 악성 코드 분류 장치는, 카테고리가 정해진 악성 애플리케이션으로부터 패키지 명, 클래스 명, 메소드 명 및 디스크립션을 포함하는 API 특성정보를 추출하는 API 추출기; 상기 API 특성정보 중 패키지 명, 클래스 명 및 메소드 명을 이용하여 생성한 트레이닝 데이터셋을 딥 러닝할 수 있도록 벡터화하는 API 벡터화기; 벡터화된 트레이닝 데이터셋을 학습하여 분류기를 생성하는 학습기; 타겟 악성 애플리케이션이 어떤 카테고리에 적합한지 확률로써 분류하는 분류기; 및 분류 결과를 이용하여 타겟 악성 애플리케이션의 카테고리를 지정해주고 분류 중요 API를 출력하는 특성 식별기;를 포함한다.

본 발명의 실시예에서, 상기 API 벡터화기는, 카테고리별로 각 애플리케이션에 대해 추출한 API를 모두 합쳐서 트레이닝 데이터셋으로 구축하는 트레이닝 데이터셋 생성기; 및 트레이닝 데이터셋을 딥 러닝 알고리즘의 입력 값으로 이용하기 위하여 API를 벡터화하는 API 단어 임베딩기;를 포함할 수 있다.

본 발명의 실시예에서, 상기 분류기는, 타겟 악성 애플리케이션에 대해 어떤 카테고리와 적합한지 각 카테고리별 확률을 부여하는 확률 평가기;를 포함할 수 있다.

본 발명의 실시예에서, 상기 특성 식별기는, 타겟 악성 애플리케이션에 대한 각 카테고리별 확률 중 미리 설정된 임계값보다 큰 값에 해당하는 카테고리를 타겟 악성 애플리케이션의 특성으로 결정하는 특성 결정기; 및 타겟 악성 애플리케이션이 상기 분류기에서 확률을 부여 받을 때 가장 영향이 큰 미리 설정된 수만큼의 API를 출력하는 중요 API 식별기;를 포함할 수 있다.

이와 같은 특성 선택에 기반한 모바일 악성 코드 분류 방법에 따르면, 애플리케이션의 실제 기능을 담당하는 API를 이용하여 악성 애플리케이션의 실제 동작을 파악한 후 딥러닝 알고리즘을 사용하여 악성 애플리케이션의 카테고리를 분류와 중요 API를 얻을 수 있다. 따라서, 악성 애플리케이션의 세부적인 특성을 알 수 있고, 이를 이용하여 악성 행위에 대해 빠르게 대처할 수 있고 악성 행위로 인한 피해를 방지할 수 있을 것으로 기대된다.

도 1은 본 발명의 일 실시예에 따른 특성 선택에 기반한 모바일 악성 코드 분류 장치의 블록도이다.

도 2는 도 1의 모바일 악성 코드 분류 장치의 상세한 구조도이다.

도 3은 AndroGuard에서 API를 추출하는 방식의 일례를 보여주는 도면이다.

도 4는 dense vector의 변환 형태의 일례를 보여주는 도면이다.

도 5는 AMD 데이터셋을 이용하여 CNN을 학습시키는 일례를 보여주는 도면이다.

도 6은 카테고리 확률을 출하는 일례를 보여주는 도면이다.

도 7은 pooling까지 마친 결과값 행렬을 벡터로 만들어 완전 연결신경망에 연결한 후 학습을 진행하는 일례를 보여주는 도면이다.

도 8은 카테고리 결정기가 악성 애플리케이션의 범주를 결정하는 일례를 보여주는 도면이다.

도 9는 본 발명의 일 실시예에 따른 특성 선택에 기반한 모바일 악성 코드 분류 방법의 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 특성 선택에 기반한 모바일 악성 코드 분류 장치의 블록도이다. 도 2는 도 1의 모바일 악성 코드 분류 장치의 상세한 구조도이다.

본 발명에 따른 특성 선택에 기반한 모바일 악성 코드 분류 장치(10, 이하 장치)는 애플리케이션의 API를 기반으로 악성 애플리케이션의 특성을 탐지한다.

API는 Application Programming Interface의 약자로 애플리케이션의 실제 기능적 특징을 나타내기 때문에 실제 동작 기반 분류가 가능하다. 또한, 백신 프로그램에 의존하지 않고 애플리케이션만 있으면 추출이 가능하기 때문에 분류할 수 있는 애플리케이션의 범위가 늘어난다.

그리고, 단순히 악성과 양성만을 구분하지 않고 71가지의 카테고리를 제공하고 분류에 중요하게 영향을 끼친 API를 함께 제공해 주기 때문에 애플리케이션이 어떠한 동작을 하는지에 대한 정보도 제공받을 수 있다.

API 기반으로 악성 애플리케이션 특성 탐지를 위해서 이미 카테고리가 정해져 있는 악성 애플리케이션들에서 사용하는 API 특성 정보를 각각 추출한다. 추출된 API 특성 정보 중에서 메소드 명까지만을 이용하여 트레이닝 데이터셋을 구축한다.

그 후 딥러닝 알고리즘이 입력받을 수 있도록 트레이닝 데이터 셋을 벡터화하여 딥러닝 알고리즘에 입력하고 학습한다. 학습이 끝나면 완성된 분류기에 시각화 알고리즘인 LIME(Local Interpretable Model-Agnostic Explanation)을 이용하여 중요 API를 식별하고 분류 결과와 함께 제공한다.

도 1을 참조하면, 본 발명에 따른 장치(10)는 API 추출기(110), API 벡터화기(130), 학습기(150), 분류기(170) 및 특성 식별기(190)를 포함한다.

본 발명의 상기 장치(10)는 특성 선택에 기반한 모바일 악성 코드 분류를 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 API 추출기(110), 상기 API 벡터화기(130), 상기 학습기(150), 상기 분류기(170) 및 상기 특성 식별기(190)의 구성은 상기 장치(10)에서 실행되는 상기 특성 선택에 기반한 모바일 악성 코드 분류를 수행하기 위한 소프트웨어에 의해 제어될 수 있다.

상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 API 추출기(110), 상기 API 벡터화기(130), 상기 학습기(150), 상기 분류기(170) 및 상기 특성 식별기(190)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.

상기 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.

상기 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.

상기 API 추출기(110)는 카테고리가 정해진 악성 애플리케이션으로부터 패키지 명, 클래스 명, 메소드 명 및 디스크립션을 포함하는 API 특성정보를 추출한다.

상기 API 추출기(110)는 정적분석 기법을 이용하여 API를 추출할 수 있다. 본 발명에서는 애플리케이션 AndroGuard 도구를 선택하여 API를 추출한다. AndroGuard에서 API를 추출하는 방식의 일례는 도 3과 같다.

우선 애플리케이션의 실질적 코드를 포함하는 classes.dex 파일을 파싱하여 분석한다. 8개로 구성된 DEX 파일 필드 중 Method Table과 Class Def Table에 메소드와 관련된 데이터가 포함되어 있다. 먼저, Method Table에는 애플리케이션에서 사용되는 모든 메소드명인 사용자 정의 메소드와 프레임워크 API가 담겨있다. 그리고, 프레임워크 API를 포함한 클래스는 DEX 파일 내에 정의하지 않고 안드로이드 디바이스에 구현되어있기 때문에 Class Def Table에는 사용자 가정의 한 클래스 목록만 있다.

Class Def Table 안의 Class Data Item에 Direct Methods와 Virtual Methods가 각 클래스가 갖는 메소드의 정보를 담고 있다. 특히, Direct Methods 안에 Method Table의 인덱스를 가리키는 메소드의 오프셋이 들어있다. Method Table의 Name 인덱스값을 이용하여 String Table로 가면 Data Section안의 API를 찾을 수 있고 이를 추출한다.

이렇게 추출하면 얻을 수 있는 API의 특성정보의 예는 아래의 표 1과 같다.

[표 1]

API의 특성정보 중 단어수가 많아 차원이 커질 수 있는 디스크립션을 제외하고 충분히 자세히 API를 표현할 수 있는 메소드명까지만 이용하여 트레이닝셋과 테스트셋을 구축한다.

상기 API 벡터화기(130)는 상기 API 특성정보 중 패키지 명, 클래스 명 및 메소드 명을 이용하여 생성한 트레이닝 데이터셋을 딥 러닝할 수 있도록 벡터화한다.

상기 API 벡터화기(130)는, 카테고리별로 각 애플리케이션에 대해 추출한 API를 모두 합쳐서 트레이닝 데이터셋으로 구축하는 트레이닝 데이터셋 생성기(131) 및 트레이닝 데이터셋을 딥 러닝 알고리즘의 입력 값으로 이용하기 위하여 API를 벡터화하는 API 단어 임베딩기(133)를 포함할 수 있다.

API를 추출하여 트레이닝 데이터셋을 구축한 후에 Deep Learner에서 트레이닝 데이터셋을 벡터화하는 과정을 거친다. CNN을 통해 학습을 하기 위해서는 자연어 그대로가 아닌 숫자화된 데이터들이 필요하기 때문이다. 그 후 벡터화된 데이터들을 가지고 CNN 알고리즘을 통해 학습한다.

학습시 데이터의 값에 필터를 적용하여 합성곱 연산을 통해 피처맵을 추출하기 때문에 평상시 사용하는 언어 그대로 학습 데이터로 이용할 수 없다. 따라서, API 피처의 벡터화(워드임베딩)가 필요하다.

본 발명에서는 일 실시예로 벡터화를 하기 위해 API에 존재하는 단어들을 dictionary로 만들어 정수를 mapping하여 단어에 숫자를 부여하는 방식인 Tokenize를 이용하였다. 본 발명에서는 벡터의 크기를 맞춰주기 위한 패딩과 학습에 이용하지 않은 애플리케이션에 대해서도 잘 작동하도록 Unknown API까지 2가지를 추가하여 전체 1,273,251개 목록으로 이루어진 dictionary를 사용한다.

단순하게 숫자를 mapping만 하면 차원이 클 뿐만 아니라 사용되는 API간의 관계에 대한 설명이 들어가지 않으므로 임베딩 레이어를 사용하여 벡터값을 조정한다. 임베딩 레이어에 입력하기 위해서 각 애플리케이션의 API 벡터의 크기를 패딩을 이용하여 맞춰준다.

본 발명에서 AMD 데이터셋을 이용하였는데 이때 각 애플리케이션의 API 정보벡터 크기는

로 맞춰진다. 그후 적은 차원에 비해 많은 정보를 담을 수 있는 dense vector로 변환되도록 임베딩 레이어를 이용하여 학습한다.

본 발명에서는 dense vector의 크기를 64로 설정하였다. 구체적인 변환형태는 도 4와 같다.

상기 학습기(150)는 벡터화된 트레이닝 데이터셋을 학습하여 분류기를 생성한다.

벡터화가 완료되면 이제 CNN 알고리즘을 이용하여 학습을 진행한다. 학습은 총 양성과 악성 애플리케이션 데이터를 이용하는 것과 카테고리가 정해진 악성 애플리케이션을 이용하는 것으로 총 2번 진행된다. 학습할 때 본 발명에서는 Text-CNN에서 많이 사용되는 Conv1D 레이어를 이용하여 합성곱 연산을 한다.

연산에서 사용되는 필터는 8로 설정하여 필터의 차원은(embedding dimension, 8), 필터의 크기는(64, 8)이 되고 필터의 개수는 32개로 설정하였다. 패딩과 stride는 기본값인 패딩 0과 stride 1로 이용했고 이용하면 피처맵의 크기는 필터길이를 8로 설정했고 개수를 32로 설정했기 때문에 (7765,32)가 된다.

필터가 데이터에 씌워지면 필터별로 피처맵을 추출한다. 이때, 피처맵을 z라고 하면 (x,y)번째 값은 Z(x,y)라고 나타낸다. 본 발명은 AMD 데이터셋을 이용하여 CNN을 학습시키기 때문에 도 5에서 볼 수 있듯이 24090 개의 애플리케이션이 사용되었다. 데이터와 필터를 나타내면 도 5와 같다.

위의 과정을 통해 만들어진 피처맵에 활성화 함수를 적용한다. 본 발명의 일 실시예에서는 ReLU 함수를 활성화 함수로 이용할 수 있다. ReLU 함수는 비교적 빠른 학습이 가능하고 연산비용이 크지 않다는 장점이 있어 가장 많이 쓰이는 활성화 함수 중 하나이다.

그 후 생성된 행렬을 Activation Map이라고 부른다. 이 Activation Map에 max pooling을 이용하여 API를 훑어가며 나온 특징벡터 중에서 가장 큰 벡터를 고른다. 이렇게 하면 애플리케이션에서 사용된 API 중 가장 두드러지는 특징을 고를 수 있다.

본 발명의 일 실시예에서는 pooling의 크기를 1로 설정하여 진행했다. 이제 pooling 레이어를 거쳐나온 결과값을 1차원 벡터로 만들어주는 과정을 거쳐 완전 연결 신경망으로 연결한다. 그 후 출력을 모두 0~1 사이값으로 정규화해 주는 softmax 함수를 이용하여 카테고리 확률을 출력한다. 이 과정을 나타내면 도 6과 같다. 도 6에서 A(x,y)는 Z(x,y)에 ReLU 함수를 적용한 후의 값을 나타낸다.

pooling까지 끝마친 후 이제 결과값 행렬을 벡터로 만들어 완전 연결신경망에 연결한 후 학습을 한다. 그 과정은 도 7과 같다.

상기 분류기(170)는 타겟 악성 애플리케이션이 어떤 카테고리에 적합한지 확률로써 분류한다.

상기 분류기(170)는 타겟 악성 애플리케이션에 대해 어떤 카테고리와 적합한지 각 카테고리별 확률을 부여하는 확률 평가기(171)를 포함할 수 있다.

학습이 완료되면 만들어진 분류기들과 LIME 알고리즘을 이용하여 악성 애플리케이션을 탐지하고 해당 악성 애플리케이션의 카테고리를 분류한 후 주요피처를 추출하여 제공한다.

본 발명에서는 트레이닝 데이터로써 벡터화된 API와 CNN 알고리즘을 통해 학습이 완료된 CNN 모델을 저장하여 분류기(Classifier)로 이용한다. 양성 애플리케이션들과 악성 애플리케이션들을 이용하여 학습된 위험 분류기(Risk Classifier)에서 악성 애플리케이션을 탐지하여 타겟 애플리케이션이 악성인지 양성인지 분류한다. 그후 타겟 애플리케이션이 악성 애플리케이션으로 분류되면 카테고리 분류기(Category Classifier)에서 카테고리별 확률벡터를 출력한다. 아래의 표 2는 분류기들에서 출력된 결과 일부를 나타낸다.

[표 2]

카테고리 결정 시 카테고리가 71가지이기 때문에 더욱 세세한 카테고리가 필요하거나 71가지에서 벗어난 종류의 악성 애플리케이션의 경우 확률결과값이 모호할 수 있다. 따라서, 본 발명에서는 50 %를 기준으로 잡고 결과벡터의 성분이 임계값(예를 들어, 0.5) 보다 높은값이 없는 타겟 애플리케이션에 대해 Unlabeled를 부여하고 유사한 카테고리와 주요피처를 함께 제공해준다.

도 8은 카테고리 결정기가 악성 애플리케이션의 범주를 결정하는 모습을 나타낸다.

상기 특성 식별기(190)는 분류 결과를 이용하여 타겟 악성 애플리케이션의 카테고리를 지정해주고 분류 중요 API를 출력한다.

상기 특성 식별기(190)는 타겟 악성 애플리케이션에 대한 각 카테고리별 확률 중 미리 설정된 임계값보다 큰 값에 해당하는 카테고리를 타겟 악성 애플리케이션의 특성으로 결정하는 특성 결정기(191) 및 타겟 악성 애플리케이션이 상기 분류기에서 확률을 부여 받을 때 가장 영향이 큰 미리 설정된 수만큼의 API를 출력하는 중요 API 식별기(193)을 포함할 수 있다.

학습이 끝난 CNN 모델에 LIME 알고리즘을 이용하여 타겟 애플리케이션이 입력되었을 때 판단의 근거를 제공한다. 먼저 타겟 애플리케이션이 카테고리 분류기에 입력되고 판단이 끝나면 중요 API를 찾기 위해 LIME은 입력된 피처를 변환하여 여러 개의 유사 입력값들을 만들어낸다. 그리고, 변환된 유사 입력값을 카테고리 분류기에 넣어 나오는 판단을 기준으로 중요한 피처들을 결정한다.

본 발명에서는 중요 API 10개를 제공하여 결과를 보고 어떤 행동들을 하는 애플리케이션인지 라벨이 없더라도 어느 정도 알 수 있게 함을 목표로 하였다. 아래의 표 3은 unlabeled로 분류된 애플리케이션에 대한 중요 API 출력결과이다.

[표 3]

안드로이드 애플리케이션 시장의 성장과 함께 수정과 재배포가 간편한 안드로이드의 취약점을 노린 악성 애플리케이션들이 더욱 빠르게 늘어나고 있다. 이에 따라 필연적으로 악성 애플리케이션으로 인한 피해가 늘고 있다. 이러한 상황을 막기 위해 악성 애플리케이션을 빠르게 분석하여 악성 행위를 막아내는 것이 필요하다. 또한, 애플리케이션의 실제 동작과 연관이 있는 피처를 기반으로 하여 정확하고 빠른 판단이 필요하다.

기존 애플리케이션 탐지기법들은 단순하게 악성 애플리케이션과 양성 애플리케이션만을 구분해 탐지해 왔다. 하지만, 악성 애플리케이션의 동작 또한 한번에 탐지할 수 있다면 더욱 빠르게 대처하는 것이 가능해질 것이다.

이에 본 발명에서는 실제 동작과 관련이 깊은 API를 피처로하여 악성 애플리케이션의 카테고리 분류 기법을 제안하였다. 또한, 사람이 피처를 선택하지 않아 객관성이 확보되는 딥러닝 알고리즘인 CNN을 사용하여 더욱 객관적이고 정확한 분류를 도모하였고 딥러닝의 단점인 블랙박스 모델이라는 것을 보완하기 위해 LIME 알고리즘을 이용하여 판단기준인 중요피처를 함께 제공해서 사용자가 직접 판단할 수 있도록 기준을 제공해주었다.

본 발명에서는 지도학습을 위해 이미 카테고리가 정해진 AMD 데이터셋을 학습데이터로 이용하여 71개의 카테고리로 분류를 하였지만 학습데이터로 이용할 악성 애플리케이션들을 좀 더 분석을 통해 새로운 기준을 만들고 더욱 세세한 카테고리로 분류하여 본 발명을 적용한다면 더욱 활용도가 높을 것이라고 기대된다.

본 실시예에 따른 특성 선택에 기반한 모바일 악성 코드 분류 방법은, 도 1 및 도 2의 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1 및 도 2의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

또한, 본 실시예에 따른 특성 선택에 기반한 특성 선택에 기반한 모바일 악성 코드 분류 방법은 특성 선택에 기반한 모바일 악성 코드 분류를 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.

본 발명에 따른 특성 선택에 기반한 모바일 악성 코드 분류 방법은 애플리케이션의 API를 기반으로 악성 애플리케이션의 특성을 탐지한다.

도 9를 참조하면, 본 실시예에 따른 특성 선택에 기반한 모바일 악성 코드 분류 방법은, 카테고리가 정해진 악성 애플리케이션으로부터 패키지 명, 클래스 명, 메소드 명 및 디스크립션을 포함하는 API 특성정보를 추출한다(단계 S10).

상기 API 특성정보 중 패키지 명, 클래스 명 및 메소드 명을 이용하여 생성한 트레이닝 데이터셋을 딥 러닝할 수 있도록 벡터화한다(단계 S20).

상기 벡터화하는 단계는, 카테고리별로 각 애플리케이션에 대해 추출한 API를 모두 합쳐서 트레이닝 데이터셋으로 구축하고, 트레이닝 데이터셋을 딥 러닝 알고리즘의 입력 값으로 이용하기 위하여 API를 벡터화할 수 있다.

벡터화된 트레이닝 데이터셋을 학습하여 분류기를 생성한다(단계 S30).

타겟 악성 애플리케이션이 어떤 카테고리에 적합한지 확률로써 분류한다(단계 S40). 상기 분류하는 단계는, 타겟 악성 애플리케이션에 대해 어떤 카테고리와 적합한지 각 카테고리별 확률을 부여할 수 있다.

일 실시예에서, 본 발명은 시각화 알고리즘을 이용하여 타겟 애플리케이션 분류시 가중치가 큰 API를 식별하고(단계 S50), 분류 결과를 이용하여 타겟 악성 애플리케이션의 카테고리를 지정해주고 분류 중요 API를 출력한다(단계 S60).

상기 분류 중요 API를 출력하는 단계는, 타겟 악성 애플리케이션에 대한 각 카테고리별 확률 중 미리 설정된 임계값보다 큰 값에 해당하는 카테고리를 타겟 악성 애플리케이션의 특성으로 결정하고, 타겟 악성 애플리케이션이 상기 분류기에서 확률을 부여 받을 때 가장 영향이 큰 미리 설정된 수만큼의 API를 출력할 수 있다.

본 발명의 특성 선택에 기반한 모바일 악성 코드 분류 방법에 따르면, 애플리케이션의 실제 기능을 담당하는 API를 이용하여 악성 애플리케이션의 실제 동작을 파악한 후 딥러닝 알고리즘을 사용하여 악성 애플리케이션의 카테고리를 분류와 중요 API를 얻을 수 있다. 따라서, 악성 애플리케이션의 세부적인 특성을 알 수 있고, 이를 이용하여 악성 행위에 대해 빠르게 대처할 수 있고 악성 행위로 인한 피해를 방지할 수 있을 것으로 기대된다.

이와 같은, 특성 선택에 기반한 모바일 악성 코드 분류 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

[산업상 이용가능성]

인터넷으로 사물들이 연결되어 서로 데이터를 주고받는 IoT 시대가 도래하면서 여러 기기들이 연결되어 정보를 생성하고 공유한다. 특히, 5G 기술과 결합하여 더욱 많은 기기들이 연결되는 massive IoT 시대에 접어들면서 연결 기기들의 보안 또한 중요하게 생각되고 있다. 연결 기기들 중 대부분을 차지하는 모바일 기기의 보안이 중요해지고 있는 것이다. 더불어 사용자 중심 서비스로 인해 모바일 애플리케이션의 영향력이 커짐에 따라 모바일 애플리케이션을 이용하여 사용자의 민감한 정보들을 유출하고 악용하는 악성 애플리케이션들도 급증하였다. 이렇게 모바일 기기들이 악성 행위에 노출되면 많은 기기들이 연결된 만큼 그 피해가 커질 것이다. 따라서 악성 행위를 사전에 정확하게 탐지하는 방법이 필요한데, 새로운 악성 애플리케이션들이 늘어남에 따라 단순 악성 애플리케이션 분류로는 탐지하기 어려운 경우가 있다.

본 발명에서는 이를 해결하기 위해 애플리케이션의 기능 구현에 사용되는 API를 기반으로 딥러닝을 이용하여 악성 애플리케이션을 탐지한 후 해당 악성 애플리케이션의 동작별 분류 기법을 제안하고 시각화 기법을 통해 본 논문의 모델의 판단 근거를 함께 제공한다. 실험 결과 기존 머신러닝 분류 방법들 보다 세세한 분류를 할 수 있고 기존 AV report기반 방법들 보다 많은 수의 애플리케이션을 분류할 수 있다. 따라서, 본 발명을 통해 악성 애플리케이션의 구체적인 카테고리 정보를 알게 되면 더욱 신속하게 악성 행위에 대응할 수 있을 것으로 기대된다.

[부호의 설명]

10: 특성 선택에 기반한 모바일 악성 코드 분류 장치

110: API 추출기

130: API 벡터화기

150: 학습기

170: 분류기

190: 특성 식별기

131: 트레이닝 데이터셋 생성기

133: API 단어 임베딩기

171: 확률 평가기

191: 특성 결정기

193: 중요 API 식별기

Claims

카테고리가 정해진 악성 애플리케이션으로부터 패키지 명, 클래스 명, 메소드 명 및 디스크립션을 포함하는 API 특성정보를 추출하는 단계;

상기 API 특성정보 중 패키지 명, 클래스 명 및 메소드 명을 이용하여 생성한 트레이닝 데이터셋을 딥 러닝할 수 있도록 벡터화하는 단계;

벡터화된 트레이닝 데이터셋을 학습하여 분류기를 생성하는 단계;

타겟 악성 애플리케이션이 어떤 카테고리에 적합한지 확률로써 분류하는 단계; 및

분류 결과를 이용하여 타겟 악성 애플리케이션의 카테고리를 지정해주고 분류 중요 API를 출력하는 단계;를 포함하는, 특성 선택에 기반한 모바일 악성 코드 분류 방법.
제1항에 있어서, 상기 벡터화하는 단계는,

카테고리별로 각 애플리케이션에 대해 추출한 API를 모두 합쳐서 트레이닝 데이터셋으로 구축하는 단계; 및

트레이닝 데이터셋을 딥 러닝 알고리즘의 입력 값으로 이용하기 위하여 API를 벡터화하는 단계;를 포함하는, 특성 선택에 기반한 모바일 악성 코드 분류 방법.
제1항에 있어서, 상기 분류하는 단계는,

타겟 악성 애플리케이션에 대해 어떤 카테고리와 적합한지 각 카테고리별 확률을 부여하는 단계;를 포함하는, 특성 선택에 기반한 모바일 악성 코드 분류 방법.
제1항에 있어서, 상기 분류 중요 API를 출력하는 단계는,

타겟 악성 애플리케이션에 대한 각 카테고리별 확률 중 미리 설정된 임계값보다 큰 값에 해당하는 카테고리를 타겟 악성 애플리케이션의 특성으로 결정하는 단계; 및

타겟 악성 애플리케이션이 상기 분류기에서 확률을 부여 받을 때 가장 영향이 큰 미리 설정된 수만큼의 API를 출력하는 단계;를 포함하는, 특성 선택에 기반한 모바일 악성 코드 분류 방법.
제1항에 따른 상기 특성 선택에 기반한 모바일 악성 코드 분류 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
카테고리가 정해진 악성 애플리케이션으로부터 패키지 명, 클래스 명, 메소드 명 및 디스크립션을 포함하는 API 특성정보를 추출하는 API 추출기;

상기 API 특성정보 중 패키지 명, 클래스 명 및 메소드 명을 이용하여 생성한 트레이닝 데이터셋을 딥 러닝할 수 있도록 벡터화하는 API 벡터화기;

벡터화된 트레이닝 데이터셋을 학습하여 분류기를 생성하는 학습기;

타겟 악성 애플리케이션이 어떤 카테고리에 적합한지 확률로써 분류하는 분류기; 및

분류 결과를 이용하여 타겟 악성 애플리케이션의 카테고리를 지정해주고 분류 중요 API를 출력하는 특성 식별기;를 포함하는, 특성 선택에 기반한 모바일 악성 코드 분류 장치.
제6항에 있어서, 상기 API 벡터화기는,

카테고리별로 각 애플리케이션에 대해 추출한 API를 모두 합쳐서 트레이닝 데이터셋으로 구축하는 트레이닝 데이터셋 생성기; 및

트레이닝 데이터셋을 딥 러닝 알고리즘의 입력 값으로 이용하기 위하여 API를 벡터화하는 API 단어 임베딩기;를 포함하는, 특성 선택에 기반한 모바일 악성 코드 분류 장치.
제6항에 있어서, 상기 분류기는,

타겟 악성 애플리케이션에 대해 어떤 카테고리와 적합한지 각 카테고리별 확률을 부여하는 확률 평가기;를 포함하는, 특성 선택에 기반한 모바일 악성 코드 분류 장치.
제6항에 있어서, 상기 특성 식별기는,

타겟 악성 애플리케이션에 대한 각 카테고리별 확률 중 미리 설정된 임계값보다 큰 값에 해당하는 카테고리를 타겟 악성 애플리케이션의 특성으로 결정하는 특성 결정기; 및

타겟 악성 애플리케이션이 상기 분류기에서 확률을 부여 받을 때 가장 영향이 큰 미리 설정된 수만큼의 API를 출력하는 중요 API 식별기;를 포함하는, 특성 선택에 기반한 모바일 악성 코드 분류 장치.