WO2022107963A1

WO2022107963A1 - Api 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법, 이를 수행하기 위한 기록 매체 및 장치

Info

Publication number: WO2022107963A1
Application number: PCT/KR2020/016913
Authority: WO
Inventors: 이정현; 김진성
Original assignee: 숭실대학교 산학협력단
Priority date: 2020-11-20
Filing date: 2020-11-26
Publication date: 2022-05-27
Also published as: KR102283054B1

Abstract

API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법은, 정상적인 애플리케이션과 악성 행위를 하는 애플리케이션으로부터 API의 호출 흐름인 ACG(API Call Graph)를 추출하는 단계; 추출된 ACG를 딥러닝을 위한 트레이닝 데이터셋으로 생성하여 벡터화하는 단계; 벡터화된 트레이닝 데이터셋을 학습하여 딥 러닝 알고리즘 예측 모델을 생성하는 단계; 생성된 예측 모델에서 악성 행위에 사용되는 ACG 특징을 추출하여 악성 애플리케이션들의 교집합으로부터 악성 행위 패턴을 추출하는 단계; 및 추출된 악성 행위 패턴과 타겟 애플리케이션에서 추출된 패턴의 유사도 비교를 통해 악성 행위를 하는 애플리케이션을 분류하는 단계;를 포함한다. 이에 따라, API의 호출 흐름인 ACG를 이용하여 악성 행위 자체를 탐지할 수 있다.

Description

API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법, 이를 수행하기 위한 기록 매체 및 장치

본 발명은 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 모바일 애플리케이션에 실제 동작 기능을 담고 있는 API들의 사용 관계를 파악할 수 있는 API 호출 그래프(API Call Graph)를 이용하여 딥러닝 기법으로 악성 행위 자체를 분석하여 탐지할 수 있는 기술에 관한 것이다.

IoT 시장이 계속해서 성장하는 가운데, IoT 장치 들은 매년 증가하여 2021년까지 250억 개로 증가할 것으로 예상된다. 이러한 환경에서 모바일 기기의 중요성도 커지면서, 모바일 애플리케이션의 시장도 가파르게 성장하고 있다. 이로 인해 모바일 애플리케이션 악성코드의 규모도 날이 갈수록 증가하고 있다.

일부 보고서에 의하면, 2017년 2,000만여 개였던 것이 2019년에 약 3,600만여 개까지 늘어 났다. 평균 1분에 약 15개꼴로 계속해서 빠르게 악성 애플리케이션이 생겨나는 상황이다. 전세계 모바일 기기에서 사용되는 운영체제 점유율은 2019년 12월 기준 안드로이드가 무려 74%로 매우 높은 비중을 차지고 있다. 그만큼 안드로이드 모바일 애플리케이션도 많이 사용되고 있다.

하지만, 안드로이드 애플리케이션은 오픈 마켓 정책으로, 누구나 손쉽게 불법복제 및 무단수정, 유포가 가능하기 때문에 많은 취약점이 존재 한다. 이로 인해 리패키징 공격으로, 많은 금전적 손실과 개인정보, 암호 유출과 같은 피해들이 발생하고 있다.

따라서, 모바일 애플리케이션 중에서 악성 행위를 하는 애플리케이션을 보다 정밀하게 탐지하여 사용자를 보호할 필요가 있다. 기존 악성 행위 탐지에는 퍼미션, 디스크 립션, 유저 리뷰 기반 분석방법이 있지만, 악성 행위를 탐지 하는데 있어서 한계가 명확하게 드러나기 때문에 악성 행위 자체를 정확히 탐지할 수 있는 방법이 필요하다.

최근에는 악성 애플리케이션 탐지를 위해 실제 동작을 탐지할 수 있는 Application Programming Interface(API)를 추출하여 탐지하는 방법의 연구가 활발하게 진행되고 있다.

하지만, API만을 이용하여 탐지하게 될 경우, API 사용 유무만을 확인하여 악성 애플리케이션을 탐지하기 때문에 정상적인 애플리케이션과 악성 애플리케이션에서 동일한 API를 사용한다면 정상적인 애플리케이션이 악성으로 오분류 될 수 있다. 또한, 안드로이드에서 많이 발생하는 data leak을 가진 악성 애플리케이션도 일반 애플리케이션으로 오분류 될 수 있는 문제가 있다.

[선행기술문헌]

[특허문헌]

(특허문헌 1) KR 10-2005107 B1

(특허문헌 2) KR 10-1589656 B1

(특허문헌 3) KR 10-1228899 B1

[비특허문헌]

(비특허문헌 1) T. Cho, H. Kim, and J. H. Yi, "Security Assessment of Code Obfuscation based on Dynamic Monitoring in Android Things," IEEE Access, vol. 5, pp. 6361-6371, 2017.

(비특허문헌 2) K. Kim, J. Kim, E. Ko, and J. H. Yi, "Risk Assessment Scheme for Mobile Applications based on Tree Boosting," IEEE Access, vol. 8, pp. 48503-48514, 2020.

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.

본 발명의 또 다른 목적은 상기 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법을 수행하기 위한 장치를 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법은, 정상적인 애플리케이션과 악성 행위를 하는 애플리케이션으로부터 API의 호출 흐름인 ACG(API Call Graph)를 추출하는 단계; 추출된 ACG를 딥러닝을 위한 트레이닝 데이터셋으로 생성하여 벡터화하는 단계; 벡터화된 트레이닝 데이터셋을 학습하여 딥 러닝 알고리즘 예측 모델을 생성하는 단계; 생성된 예측 모델에서 악성 행위에 사용되는 ACG 특징을 추출하여 악성 애플리케이션들의 교집합으로부터 악성 행위 패턴을 추출하는 단계; 및 추출된 악성 행위 패턴과 타겟 애플리케이션에서 추출된 패턴의 유사도 비교를 통해 악성 행위를 하는 애플리케이션을 분류하는 단계;를 포함한다.

본 발명의 실시예에서, 상기 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법은, 안드로이드 홈페이지에서 프레임워크 API 정보를 크롤링하여 추출하는 단계; 및 추출한 프레임워크 API 정보를 저장하는 단계;를 더 포함할 수 있다.

본 발명의 실시예에서, 상기 ACG(API Call Graph)를 추출하는 단계는, 오염 분석 기법(Taint Analysis)을 이용하여 호출 흐름인 ACG(API Call Graph)를 추출할 수 있다.

본 발명의 실시예에서, 상기 위한 트레이닝 데이터셋으로 생성하여 벡터화하는 단계는, 추출된 ACG를 전부 합쳐서 트레이닝 데이터셋으로 생성하는 단계; 및 딥러닝을 위해 생성된 트레이닝 데이터셋을 벡터화하는 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 악성 행위 패턴을 추출하는 단계는, 학습된 예측 모델에서 딥러닝 시각화 기법을 이용하여 악성 행위에서 사용되는 ACG 피쳐를 딥러닝 시각화 기법으로 추출하는 단계; 및 추출된 ACG 피쳐에서 유사한 ACG를 가진 악성 애플리케이션끼리 그룹화하여 악성 애플리케이션들의 교집합을 구하여 악성 행위 패턴을 추출하는 단계;를 포함할 수 있다.

본 발명의 실시예에서, 상기 위험 애플리케이션 분류기는, 추출된 악성 행위 패턴을 목록화하여 타겟 애플리케이션에서 추출된 ACG에서 악성 행위 패턴 목록과 자카드 유사도(Jaccard Similarity)를 측정하는 단계;를 포함할 수 있다.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 상기 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 장치는, 정상적인 애플리케이션과 악성 행위를 하는 애플리케이션으로부터 API의 호출 흐름인 ACG(API Call Graph)를 추출하는 API 호출 그래프 추출기; 추출된 ACG를 딥러닝을 위한 트레이닝 데이터셋으로 생성하여 벡터화하는 트레이닝 데이터셋 벡터화기; 벡터화된 트레이닝 데이터셋을 학습하여 딥 러닝 알고리즘 예측 모델을 생성하는 기계 학습기; 생성된 예측 모델에서 악성 행위에 사용되는 ACG 특징을 추출하여 악성 애플리케이션들의 교집합으로부터 악성 행위 패턴을 추출하는 패턴 추출기; 및 추출된 악성 행위 패턴과 타겟 애플리케이션에서 추출된 패턴의 유사도 비교를 통해 악성 행위를 하는 애플리케이션을 분류하는 위험 애플리케이션 분류기;를 포함한다.

본 발명의 실시예에서, 상기 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 장치는, 안드로이드 홈페이지에서 프레임워크 API 정보를 추출하는 프레임워크 API 크롤러; 및 추출한 프레임워크 API 정보를 저장하는 프레임워크 API 데이터베이스;를 더 포함할 수 있다.

본 발명의 실시예에서, 상기 API 호출 그래프 추출기는, 오염 분석 기법(Taint Analysis)을 이용하여 호출 흐름인 ACG(API Call Graph)를 추출할 수 있다.

본 발명의 실시예에서, 상기 트레이닝 데이터셋 벡터화기는, 추출된 ACG를 전부 합쳐서 트레이닝 데이터셋으로 생성하는 트레이닝 데이터셋 생성기; 및 딥러닝을 위해 생성된 트레이닝 데이터셋을 벡터화하는 임베딩 벡터화기;를 포함할 수 있다.

본 발명의 실시예에서, 상기 패턴 추출기는, 학습된 예측 모델에서 딥러닝 시각화 기법을 이용하여 악성 행위에서 사용되는 ACG 피쳐를 딥러닝 시각화 기법으로 추출하는 API 호출 그래프 피쳐 추출기; 및 추출된 ACG 피쳐에서 유사한 ACG를 가진 악성 애플리케이션끼리 그룹화하여 악성 애플리케이션들의 교집합을 구하여 악성 행위 패턴을 추출하는 악성 행위 패턴 추출기;를 포함할 수 있다.

본 발명의 실시예에서, 상기 위험 애플리케이션 분류기는, 추출된 악성 행위 패턴을 목록화하여 타겟 애플리케이션에서 추출된 ACG에서 악성 행위 패턴 목록과 자카드 유사도(Jaccard Similarity)를 측정하는 자카드 유사도 비교기;를 포함할 수 있다.

이와 같은 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법에 따르면, API의 호출 흐름인 ACG를 이용하여 악성 애플리케이션에서 동작되는 실제 동작을 파악하고, 딥러닝 기법을 사용하여 악성 애플리케이션에서 동작되는 악성 행위 패턴을 분석하여 악성 애플리케이션을 분류할 수 있다. 따라서, 악성 행위 자체를 탐지할 수 있으므로, 악성 행위를 예측 탐지하여 악성 행위로 인한 피해를 방지할 수 있다.

도 1은 본 발명의 일 실시예에 따른 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 장치의 블록도이다.

도 2는 도 1의 모바일 애플리케이션 악성 행위 패턴 탐지 장치의 동작을 설명하기 위한 도면이다.

도 3은 도 1의 모바일 애플리케이션 악성 행위 패턴 탐지 장치의 구체적인 구성을 도시한 블록도이다.

도 4는 본 발명에 따른 학습 결과를 보여주는 그래프이다.

도 5는 도 4의 학습결과에 따른 API 호출 그래프 피쳐 리스트의 예시를 보여주는 도면이다.

도 6은 본 발명에 따라 생성된 악성 패턴 리스트의 예시를 보여주는 도면이다.

도 7은 악성 유무를 구분하는 기준인 자카드 유사도의 측정 기준값을 보여주는 도면이다.

도 8은 본 발명의 일 실시예에 따른 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법의 흐름도이다.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 장치의 블록도이다. 도 2는 도 1의 모바일 애플리케이션 악성 행위 패턴 탐지 장치의 동작을 설명하기 위한 도면이다.

본 발명에 따른 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 장치(10, 이하 장치)는 모바일 애플리케이션에 실제 동작 기능을 담고 있는 API를 기반으로, API들의 사용 관계를 파악할 수 있는 API 호출 그래프(ACG)를 이용한다. 또한, ACG를 딥러닝 기법으로 악성 행위 자체를 분석하여 탐지할 수 있도록 악성 행위 패턴을 추출한다.

본 발명에서는 모바일 애플리케이션에 대해 API를 기반으로 오염 분석(Taint Analysis) 기법을 이용하여 ACG를 추출한다. 이후 딥러닝 알고리즘을 이용하여 예측 모델 학습 후, 학습에서 중요하다고 판단되는 피쳐를 추출할 수 있는 딥러닝 시각화 기법(Gradient-weighted Class Activation Map)을 이용하여 피쳐를 추출한다.

추출된 피쳐를 이용하여 악성 애플리케이션에서 공통으로 사용되는 악성 행위 패턴을 파악한다. 악성 행위 자체를 파악하므로, 정확하고 빠르게 악성 애플리케이션 패턴 탐지가 가능하다.

도 1 및 도 2를 참조하면, 본 발명에 따른 장치(10)는 API 호출 그래프 추출기(130), 트레이닝 데이터셋 벡터화기(140), 기계 학습기(150), 패턴 추출기(160) 및 위험 애플리케이션 분류기(170)를 포함한다. 상기 장치(10)는 프레임워크 API 크롤러(110) 및 프레임워크 API 데이터베이스(120)를 더 포함할 수 있다.

본 발명의 상기 장치(10)는 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지를 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 프레임워크 API 크롤러(110) 및 상기 프레임워크 API 데이터베이스(120), 상기 API 호출 그래프 추출기(130), 상기 트레이닝 데이터셋 벡터화기(140), 상기 기계 학습기(150), 상기 패턴 추출기(160) 및 상기 위험 애플리케이션 분류기(170)의 구성은 상기 장치(10)에서 실행되는 상기 API 호출 정당성의 자동검증을 수행하기 위한 소프트웨어에 의해 제어될 수 있다.

상기 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 프레임워크 API 크롤러(110) 및 상기 프레임워크 API 데이터베이스(120), 상기 API 호출 그래프 추출기(130), 상기 트레이닝 데이터셋 벡터화기(140), 상기 기계 학습기(150), 상기 패턴 추출기(160) 및 상기 위험 애플리케이션 분류기(170)의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.

상기 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.

상기 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.

상기 프레임워크 API 크롤러(110)는 안드로이드 홈페이지에서 프레임워크 API 정보를 추출한다. 예를 들어, 안드로이드 프레임워크 API 정보에는 패키지, 클래스, 메소드 정보 등이 있다.

상기 프레임워크 API 데이터베이스(120)는 추출한 프레임워크 API 정보를 저장한다. 상기 프레임워크 API 데이터베이스(120)는 상기 프레임워크 API 크롤러(110)에서 추출한 패키지, 클래스, 메소드 정부 등을 저장한다.

상기 API 호출 그래프 추출기(130)는 정상적인 애플리케이션과 악성 행위를 하는 애플리케이션으로부터 API의 호출 흐름인 ACG(API Call Graph)를 추출한다. 호출 흐름은 오염 분석(taint analysis) 기법을 이용할 수 있다.

일 실시예로, 오염 분석 기법을 이용한 API 호출 그래프 추출 도구로는 Flowdroid가 있다. Flowdroid는 자바 최적화 프레임워크인 Soot를 기반으로 하여 안드로이드 애플리케이션 최적화 및 API 호출 그래프를 추출하는 도구이다.

Flowdroid는 우선 apk 파일에서 xml, .dex, manifest파일을 추출한다. 이후 데이터를 입력받는 메소드인 source 142개와 데이터가 외부로 나가는 메소드인 sink 159개에 해당하는 Android API Framework 목록을 이용하여 entry point를 생성한다.

생성된 entry point를 이용하여 main method부터 정의된 source에서 sink로 나오는 API들을 data leak이라고 판단하고 API들의 호출 그래프를 추출한다. 이후 추출된 목록으로 API 호출 그래프들을 표현한다. 마지막으로 안드로이드 API Package 단위의 444개의 정의된 API 호출 그래프 목록을 생성한다.

본 발명에서는 악성 애플리케이션과 일반 애플리케이션에서 각각 API 호출 그래프를 추출한다. 이후 추출된 API 호출 그래프들을 호출(call)에 맞게 묶어 호출 순서(sequence) 형태로 만든다. 마지막으로 학습에 사용될 수 있게 호출 순서 형태를 API의 형태로 변형하여 사용한다.

상기 트레이닝 데이터셋 벡터화기(140)는 추출된 ACG를 딥러닝을 위한 트레이닝 데이터셋으로 생성하여 벡터화한다.

자연어(Nature Language)를 딥러닝에 사용하기 위하여 각 단어들을 고유한 정수에 매핑시켜 글자를 숫자로 변환한다. 본 발명에서는 추출된 API 호출 그래프들을 가지고 단어 사전으로 만들고 정수로 매핑하여 정수 인덱스를 부여한다. 그렇게 매핑된 API 호출 그래프들을 가지고 임베딩 레이어를 이용하여 랜덤하게 밀집 벡터(dense vector)로 벡터화 한다. 단어로 임베딩하여 벡터화를 하게 되면, 적은 차원에도 많은 정보를 담을 수 있어 학습 속도가 빨라진다.

상기 기계 학습기(150)는 벡터화된 트레이닝 데이터셋을 학습하여 딥 러닝 알고리즘 예측 모델을 생성한다.

상기 트레이닝 데이터셋 벡터화기(140)에서 벡터화된 API 호출 그래프들을 가지고 CNN 학습을 진행한다.

도 3을 참조하면, 상기 트레이닝 데이터셋 벡터화기(140)는 추출된 ACG를 전부 합쳐서 트레이닝 데이터셋으로 생성하는 트레이닝 데이터셋 생성기(142) 및 딥러닝을 위해 생성된 트레이닝 데이터셋을 벡터화하는 임베딩 벡터화기(144)를 포함할 수 있다.

CNN 알고리즘을 이용하여 자연어 처리에 사용되는 1차원 크기의 합성곱 레이어(convolution layer)에서 연산을 한 후 풀링(pooling)을 진행하게 된다. 합성곱 레이어에서는 q만큼의 높이를 가진 p개의 필터를 이용하여 합성곱 연산을 수행한다.

이후, 생성된 feature map에서 특정 큰 데이터만 사용하는 것이 아닌 전체의 데이터를 사용하는 average pooling 을 적용한다. Average pooling 결과값을 가지고 flatten 과정을 거쳐 FC와 연결한다. 마지막으로 활성화 함수인 softmax로 예측 결과값을 도출해 낸다.

상기 패턴 추출기(160)는 생성된 예측 모델에서 악성 행위에 사용되는 ACG 특징을 추출하여 악성 애플리케이션들의 교집합으로부터 악성 행위 패턴을 추출한다.

도 3을 참조하면, 상기 패턴 추출기(160)는 API 호출 그래프 피쳐 추출기(162) 및 악성 행위 패턴 추출기(164)를 포함할 수 있다.

상기 API 호출 그래프 피쳐 추출기(162)는 학습된 예측 모델에서 딥러닝 시각화 기법을 이용하여 악성 행위에서 사용되는 ACG 피쳐를 딥러닝 시각화 기법으로 추출한다.

예를 들어, 예측 학습된 모델에서 Grad-CAM(Gradient-weighted Class Activation Map)을 이용하여 피쳐를 추출한다. Grad-CAM은 역전파(backpropagation)을 이용하여 기울기(gradient)값을 구하는 방식이다. Grad-CAM을 구하는 공식은 다음의 수학식 1과 같다.

여기서, ReLU는 딥러닝 활성화 함수(activation function)이고,

는 특징에 대한 가중치,

는 Convolution Layer의 벡터 feature map이다. 이렇게 Grad-CAM을 구하면, API 호출 그래프 피쳐가 추출된다. 이후 추출된 피쳐 데이터셋을 이용하여 트레이닝 데이터셋에서 피쳐 데이터셋만 따로 뽑아 트레이닝 데이터셋을 다시 구축한다.

구체적으로, Grad CAM 기법을 이용하여 학습된 CNN에서 어떤 API 호출 그래프가 결과값의 높은 판단 기준이 되었는지 확인할 수 있는 heat map을 추출한다. Heat map을 추출하기 위해서 학습된 CNN의 합성곱 레이어(convolution layer)에서 feature map

의 데이터와 학습 예측 결과

를 가지고 gradient 값

을 구한다.

이후 gradient 값을 이용하여 예측 결과에 대한 가중치 값인

을 구하고 feature map과 곱하여 최종 적으로 얻고자 하는 heat map을 얻게 된다. 이때 heat map 값이 클수록 악성 애플리케이션을 악성으로 분류하는데 중요한 피쳐(feature)임을 의미한다.

따라서 악성 행위 탐지를 위해, 추출한 heat map 값이 양수인 API 호출 그래프를 추출하여 악성 애플리케이션의 패턴을 생성하는데 사용한다. 이때 추출된 값을 API 호출 그래프 피쳐라고 한다.

상기 악성 행위 패턴 추출기(164)는 상기 API 호출 그래프 피쳐 추출기(162)에서 추출된 ACG 피쳐에서 유사한 ACG를 가진 악성 애플리케이션끼리 그룹화하여 악성 애플리케이션들의 교집합을 구하여 악성 행위 패턴을 추출한다.

다시 말해, 피쳐 트레이닝 데이터셋을 이용하여 악성 애플리케이션 중에서 같은 개수의 피쳐 트레이닝 데이터셋을 가진것들끼리 그룹화하여 패턴을 추출한다.

예를 들어, A라는 악성 애플리케이션에서 추출된 API 호출 그래프 피쳐 리스트()의 API 호출 그래프 개수가 11개 이고, B라는 악성 애플리케이션에서 추출된 API 호출 그래프 피쳐 리스트()의 개수가 11개 이면 같은 패턴을 가진 악성 애플리케이션으로 보고, A와 B의 피쳐들의 교집합을 구하여 추출한다.

만약, 추출된 교집합이 ACG의 개수인 11개의 반보다 작게 나오면 A와 B의 교집합을 패턴으로 이용하지 않고 A와 B의 11개의 API 호출 그래프 피쳐를 각각 악성 패턴으로 사용한다. 개수별로 패턴이 1개가 추출될 수도 있고, 여러 개가 추출될 수도 있다.

상기 위험 애플리케이션 분류기(170)는 추출된 악성 행위 패턴과 타겟 애플리케이션에서 추출된 패턴의 유사도 비교를 통해 악성 행위를 하는 애플리케이션을 분류한다.

도 3을 참조하면, 상기 위험 애플리케이션 분류기(170)는 자카드 유사도 비교기(172)를 포함할 수 있다. 상기 자카드 유사도 비교기(172)는 추출된 악성 행위 패턴을 목록화하여 타겟 애플리케이션에서 추출된 ACG에서 악성 행위 패턴 목록과 자카드 유사도를 측정한다. 측정한 유사도를 이용하여 악성 애플리케이션을 분류한다.

악성 애플리케이션 Dataset을 가지고 악성 행위 패턴 리스트에서 같은 API 호출 그래프 피쳐의 개수를 가진 패턴이랑 자카드 유사도(Jaccard Similarity)를 측정한다. 자카드 유사도의 식은 다음의 수학식 2와 같다.

[수학식 2]

측정한 자카드 유사도 점수를 기준점으로 정하여, 이 점수보다 같거나 크면 악성 애플리케이션으로 분류하고, 이 점수보다 낮으면 양성 애플리케이션으로 분류할 수 있다.

이하에서는, 본 발명에서 제안한 CNN 기반 모바일 애플리케이션 악성 행위 패턴 탐지 기법에 대한 실험 구성 및 실험 평가에 관하여 서술한다.

실험 환경은 Intel(R) Xeon(R) W-2123 4-core 3.60GHz CPU와 32GB RAM, NVIDIA Quadro P4000, 윈도우 10 pro를 사용하였고, API 호출 그래프 추출을 위해 Flowdroid 2.0 버전, Python 3.7.2 버전 및 Tensorflow 1.14.0, Keras 2.2.4 버전을 사용하였다.

트레이닝 데이터셋은 2018년도에 나온 애플리케이션을 대상으로 하였고, Androzoo에서 만든 프로그램을 이용하여 Google Play Store에서 랜덤으로 10,000개의 일반 애플리케이션과 VirusShare에서 제공하는 애플리케이션 중, 용량이 가장 큰 순서대로 상위 10,000개의 악성 애플리케이션을 사용하였다.

Training Dataset 안드로이드와 구글에서 제공하는 Framework API를 사용하여 Framework API 리스트를 만들고, 악성과 일반 애플리케이션에서 API 호출 그래프를 추출하여 트레이닝 데이터셋을 구축하였다. 트레이닝 데이터셋의 최소화를 위해 API는 안드로이드에서 제공하는 단위인 package 단위를 사용하였다. package 단위를 사용하여 API의 개수를 줄이고, 조금씩 변하는 안드로이드 API에도 빠르게 대응되도록 하였다.

총 444개의 API package는 API 호출 그래프로 추출하였을 때 API -> API와 같은 하나의 단어 형태로 사용하였다. 총 444x444개의 API 호출 그래프 리스트가 생성되는 것을 확인할 수 있다. 이후 중복을 제거하여 최적화된 API 호출 그래프를 추출하였다.

피쳐 선택(Feature Selection) CNN 기법으로 학습한 이후에, Grad CAM을 적용하여 가중치 값을 찾아 피쳐로 사용한다. CNN을 빠르게 학습하기 위하여 convolution layer 1층과 pooling layer 1층만을 사용하여 기본적인 CNN 모델을 만든다. 이후에 학습을 반복하는 파라미터인 epoch을 50으로 설정하여, 그 중 accuracy가 가장 높고, loss가 낮은 학습모델을 저장하여 사용한다.

Epoch이 7일 때 정확도 99.71%, loss 0.0104로 가장 좋은 성능을 보이므로, 그 모델을 저장하여 사용한다. 이후 Grad CAM을 적용하여 heat map을 추출했을 때, 약 8,545개의 피쳐가 악성 애플리케이션으로 분류하는데 가중치 값에 영향을 주는 피쳐로 확인되었다. 학습 결과는 도 4와 같고 API 호출 그래프 피쳐 리스트는 도 5와 같다.

API Pattern 악성 애플리케이션에서 Grad CAM을 통해 추출된 도 5의 API 호출 그래프 피쳐를 가지고 교집합을 이용하여 악성 애플리케이션에서만 사용되는 패턴을 추출한다. 패턴을 추출하기 위해서 피쳐로 선택된 8,545개의 API 호출 그래프들만을 선택하여 애플리케이션별 API 호출 그래프를 추출하고, API 호출 그래프를 가장 작게 가지고 있는 악성 애플리케이션을 기준으로 11개부터 727개까지의 교집합을 추출하여 악성 패턴을 생성한다. 생성된 패턴 리스트는 도 6과 같다.

이후 생성된 패턴 493개를 이용하여 악성 애플리케이션들과의 자카드 유사도(jaccard similarity) 값을 구한다. 자카드 유사도 값 중 가장 작은 값을 기준으로 악성 유무를 판별하게 된다. 자카드 유사도 측정 결과는 다음과 같다. 생성한 패턴을 이용하여 악성 및 일반 애플리케이션의 자카드 유사도 값이 비교적 명확하게 구분되어 측정된다. 악성 행위를 하는 애플리케이션과 정상적인 기능을 하는 애플리케이션의 실제 동작 패턴이 다르다는 것을 확인할 수 있다.

실험 결과 추출한 도 6의 악성 행위 Pattern list를 가지고 악성 애플리케이션 10,000개와 일반 애플리케이션 10,000개를 분류하여 실험을 진행하였다.

악성 유무를 구분하는 기준인 도 7의 자카드 유사도 값을 이용 하여, 앞에서 생성한 패턴 리스트와 타겟 애플리케이션의 API 호출 그래프 피쳐를 비교하여 악성 유무를 판별한다. 도 7과 같이 타겟 애플리케이션에 기준치 이상의 패턴이 감지되면 어떤 패턴이 감지되었는지 알려주고, 악성으로 판별한다. 반면, 기준치 이하의 패턴이 감지되면 정상적인 애플리케이션으로 판별하게 된다.

또한, 실험 결과 본 발명에서 제안한 API 호출 그래프를 피쳐로 사용하여 분류하는 방법이 시간과 정확도 면에서 우수한 성능을 보였다.

본 발명에서는 빠르게 악성 애플리케이션이 늘어남에 따라 안드로이드 기반 악성 애플리케이션을 적은 피쳐로 빠르게 탐지하는 방법을 제시하였다. 안드로이드 애플리케이션의 경우 수정 및 재배포가 비교적 간편하여, 이를 막기 위해 악성 애플리케이션의 실제적인 동작 자체를 분석하는 것이 필요하다. 따라서, 실제 동작을 기반으로 악성 애플리케이션에서 자주 사용되는 패턴을 확인함으로 직접적으로 악성 행위에 대해 파악하고 분석하였다. 또한, 빠르게 생성되고 배포되는 악성 애플리케이션에 신속하게 대응할 수 있도록 하였다.

본 발명에서 제안된 기법에서는 CNN을 이용하여 악성 애플리케이션의 실제 동작을 담고 있는 API 호출 그래프를 분석하고, 학습할 때에 주어지는 가중치를 활용하여 사람보다 정확하고 빠르게 피쳐를 선택할 수 있게 하였다. 딥러닝에서 가중치로 주어지는 피쳐를 선택하여 사용하였기 때문에, 비교적 객관적인 피쳐를 사용했다고 볼 수 있다.

본 실시예에 따른 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법은, 도 1의 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다.

또한, 본 실시예에 따른 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법은 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지를 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.

본 발명은 모바일 애플리케이션에 실제 동작 기능을 담고 있는 API를 기반으로, API들의 사용 관계를 파악할 수 있는 API 호출 그래프(ACG)를 이용한다. 또한, ACG를 딥러닝 기법으로 악성 행위 자체를 분석하여 탐지할 수 있도록 악성 행위 패턴을 추출한다.

도 8을 참조하면, 본 실시예에 따른 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법은, 안드로이드 홈페이지에서 프레임워크 API 정보를 크롤링하여 추출하여 추출한 프레임워크 API 정보를 저장한다(단계 S10).

정상적인 애플리케이션과 악성 행위를 하는 애플리케이션으로부터 API의 호출 흐름인 ACG(API Call Graph)를 추출한다(단계 S20). 이 때, 오염 분석 기법을 이용하여 호출 흐름인 ACG(API Call Graph)를 추출할 수 있다.

추출된 ACG를 딥러닝을 위한 트레이닝 데이터셋으로 생성하여 벡터화한다(단계 S30). 먼저, 추출된 ACG를 전부 합쳐서 트레이닝 데이터셋으로 생성하고, 딥러닝을 위해 생성된 트레이닝 데이터셋을 벡터화한다.

벡터화된 트레이닝 데이터셋을 학습하여 딥 러닝 알고리즘 예측 모델을 생성한다(단계 S40).

생성된 예측 모델에서 악성 행위에 사용되는 ACG 특징을 추출하여 악성 애플리케이션들의 교집합으로부터 악성 행위 패턴을 추출한다(단계 S50).

학습된 예측 모델에서 딥러닝 시각화 기법을 이용하여 악성 행위에서 사용되는 ACG 피쳐를 딥러닝 시각화 기법으로 추출하고, 추출된 ACG 피쳐에서 유사한 ACG를 가진 악성 애플리케이션끼리 그룹화하여 악성 애플리케이션들의 교집합을 구하여 악성 행위 패턴을 추출한다.

추출된 악성 행위 패턴과 타겟 애플리케이션에서 추출된 패턴의 유사도 비교를 통해(단계 S60), 악성 행위를 하는 애플리케이션을 분류한다(단계 S70). 추출된 악성 행위 패턴을 목록화하여 타겟 애플리케이션에서 추출된 ACG에서 악성 행위 패턴 목록과 자카드 유사도(Jaccard Similarity)를 측정한다.

본 발명은 API의 호출 흐름인 ACG를 이용하여 악성 애플리케이션에서 동작되는 실제 동작을 파악하고, 딥러닝 기법을 사용하여 악성 애플리케이션에서 동작되는 악성 행위 패턴을 분석하여 악성 애플리케이션을 분류할 수 있다. 따라서, 악성 행위 자체를 탐지할 수 있으므로, 악성 행위를 예측 탐지하여 악성 행위로 인한 피해를 방지할 수 있다.

이와 같은, API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

[산업상 이용가능성]

본 발명은 API의 호출 흐름인 ACG를 이용하여 악성 애플리케이션에서 동작되는 실제 동작을 파악하고, 딥러닝 기법을 사용하여 악성 애플리케이션에서 동작되는 악성 행위 패턴을 분석하여 악성 애플리케이션을 분류할 수 있는 기술이다. 그러므로 애플리케이션의 악성 행위 자체를 탐지할 수 있어, 악성 행위를 예측 탐지하여 악성 행위로 인한 피해를 방지할 수 있을 것으로 기대된다.

[부호의 설명]

10: 모바일 애플리케이션 악성 행위 패턴 탐지 장치

110: 프레임워크 API 크롤러

120: 프레임워크 API 데이터베이스

130: API 호출 그래프 추출기

140: 트레이닝 데이터셋 벡터화기

150: 기계 학습기

160: 패턴 추출기

170: 위험 애플리케이션 분류기

142: 생성하는 트레이닝 데이터셋 생성기

144: 임베딩 벡터화기

162: API 호출 그래프 피쳐 추출기

164: 악성 행위 패턴 추출기

172: 자카드 유사도 비교기

Claims

정상적인 애플리케이션과 악성 행위를 하는 애플리케이션으로부터 API의 호출 흐름인 ACG(API Call Graph)를 추출하는 단계;

추출된 ACG를 딥러닝을 위한 트레이닝 데이터셋으로 생성하여 벡터화하는 단계;

벡터화된 트레이닝 데이터셋을 학습하여 딥 러닝 알고리즘 예측 모델을 생성하는 단계;

생성된 예측 모델에서 악성 행위에 사용되는 ACG 특징을 추출하여 악성 애플리케이션들의 교집합으로부터 악성 행위 패턴을 추출하는 단계; 및

추출된 악성 행위 패턴과 타겟 애플리케이션에서 추출된 패턴의 유사도 비교를 통해 악성 행위를 하는 애플리케이션을 분류하는 단계;를 포함하는, API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법.
제1항에 있어서,

안드로이드 홈페이지에서 프레임워크 API 정보를 크롤링하여 추출하는 단계; 및

추출한 프레임워크 API 정보를 저장하는 단계;를 더 포함하는, API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법.
제1항에 있어서, 상기 ACG(API Call Graph)를 추출하는 단계는,

오염 분석 기법(Taint Analysis)을 이용하여 호출 흐름인 ACG(API Call Graph)를 추출하는, API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법.
제1항에 있어서, 상기 위한 트레이닝 데이터셋으로 생성하여 벡터화하는 단계는,

추출된 ACG를 전부 합쳐서 트레이닝 데이터셋으로 생성하는 단계; 및

딥러닝을 위해 생성된 트레이닝 데이터셋을 벡터화하는 단계;를 포함하는, API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법.
제1항에 있어서, 상기 악성 행위 패턴을 추출하는 단계는,

학습된 예측 모델에서 딥러닝 시각화 기법을 이용하여 악성 행위에서 사용되는 ACG 피쳐를 딥러닝 시각화 기법으로 추출하는 단계; 및

추출된 ACG 피쳐에서 유사한 ACG를 가진 악성 애플리케이션끼리 그룹화하여 악성 애플리케이션들의 교집합을 구하여 악성 행위 패턴을 추출하는 단계;를 포함하는, API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법.
제1항에 있어서, 상기 위험 애플리케이션 분류기는,

추출된 악성 행위 패턴을 목록화하여 타겟 애플리케이션에서 추출된 ACG에서 악성 행위 패턴 목록과 자카드 유사도(Jaccard Similarity)를 측정하는 단계;를 포함하는, API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법.
제1항에 따른, 상기 API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
정상적인 애플리케이션과 악성 행위를 하는 애플리케이션으로부터 API의 호출 흐름인 ACG(API Call Graph)를 추출하는 API 호출 그래프 추출기;

추출된 ACG를 딥러닝을 위한 트레이닝 데이터셋으로 생성하여 벡터화하는 트레이닝 데이터셋 벡터화기;

벡터화된 트레이닝 데이터셋을 학습하여 딥 러닝 알고리즘 예측 모델을 생성하는 기계 학습기;

생성된 예측 모델에서 악성 행위에 사용되는 ACG 특징을 추출하여 악성 애플리케이션들의 교집합으로부터 악성 행위 패턴을 추출하는 패턴 추출기; 및

추출된 악성 행위 패턴과 타겟 애플리케이션에서 추출된 패턴의 유사도 비교를 통해 악성 행위를 하는 애플리케이션을 분류하는 위험 애플리케이션 분류기;

를 포함하는, API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 장치.
제8항에 있어서,

안드로이드 홈페이지에서 프레임워크 API 정보를 추출하는 프레임워크 API 크롤러; 및

추출한 프레임워크 API 정보를 저장하는 프레임워크 API 데이터베이스;를 더 포함하는, API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 장치.
제8항에 있어서, 상기 API 호출 그래프 추출기는,

오염 분석 기법(Taint Analysis)을 이용하여 호출 흐름인 ACG(API Call Graph)를 추출하는, API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 장치.
제8항에 있어서, 상기 트레이닝 데이터셋 벡터화기는,

추출된 ACG를 전부 합쳐서 트레이닝 데이터셋으로 생성하는 트레이닝 데이터셋 생성기; 및

딥러닝을 위해 생성된 트레이닝 데이터셋을 벡터화하는 임베딩 벡터화기;를 포함하는, API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 장치.
제8항에 있어서, 상기 패턴 추출기는,

학습된 예측 모델에서 딥러닝 시각화 기법을 이용하여 악성 행위에서 사용되는 ACG 피쳐를 딥러닝 시각화 기법으로 추출하는 API 호출 그래프 피쳐 추출기; 및

추출된 ACG 피쳐에서 유사한 ACG를 가진 악성 애플리케이션끼리 그룹화하여 악성 애플리케이션들의 교집합을 구하여 악성 행위 패턴을 추출하는 악성 행위 패턴 추출기;를 포함하는, API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 장치.
제8항에 있어서, 상기 위험 애플리케이션 분류기는,

추출된 악성 행위 패턴을 목록화하여 타겟 애플리케이션에서 추출된 ACG에서 악성 행위 패턴 목록과 자카드 유사도(Jaccard Similarity)를 측정하는 자카드 유사도 비교기;를 포함하는, API 호출 그래프 추출 기반 모바일 애플리케이션 악성 행위 패턴 탐지 장치.