KR20220060203A - 악성코드 탐지모델 학습방법 및 악성코드 탐지방법 - Google Patents

악성코드 탐지모델 학습방법 및 악성코드 탐지방법 Download PDF

Info

Publication number
KR20220060203A
KR20220060203A KR1020200145915A KR20200145915A KR20220060203A KR 20220060203 A KR20220060203 A KR 20220060203A KR 1020200145915 A KR1020200145915 A KR 1020200145915A KR 20200145915 A KR20200145915 A KR 20200145915A KR 20220060203 A KR20220060203 A KR 20220060203A
Authority
KR
South Korea
Prior art keywords
code
app
native
algorithm
malicious
Prior art date
Application number
KR1020200145915A
Other languages
English (en)
Other versions
KR102434899B1 (ko
Inventor
박우길
Original Assignee
영남대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 영남대학교 산학협력단 filed Critical 영남대학교 산학협력단
Priority to KR1020200145915A priority Critical patent/KR102434899B1/ko
Priority to PCT/KR2021/012224 priority patent/WO2022097898A1/ko
Publication of KR20220060203A publication Critical patent/KR20220060203A/ko
Application granted granted Critical
Publication of KR102434899B1 publication Critical patent/KR102434899B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Stored Programmes (AREA)
  • Debugging And Monitoring (AREA)

Abstract

본 개시는 악성코드 탐지모델 학습방법 및 악성코드 탐지방법을 제공한다.
본 개시의 일 측면에 의하면, 앱(app)의 코드를 네이티브 코드(native code)로 변환하고, 네이티브 코드로부터 인스트럭션 코드 쌍(pair of instructions code)을 추출하고, 인스트럭션 코드 쌍을 기초로 복수의 피처 추출 알고리즘(feature extraction algorithm)으로부터 공통된 피처(feature)를 추출하여 악성코드를 탐지하는 방법 및 악성코드 탐지모델을 학습시키는 방법을 제공한다.

Description

악성코드 탐지모델 학습방법 및 악성코드 탐지방법 {Method for Training Malware Detection Model And Method for Detecting Malware}
본 발명은 악성코드 탐지모델 학습방법 및 기 학습된 악성코드 탐지모델을 이용한 악성코드 탐지방법에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
안드로이드 앱(android app)은 역어셈블(disassemble)이 가능하므로, 악성코드(malware)가 쉽게 내장될 수 있다. 이러한 문제를 해결하기 위한 다양한 악성코드 탐지방법이 제시되고 있다. 이러한 악성코드 탐지방법으로는, 패턴매칭(pattern matching) 기법이 있다. 패턴매칭 기법은 동일한 패턴을 보이는 악성코드 탐지에는 높은 정확도를 가지고 탐색 속도도 빠르지만, 코드가 변형되거나 은닉기법이 사용되어 탐지를 회피할 수 있는 단점이 있다.
악성코드 탐지를 회피 내지 우회하는 방법으로는 악성코드를 코드 난독화(code obfuscation)하거나, 네이티브 코드(native code)를 사용하는 방법 등이 있다. 코드 난독화는 자바 바이트코드(java bitecode)의 기능은 그대로 유지하면서 코드의 순서를 바꾸거나 의미 없는 코드를 추가하고 심볼 정보를 축약하는 등 코드의 패턴을 없애는 방법이다. 악성코드가 코드 난독화된 경우, 종래의 패턴매칭 기법으로는 악성코드를 탐지하기 어려운 문제가 있다.
네이티브 코드의 사용은 악성코드가 적용된 코드를 자바 바이트코드가 아니라 네이티브 코드로 구현하는 방법으로, 자바 바이트코드의 탐색을 주로 수행하는 종래의 악성코드 스캐너(malware scanner)로는 악성코드를 탐지하기 어렵다.
따라서, 자바 바이트코드와 네이티브 코드를 모두 포함하는 안드로이드 앱의 특성 및 코드 난독화를 고려한 악성코드 탐지 방안의 고안이 필요하다.
본 개시의 일 측면에 의하면, 앱(app)의 코드를 네이티브 코드(native code)로 변환하고, 네이티브 코드로부터 인스트럭션 코드 쌍(pair of instructions code)을 추출하고, 인스트럭션 코드 쌍을 기초로 복수의 피처 추출 알고리즘(feature extraction algorithm)으로부터 공통된 피처(feature)를 추출하여 악성코드를 탐지하는 방법 및 악성코드 탐지모델을 학습시키는 방법을 제공하는 데 주된 목적이 있다.
본 개시의 일 측면에 의하면, 기 학습된 악성코드 탐지모델을 이용하여 앱(app)으로부터 악성코드를 탐지하는 방법에 있어서, 상기 앱에 포함된 자바 바이트코드(java bitecode)를 네이티브 코드(native code)로 변환하는 과정; 상기 앱의 모든 네이티브 코드로부터 추출한 코드 세그먼트(code segment)를 기초로 연속된 인스트럭션 코드(instructions code)의 쌍인 인스트럭션 코드 쌍(pair of consecutive instructions code)을 추출하는 과정; 상기 인스트럭션 코드 쌍으로부터 2 이상의 피처 추출 알고리즘을 이용하여 각 피처 추출 알고리즘이 공통적으로 추출한 피처(feature)를 획득하는 과정; 및 획득한 피처를 상기 악성코드 탐지모델의 입력 데이터로 하여, 악성코드 탐지를 수행한 결과를 획득하는 과정을 포함하는 것을 특징으로 하는 악성코드 탐지방법을 제공한다.
본 개시의 다른 측면에 의하면, 전술한 악성코드 탐지방법의 각 과정을 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터 프로그램을 제공한다.
본 개시의 또 다른 측면에 의하면, 앱(app)의 악성코드(malware)를 탐지하기 위한 악성코드 탐지모델(malware detection model)을 학습시키는 방법에 있어서, 데이터 셋(dataset)의 각 앱에 포함된 자바 바이트코드(java bitecode)를 네이티브 코드(native code)로 변환하는 과정; 상기 앱의 모든 네이티브 코드로부터 추출한 코드 세그먼트(code segment)로부터 연속된 인스트럭션 코드의 쌍인 인스트럭션 코드 쌍(pair of consecutive instructions code)을 추출하는 과정; 상기 인스트럭션 코드 쌍으로부터 2 이상의 피처 추출 알고리즘을 이용하여 각 피처 추출 알고리즘이 공통적으로 추출한 피처(feature)를 획득하는 과정; 및 획득한 피처를 기초로 상기 악성코드 탐지모델을 기계학습(machine learning)시키는 과정을 포함하는 것을 특징으로 하는 악성코드 탐지모델 학습방법을 제공한다.
본 개시의 일 측면에 의하면, 앱의 코드를 네이티브 코드로 변환하고, 네이티브 코드로부터 인스트럭션 코드 쌍을 추출하고, 인스트럭션 코드 쌍을 기초로 복수의 피처 추출 알고리즘으로부터 공통된 피처를 추출하여 악성코드를 탐지하는 방법 및 악성코드 탐지모델을 학습시키는 방법을 제공함으로써, 코드 난독화된 악성코드 또는 네이티브 코드로 구현된 악성코드를 신속하게 탐지하는 효과가 있다.
도 1은 본 개시의 일 실시예에 따른 악성코드 탐지방법 및 악성코드 탐지모델의 학습방법을 나타내는 순서도이다.
도 2는 본 개시의 일 실시예에 따른 악성코드 탐지모델의 학습방법을 구체화한 순서도이다.
도 3a 및 도 3b는 본 개시의 일 실시예에 따른 악성코드 탐지모델을 이용한 악성코드 탐지의 성능을 나타내는 도표이다.
이하, 본 개시의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 열람부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 개시를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제2, 제1 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '…부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
첨부된 도면과 함께 이하에 개시될 상세한 설명은 본 개시의 예시적인 실시형태를 설명하고자 하는 것이며, 본 개시가 실시될 수 있는 유일한 실시형태를 나타내고자 하는 것이 아니다.
도 1은 본 개시의 일 실시예에 따른 악성코드 탐지방법 및 악성코드 탐지모델 학습방법을 나타내는 순서도이다.
앱(예: 안드로이드 앱)의 자바 바이트코드(java bitecode)를 네이티브 코드(native code)로 변환한다(S100). 이러한 네이티브 코드로의 변환은, 자바 바이트코드를 달빅 VM(Dalvik Virtual Machine) 또는 ART 툴(Android RunTime tool) 등과 같은 변환 툴을 이용하여 수행될 수 있다. 이로써 앱의 코드 전체가 네이티브 코드가 되어 자바 바이트코드로 작성된 악성코드는 물론, 네이티브 코드로 작성된 악성코드 또한 본 개시의 악성코드 탐지모델만으로 탐지할 수 있게 된다.
피처 추출에 있어서 과도한 데이터 처리 없이 피처를 추출할 수 있도록, 변환된 앱의 네이티브 코드 중 코드 세그먼트(code segment)만 남기고 나머지 리소스(resource), 데이터(data) 등은 제거한다(S102). 변환되기 전부터 앱에 존재하였던 네이티브 코드는, 앱의 공유 라이브러리 파일(shared library file)의 네이티브 코드를 추출하여 변환된 네이티브 코드와 병합한 후 S102 단계를 수행할 수 있다.
코드 세그먼트로부터 연속된 두 인스트럭션 코드(instructions code) 쌍(pair)을 피처(feature)로서 추출한다(S104). 이러한 인스트럭션 코드는, 연산 코드(OP-code), 모드 및 피연산자의 주소 필드를 전부 또는 일부 포함할 수 있다. 이때, 악성코드와 앱의 코드로부터 공통적이면서도 일반적으로 사용되는 인스트럭션 코드는 제외하고 추출하거나, 최종 피처 추출 이전에 제거됨이 바람직하다. 예컨대, 단순한 사칙연산(arithmetic operation) 코드 등이 제거될 수 있다. 악성코드와 앱의 코드에서 공통적이면서도 일반적으로 사용되는 인스트럭션 코드를 제외함으로써, 추후 피처 추출 알고리즘을 이용한 피처 획득의 연산 시간을 감소시킬 수 있다.
인스트럭션 코드 쌍을 추출하는 방법의 예를 들면 다음과 같다. 코드 세그먼트에 인스트럭션코드 A, B, C, A 및 D가 차례로 존재하고, C가 흔히 사용되는 인스트럭션 코드로서 제거될 코드인 경우, 최종 추출되는 인스트럭션 코드 쌍이자 피처는 (A, B), (A, D)가 된다. 이때, (A, B)와 (B, A)는 동일한 인스트럭션 코드 쌍으로 처리한다.
피처로 추출되는 인스트럭션 코드가 반드시 두 개로 한정되는 것은 아니나, 피처로 추출하는 인스트럭션 코드의 개수가 증가할수록 코드 난독화(code obfuscation)의 영향을 크게 받으므로, 코드 난독화의 영향을 최소화하면서도 높은 탐지 성능을 획득하기 위하여 코드의 개수를 제한할 필요가 있다.
복수의 피처 추출 알고리즘(feature extraction algorithm)을 이용하여, S104 단계에서 추출한 인스트럭션 코드 쌍으로부터 피처를 추출하고, 이러한 피처들 중 각 알고리즘에서 공통적으로 추출되는 피처를 악성코드 탐지모델의 입력 데이터로서 획득한다(S106). 종래에는 악성코드 탐지에 각 피처 추출 알고리즘이 추출한 피처들을 모두 이용하는 방식을 채용하였으나, 이 경우 연산량이 지나치게 증가하여 연산속도가 저하되는 문제가 있었다.
피처 추출 알고리즘으로는, Pearson correlation 알고리즘, Mutual information 알고리즘, Kendall correlation 알고리즘, Spearmen correlation 알고리즘, Chi squared 알고리즘, Fischer scored 알고리즘 등이 있다. S106 단계에서는 이러한 알려진 알고리즘을 둘 이상 이용하여 공통되는 피처를 획득할 수 있다. 각 알고리즘이 피처를 추출하는 과정은 병렬적으로 수행됨이 바람직하다.
이러한 피처 획득은, 각 알고리즘으로부터 중요도(importance)가 높은 기 설정된 개수의 피처를 추출하고, 추출된 피처들 중 공통되는 피처만을 선택함으로써 수행될 수 있다.
S106 단계에서 획득한 피처를 기초로 악성코드 탐지모델의 입력 데이터로 하여, 기 학습된 악성코드 탐지모델로부터 앱의 악성코드 탐지를 수행한다(S108). S100 단계 내지 S108 단계는, 앱을 실행할 수 있는 단말 등의 장치가 앱을 실행하기 전, 예컨대 장치에 앱이 다운로드됨과 동시에 수행됨이 바람직하다.
또는, S100 단계의 앱이 데이터 셋(dataset)에 포함된 앱으로서, 악성코드 탐지모델을 학습시키기 위해 악성코드 존재 여부, 악성코드의 위치 등이 라벨링(labeling)되어 있는 경우, S108 단계는 S106 단계에서 획득한 피처를 기초로 악성코드 탐지모델을 기계학습(machine learning)시킨다. 이러한 악성코드 탐지모델은 앱의 코드 전처리로 추출된 피처를 입력받아, 앱의 분류를 수행한다. 학습에 사용되는 기계학습 알고리즘은 분류 정확도와 분류 속도를 기초로 통상의 기술자가 용이하게 채용할 수 있는 알고리즘이면 어떤 것이든 본 개시에서의 기계학습 알고리즘으로 채용할 수 있다.
도 2는 본 개시의 일 실시예에 따른 악성코드 탐지모델 학습방법을 구체화한 순서도이다.
데이터 셋의 모든 앱의 apk 파일, apk 파일의 dex 파일 또는 dex 파일의 OAT(Optimized Ahead of Time) 파일 등에 대하여, 파일의 자바 바이트코드를 네이티브 코드로 변환시킨다(S200). 이러한 변환은 예컨대, dex 파일의 자바 바이트코드로 변환시키는 툴인 dex2aot 툴을 이용하여 수행될 수 있다.
변환되기 전의 파일에 네이티브 코드가 존재한다고 판단한 경우(S210), 해당 네이티브 코드를 피처 추출에 함께 사용하기 위해서 앱의 shared object 파일을 추출하여 변환된 네이티브 코드와 병합한다(S212).
S210 단계 및/또는 S212 단계 후, 앱의 네이티브 코드를 역어셈블링(disassembling)한다(S220). 이로써, 앱의 어셈블리 코드(assembly code)를 얻을 수 있다.
어셈블리 코드의 코드 세그먼트(code segment)로부터 연속된 인스트럭션 코드의 쌍을 추출한다(S230).
인스트럭션 코드 쌍을 입력값으로, Pearson correlation 알고리즘, Mutual information 알고리즘, Kendall correlation 알고리즘, Spearmen correlation 알고리즘, Chi squared 알고리즘 및 Fischer scored 알고리즘의 전부 또는 일부를 실행하여 악성코드 탐지모델을 트레이닝할 피처를 추출한다(S240). 이러한 알고리즘은 피처 추출 알고리즘의 예시적인 것으로, 반드시 S240 단계에 기술된 알고리즘에 한하여 피처를 추출하는 것은 아니고 통상의 기술자가 피처 추출을 위해 용이하게 채용할 수 있는 알고리즘이면 어떤 것이든 본 개시에서의 피처 추출 알고리즘으로서 채용할 수 있다.
추출된 피처를 기초로 트레이닝 데이터를 추출하여 결정트리(decision tree) 기반의 악성코드 탐지모델을 학습시킨다(S250). 이러한 학습은, 추출된 피처에 악성코드 포함 여부가 라벨링된 데이터 셋을 기초로 학습하는 지도 학습(supervised learning)되거나, 악성코드 포함 여부가 라벨링되지 않은 데이터 셋에 의하여 비지도 학습(unsupervised learning)되어 수행될 수 있다.
추출된 피처를 기초로 테스트 데이터를 추출하여 악성코드 탐지모델을 검증하고(S260), 성능을 평가한다(S270).
도 1 및 도 2에서는 과정 각 과정을 순차적으로 실행하는 것으로 기재하고 있으나, 이는 본 개시의 일 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것이다. 다시 말해, 본 개시의 일 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 개시의 일 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 도 1 및 도 2에 기재된 순서를 변경하여 실행하거나 각 과정 중 하나 이상의 과정을 병렬적으로 실행하는 것으로 다양하게 수정 및 변형하여 적용 가능할 것이므로, 도 1 및 도 2의 시계열적인 순서로 한정되는 것은 아니다.
도 3a 및 도 3b는 본 개시의 일 실시예에 따른 악성코드 탐지모델을 이용한 악성코드 탐지의 성능을 나타내는 도표이다.
도 3a의 (a)는 본 개시의 악성코드 탐지 성능을 평가하기 위하여 사용된 데이터 셋을 나타내는 도표이다. 본 성능 평가에서는 코드 난독화되지 않은 데이터 셋(도 3a의 (a)의 Un-obfuscated), 코드 난독화된 데이터 셋(도 3a의 (a)의 Obfuscated), 앱의 코드가 네이티브 코드로만 구성된 데이터 셋(도 3a의 (a)의 Native), 앱의 코드가 네이티브 코드, 코드 난독화된 코드 및 코드 난독화되지 않은 코드가 혼재된 데이터 셋(도 3a의 (a)의 Mixed)이다. 각 데이터 셋은 악성코드가 포함된 앱과 악성코드가 포함되지 않은 앱으로 구성되어 있다.
본 개시의 악성코드 탐지모델의 성능을 대비하기 위하여, 기존의 악성코드 탐지 툴인 Adagio, MUDFLOW, Droid-Native 알고리즘 기반의 악성코드 탐지 툴을 함께 사용하였다. 여기에서, Adagio 알고리즘은 코드 난독화된 악성코드 탐지 및 네이티브 코드로 구성된 악성코드 탐지를 지원하지 않는 알고리즘이고, DroidNative는 네이티브 코드로 구성된 악성코드 탐지만 지원하는 알고리즘이며, DroidSieve 알고리즘은 코드 난독화된 악성코드 탐지를 지원하고, 네이티브 코드로 구성된 악성코드 탐지는 부분적으로만 지원하는 알고리즘이다.
도 3a의 (b)는 코드 난독화되지 않은 데이터 셋을 기초로 학습 및 검증한 결과이고, 도 3a의 (c)는 코드 난독화된 데이터 셋을 기초로 학습 및 검증한 결과를, 도 3b의 (d)는 네이티브 코드로만 구성된 데이터 셋을 기초로 학습 및 검증한 결과를, 도 3b의 (e)는 네이티브 코드, 코드 난독화된 코드 및 코드 난독화되지 않은 코드가 혼재된 데이터 셋을 기초로 학습 및 검증한 결과를 나타낸다.
도 3a 및 도 3b의 (b) 내지 (e)에서는 본 개시의 악성코드 탐지방법을 "Proposed method(all segments w/ feature selection)"로 나타내었고, 본 개시에서의 피처 선정 과정(도 1의 S106 단계, 도 2의 S240 단계)이 적용되지 않은 경우(도 3a 및 도 3b의 (b) 내지 (e)의 "Proposed method(all segments w/o feature selection)")의 성능도 함께 평가하였다.
도 3a의 (b) 및 (c)를 참조하면, 본 개시의 악성코드 탐지방법을 이용하는 경우 다른 방법을 이용하는 경우 대비 탐지율(detection rate)이 항상 우수함을 확인할 수 있다. 비록, 코드 난독화된 데이터 셋을 기초로 한 성능 평가에서는 피처 선정 과정을 거치지 않은 악성코드 탐지방법을 적용하는 경우 대비 샘플당 평균 실행시간(average run time)이 약 0.4 배 더 소요되나, 이는 피쳐 선정의 단계를 더 수행함에 따른 자연스러운 현상이다. 한편, 본 개시의 악성코드 탐지방법을 이용하는 경우 Adagio, DroidNative, DroidSieve 알고리즘을 적용하는 경우 대비 실행시간의 현저한 감소를 확인할 수 있다.
도 3b의 (d)를 참조하면, 코드 난독화된 데이터 셋을 기초로 성능을 평가하는 경우, 본 개시의 악성코드 탐지방법을 적용하는 경우의 탐지율이 가장 우수함을 확인할 수 있고, Adagio, DroidNative, DroidSieve 알고리즘을 적용하는 경우 대비 실행시간이 현저히 감소되었음을 확인할 수 있다.
도 3b의 (e)를 참조하면, 혼재된 데이터 셋을 기초로 성능 평가 시, 본 개시의 악성코드 탐지방법을 적용하는 경우 98.3 %의 우수한 탐지율을 보임을 확인할 수 있다. 이러한 탐지율은, 탐지율에서 가장 우수한 성능을 보이는 DroidSieve 알고리즘 대비 1 % 낮은 수치이나, 본 개시의 악성코드 탐지방법의 샘플당 평균 실행시간이 DroidSieve 알고리즘의 실행시간 대비 약 13 %에 불과함을 고려할 때, 기존 알고리즘 대비 우수한 탐지율을 유지하면서도 현저한 연산 시간 감소 효과가 있는 것이다.
본 명세서에 설명되는 장치, 부(unit), 과정, 단계 등의 다양한 구현예들은, 디지털 전자 회로, 집적 회로, FPGA(field programmable gate array), ASIC(application specific integrated circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 프로그래밍 가능 시스템상에서 실행 가능한 하나 이상의 컴퓨터 프로그램들로 구현되는 것을 포함할 수 있다. 프로그래밍 가능 시스템은, 저장 시스템, 적어도 하나의 입력 디바이스, 그리고 적어도 하나의 출력 디바이스로부터 데이터 및 명령을 수신하고 이들에게 데이터 및 명령을 전송하도록 결합된 적어도 하나의 프로그래밍 가능 프로세서(이것은 특수 목적 프로세서일 수 있거나 혹은 범용 프로세서일 수 있음)를 포함한다. 컴퓨터 프로그램들(이것은 또한 프로그램들, 소프트웨어, 소프트웨어 애플리케이션들 혹은 코드로서 알려져 있음)은 프로그래밍 가능 프로세서에 대한 명령어들을 포함하며 "컴퓨터가 읽을 수 있는 기록매체"에 저장된다.
컴퓨터가 읽을 수 있는 기록매체는, 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체는 ROM, CD-ROM, 자기 테이프, 플로피디스크, 메모리 카드, 하드 디스크, 광자기 디스크, 스토리지 디바이스 등의 비휘발성(non-volatile) 또는 비 일시적인(non-transitory) 매체 또는 데이터 전송 매체(data transmission medium)와 같은 일시적인(transitory) 매체를 더 포함할 수도 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다.
본 명세서에 설명되는 시스템들 및 기법들의 다양한 구현예들은, 프로그램가능 컴퓨터에 의하여 구현될 수 있다. 여기서, 컴퓨터는 프로그램가능 프로세서, 데이터 저장 시스템(휘발성 메모리, 비휘발성 메모리, 또는 다른 종류의 저장 시스템이거나 이들의 조합을 포함함) 및 적어도 한 개의 커뮤니케이션 인터페이스를 포함한다. 예컨대, 프로그램가능 컴퓨터는 서버, 네트워크 기기, 셋톱박스, 내장형 장치, 컴퓨터 확장 모듈, 개인용 컴퓨터, 랩톱, PDA(Personal Data Assistant), 클라우드 컴퓨팅 시스템 또는 모바일 장치 중 하나일 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (10)

  1. 기 학습된 악성코드 탐지모델을 이용하여 앱(app)으로부터 악성코드를 탐지하는 방법에 있어서,
    상기 앱에 포함된 자바 바이트코드(java bitecode)를 네이티브 코드(native code)로 변환하는 과정;
    상기 앱의 모든 네이티브 코드로부터 추출한 코드 세그먼트(code segment)를 기초로 연속된 인스트럭션 코드(instructions code)의 쌍인 인스트럭션 코드 쌍(pair of consecutive instructions code)을 추출하는 과정;
    상기 인스트럭션 코드 쌍으로부터 2 이상의 피처 추출 알고리즘을 이용하여 각 피처 추출 알고리즘이 공통적으로 추출한 피처(feature)를 획득하는 과정; 및
    획득한 피처를 상기 악성코드 탐지모델의 입력 데이터로 하여, 악성코드 탐지를 수행한 결과를 획득하는 과정
    을 포함하는 것을 특징으로 하는 악성코드 탐지방법.
  2. 제1항에 있어서,
    상기 앱에 네이티브 코드가 본래부터 포함되어있는 경우, 상기 네이티브 코드로 변환하는 과정 이후에, 변환된 네이티브 코드와 상기 앱의 공유 라이브러리(shared library)에 포함된 네이티브 코드를 병합하는 과정
    을 더 포함하는 것을 특징으로 하는 악성코드 탐지방법.
  3. 제1항에 있어서,
    상기 코드 세그먼트는, 상기 앱의 모든 네이티브 코드를 역어셈블링(disassembling)한 어셈블리 코드(assembly code)의 코드 세그먼트인 것을 특징으로 하는 악성코드 탐지방법.
  4. 제1항에 있어서,
    상기 인스트럭션 코드 쌍은, 앱과 악성코드에 공통적으로 사용되는 인스트럭션 코드로서 기 설정된 인스트럭션 코드를 포함하지 않는 것을 특징으로 하는 악성코드 탐지방법.
  5. 제1항에 있어서,
    상기 피처를 획득하는 과정은,
    싱기 각 피처 추출 알고리즘으로부터 추출된 피처를 중요도(importance)를 기초로 기 지정된 개수만큼 추출하고, 추출된 피처들 중 공통되는 피처를 획득하는 것을 특징으로 하는 악성코드 탐지방법.
  6. 제1항에 있어서,
    상기 2 이상의 피처 추출 알고리즘의 적어도 한 알고리즘은, Pearson correlation 알고리즘, Mutual information 알고리즘, Kendall correlation 알고리즘, Spearmen correlation 알고리즘, Chi squared 알고리즘 및 Fischer scored 알고리즘인 것을 특징으로 하는 악성코드 탐지방법.
  7. 제1항 내지 제6항에 따른 악성코드 탐지방법의 각 과정을 실행시키기 위하여 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터 프로그램.
  8. 앱(app)의 악성코드(malware)를 탐지하기 위한 악성코드 탐지모델(malware detection model)을 학습시키는 방법에 있어서,
    데이터 셋(dataset)의 각 앱에 포함된 자바 바이트코드(java bitecode)를 네이티브 코드(native code)로 변환하는 과정;
    상기 앱의 모든 네이티브 코드로부터 추출한 코드 세그먼트(code segment)로부터 연속된 인스트럭션 코드의 쌍인 인스트럭션 코드 쌍(pair of consecutive instructions code)을 추출하는 과정;
    상기 인스트럭션 코드 쌍으로부터 2 이상의 피처 추출 알고리즘을 이용하여 각 피처 추출 알고리즘이 공통적으로 추출한 피처(feature)를 획득하는 과정; 및
    획득한 피처를 기초로 상기 악성코드 탐지모델을 기계학습(machine learning)시키는 과정
    을 포함하는 것을 특징으로 하는 악성코드 탐지모델 학습방법.
  9. 제8항에 있어서,
    상기 데이터 셋의 상기 각 앱 중 네이티브 코드가 본래부터 포함되어있는 앱이 존재하는 경우, 상기 네이티브 코드로 변환하는 과정 이후에, 변환된 네이티브 코드와 네이티브 코드가 본래부터 포함되어있는 앱의 공유 라이브러리(shared library)에 포함된 네이티브 코드를 병합하는 과정
    을 더 포함하는 것을 특징으로 하는 악성코드 탐지모델 학습방법.
  10. 제8항에 있어서,
    상기 피처를 획득하는 과정은,
    상기 각 피처 추출 알고리즘으로부터 추출된 피처를 중요도(importance)를 기초로 기 지정된 개수만큼 추출하고, 추출된 피처들 중 공통되는 피처를 획득하는 것을 특징으로 하는 악성코드 탐지방법.
KR1020200145915A 2020-11-04 2020-11-04 악성코드 탐지모델 학습방법 및 악성코드 탐지방법 KR102434899B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200145915A KR102434899B1 (ko) 2020-11-04 2020-11-04 악성코드 탐지모델 학습방법 및 악성코드 탐지방법
PCT/KR2021/012224 WO2022097898A1 (ko) 2020-11-04 2021-09-08 악성코드 탐지모델 학습방법 및 악성코드 탐지방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200145915A KR102434899B1 (ko) 2020-11-04 2020-11-04 악성코드 탐지모델 학습방법 및 악성코드 탐지방법

Publications (2)

Publication Number Publication Date
KR20220060203A true KR20220060203A (ko) 2022-05-11
KR102434899B1 KR102434899B1 (ko) 2022-08-23

Family

ID=81457915

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200145915A KR102434899B1 (ko) 2020-11-04 2020-11-04 악성코드 탐지모델 학습방법 및 악성코드 탐지방법

Country Status (2)

Country Link
KR (1) KR102434899B1 (ko)
WO (1) WO2022097898A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023224208A1 (ko) 2022-05-17 2023-11-23 주식회사 엘지에너지솔루션 전극 시트 건조 장치 및 이를 이용한 전극 제조 시스템
KR20240104047A (ko) 2022-12-27 2024-07-04 충남대학교산학협력단 악성코드 탐지 장치 및 그 학습 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9032526B2 (en) * 2011-05-12 2015-05-12 Microsoft Technology Licensing, Llc Emulating mixed-code programs using a virtual machine instance
KR102582580B1 (ko) * 2016-01-19 2023-09-26 삼성전자주식회사 악성 코드 분석을 위한 전자 장치 및 이의 방법
KR102509594B1 (ko) * 2016-06-28 2023-03-14 삼성전자주식회사 어플리케이션 코드의 위변조 여부 탐지 방법 및 이를 지원하는 전자 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Shahid Alam et al, "DroidNative: Semantic-Based Detection of Android Native Code Malware"(2016.02.)* *
Simen Rune Bragen, "Malware detection through opcode sequence analysis using machine learning"(2015.06.)* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023224208A1 (ko) 2022-05-17 2023-11-23 주식회사 엘지에너지솔루션 전극 시트 건조 장치 및 이를 이용한 전극 제조 시스템
KR20240104047A (ko) 2022-12-27 2024-07-04 충남대학교산학협력단 악성코드 탐지 장치 및 그 학습 방법

Also Published As

Publication number Publication date
WO2022097898A1 (ko) 2022-05-12
KR102434899B1 (ko) 2022-08-23

Similar Documents

Publication Publication Date Title
CN112041815B (zh) 恶意软件检测
RU2614557C2 (ru) Система и способ обнаружения вредоносных файлов на мобильных устройствах
KR102415971B1 (ko) 악성 모바일 앱 감지 장치 및 방법
EP2955658B1 (en) System and methods for detecting harmful files of different formats
US11048798B2 (en) Method for detecting libraries in program binaries
WO2015101097A1 (zh) 特征提取的方法及装置
CN111639337B (zh) 一种面向海量Windows软件的未知恶意代码检测方法及系统
KR101631242B1 (ko) 잠재 디리클레 할당을 이용한 악성 트래픽의 시그니처의 자동화된 식별 방법 및 장치
KR102006242B1 (ko) 바이너리 파일에 기초하여 오픈소스 소프트웨어 패키지를 식별하는 방법 및 시스템
KR102434899B1 (ko) 악성코드 탐지모델 학습방법 및 악성코드 탐지방법
CN113360910B (zh) 恶意应用的检测方法、装置、服务器和可读存储介质
KR102302484B1 (ko) 특성 선택에 기반한 모바일 악성 코드 분류 방법, 이를 수행하기 위한 기록 매체 및 장치
CN104680065A (zh) 病毒检测方法、装置及设备
US20230306112A1 (en) Apparatus and method for detection and classification of malicious codes based on adjacency matrix
CN113381963A (zh) 一种域名检测方法、装置和存储介质
CN112966713A (zh) 基于深度学习的dga域名检测方法、装置及计算机设备
Kakisim et al. Sequential opcode embedding-based malware detection method
KR20180133726A (ko) 특징 벡터를 이용하여 데이터를 분류하는 장치 및 방법
Chen et al. Malware classification using static disassembly and machine learning
US20210326615A1 (en) System and method for automatically detecting and repairing biometric crosslinks
KR101628602B1 (ko) 프로그램의 유사도를 판단하기 위한 유사도 판단 방법 및 유사도 판단 장치
CN110674497B (zh) 一种恶意程序相似度计算的方法和装置
CN107368740B (zh) 一种针对数据文件中可执行代码的检测方法及系统
WO2023072002A1 (zh) 开源组件包的安全检测方法及装置
CN114491528A (zh) 恶意软件的检测方法、装置和设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant