KR101526500B1 - 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템 - Google Patents

정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템 Download PDF

Info

Publication number
KR101526500B1
KR101526500B1 KR1020130160282A KR20130160282A KR101526500B1 KR 101526500 B1 KR101526500 B1 KR 101526500B1 KR 1020130160282 A KR1020130160282 A KR 1020130160282A KR 20130160282 A KR20130160282 A KR 20130160282A KR 101526500 B1 KR101526500 B1 KR 101526500B1
Authority
KR
South Korea
Prior art keywords
information entropy
web site
malicious
value
html file
Prior art date
Application number
KR1020130160282A
Other languages
English (en)
Inventor
김승주
김우석
강성훈
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020130160282A priority Critical patent/KR101526500B1/ko
Application granted granted Critical
Publication of KR101526500B1 publication Critical patent/KR101526500B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템에 관한 것으로, 보다 구체적으로는 파일입력부가 악성 코드 포함여부를 확인하고자 하는 웹사이트의 html 파일을 입력받는 단계; 카운트부가 상기 html 파일의 내부에 포함된 알파벳에 대한 출현빈도수를 카운트하는 단계; 엔트로피생성부가 상기 알파벳의 정보 엔트로피값을 생성하는 단계; 및 제어부가 상기 정보 엔트로피값을 기설정된 임계값과 비교하고, 상기 html 파일 내 악성 코드 포함여부를 확인하여 상기 웹사이트가 악성 의심 웹사이트인지 여부를 판단하는 단계;를 포함한다.
이러한 구성에 의해, 본 발명의 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템은 접속하고자 하는 웹사이트 내 악성 코드가 삽입되어 있는지 여부를 용이하게 파악할 수 있어, 악성 코드를 통해 상기 웹사이트에 접속한 PC 등의 단말이 공격받는 것을 방지할 수 있는 효과가 있다.

Description

정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템{Suspected malignant website detecting method and system using information entropy}
본 발명은 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템에 관한 것으로, 특히 사용자가 접속하고자 하는 웹사이트 내 악성 코드가 포함되어 있는지 여부를 용이하게 분석할 수 있는 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템에 관한 것이다.
IT 기술이 발달하면서, 윈도우, 리눅스, 유닉스 등의 다양한 운영체제 등에서 웹 브라우저를 제공함에 따라, 각종 금융 서비스, 전자 상거래 등이 이러한 웹 브라우저를 통해 사용자에게 서비스되고 있다.
하지만 이처럼 웹브라우저가 금융서비스, 전자상거래 등에 널리 이용됨에 따라 악의적인 목적을 가진 공격자가 웹브라우저를 통해 접속하는 웹사이트에 악성 코드를 삽입하고, 사용자가 단말을 통해 자신도 모르게 악성 코드가 삽입된 웹사이트에 접속하게 되면, 상기 악성 코드가 PC 등의 사용자 단말을 공격하여 원격제어를 통해 개인 정보 및 중요 자료 등을 유출시켜 각종 범죄에 악용하는 등의 문제점을 야기시켰다.
상술한 바와 같이, 본 발명의 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템을 살펴보면 다음과 같다.
선행기술은 한국공개특허공보 제2011-0124918호(2011.11.18)로서, 패턴 분석기법을 이용한 웹사이트의 악성코드 은닉 여부에 대한 탐지 시스템 및 방법에 관한 것이다. 이러한 선행기술은 사용자 입력에 대응하여 탐지대상 웹사이트 정보, 탐지항목, 탐지범위, 및 탐지명령 중 어느 하나 이상을 설정하고, 악성코드 탐지결과를 웹, 파일, 데이터베이스, 이메일, 및 SMS 중 어느 하나 이상의 포멧으로 출력하는 그래픽 유저 인터페이스부(GUI: Graphic User Interface); 상기 탐지항목에 대한 소스코드 패턴을 학습하고, 상기 탐지대상 웹사이트의 구조 분석을 통해 탐지대상 웹페이지를 추출한 후, 상기 학습된 소스코드 패턴을 기반으로 상기 탐지대상 웹페이지에 대한 패턴 인식을 수행하여 상기 탐지대상 웹페이지에 대한 악성코드 탐지를 제어하는 제어부; 및 상기 탐지대상 웹사이트 정보, 상기 소스코드 패턴 학습에 활용되는 상기 탐지항목 별 패턴정보, 및 상기 악성코드 탐지결과 중 어느 하나 이상이 저장되는 데이터베이스부를 포함함으로써, 악성코드를 은닉하고 있는 웹사이트 접속으로 인한 악성코드 감염에 신속히 대응할 수 있다.
상기와 같은 종래 기술의 문제점을 해결하기 위해, 본 발명은 웹사이트의 html 파일에 존재하는 알파벳 수를 카운트한 후, 카운트한 알파벳에 대한 정보 엔트로피값을 생성한 후 기설정된 임계치값과 비교함으로써, 상기 웹사이트 내 악성 코드가 포함되어 있는지 여부를 판단할 수 있는 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템을 제공하고자 한다.
위와 같은 과제를 해결하기 위한 본 발명의 한 실시 예에 따른 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법은 파일입력부가 악성 코드 포함여부를 확인하고자 하는 웹사이트의 html 파일을 입력받는 단계; 카운트부가 상기 html 파일의 내부에 포함된 알파벳에 대한 출현빈도수를 카운트하는 단계; 엔트로피생성부가 상기 알파벳의 정보 엔트로피값을 생성하는 단계; 및 제어부가 상기 정보 엔트로피값을 기설정된 임계값과 비교하고, 상기 html 파일 내 악성 코드 포함여부를 확인하여 상기 웹사이트가 악성 의심 웹사이트인지 여부를 판단하는 단계;를 포함한다.
특히, 상기 웹사이트의 난독화된 자바스크립트에 대한 정보 엔트로피값을 생성하는 것을 더 포함하는 엔트로피생성부가 상기 알파벳의 정보 엔트로피값을 생성하는 단계를 포함할 수 있다.
보다 바람직하게는 상기 정보 엔트로피값에 대한 중복제거(Redundancy)를 수행하는 것을 더 포함하는 엔트로피생성부가 알파벳의 정보 엔트로피값을 생성하는 단계를 포함할 수 있다.
보다 바람직하게는 상기 정보 엔트로피값과 기설정된 임계값간에 해밍 거리(Hamming distance)를 연산하여 상기 html 파일 내 악성 코드 포함여부를 판단하는 제어부가 html 파일 내 악성 코드 포함여부를 확인하는 단계를 포함할 수 있다.
특히, 쉘 코드(Shell Code)인 악성 코드를 포함할 수 있다.
위와 같은 과제를 해결하기 위한 본 발명의 다른 실시 예에 따른 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 시스템은 악성 코드 포함여부를 확인하고자 하는 웹사이트의 html 파일을 입력받는 파일입력부; 상기 html 파일의 내부에 포함된 알파벳에 대한 출현빈도수를 카운트하는 카운트부; 상기 알파벳의 정보 엔트로피값을 생성하는 엔트로피생성부; 및 상기 정보 엔트로피값을 기설정된 임계값과 비교하고, 상기 html 파일 내 악성 코드 포함여부를 확인하여 상기 웹사이트가 악성 의심 웹사이트인지 여부를 판단하는 제어부;를 포함한다.
특히, 상기 웹사이트의 난독화된 자바스크립트에 대한 정보 엔트로피값을 생성하는 것을 더 포함하는 엔트로피생성부를 포함할 수 있다.
보다 바람직하게는 상기 정보 엔트로피값에 대한 중복제거(Redundancy)를 수행하는 것을 더 포함하는 엔트로피생성부를 포함할 수 있다.
보다 바람직하게는 상기 정보 엔트로피값과 기설정된 임계값간에 해밍 거리(Hamming distance)를 연산하여 상기 html 파일 내 악성 코드 포함여부를 판단하는 제어부를 포함할 수 있다.
본 발명의 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템은 접속하고자 하는 웹사이트 내 악성 코드가 삽입되어 있는지 여부를 용이하게 파악할 수 있어, 악성 코드를 통해 상기 웹사이트에 접속한 PC 등의 단말이 공격받는 것을 방지할 수 있는 효과가 있다.
또한 본 발명의 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템은 웹사이트 내 삽입된 악성 코드를 통해 웹사이트에 접속한 단말에 대한 개인 정보 등을 외부로 노출시켜 범죄에 악용하는 것을 방지할 수 있는 효과가 있다.
더불어, 본 발명의 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템은 고정된 패턴의 악성 코드 뿐만 아니라 수시로 패턴이 변경되는 악성 코드 또한 용이하게 탐지하여 웹사이트 내 악성코드의 삽입여부를 용이하게 판단할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시 예에 따른 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 시스템의 블록도이다.
도 2는 본 발명의 다른 실시 예에 따른 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법의 순서도이다.
도 3은 일반적인 문서 및 복수 개의 웹사이트별 정보 엔트로피값을 나타낸 도면이다.
도 4는 복수 개의 악성 코드 내 알파벳 발생빈도수를 나타낸 도면이다.
도 5는 복수 개의 쉘 코드별 정보 엔트로피값과 임계값간의 거리 비교를 나타낸 표이다.
도 6은 일반 웹사이트별 정보 엔트로피값과 기설정된 임계값간의 거리 비교를 나타낸 표이다.
이하, 본 발명을 바람직한 실시 예와 첨부한 도면을 참고로 하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 여기에서 설명하는 실시 예에 한정되는 것은 아니다.
이하, 도 1을 참조하여 본 발명에 따른 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 시스템에 대하여 자세히 살펴보도록 한다.
도 1은 본 발명의 일 실시 예에 따른 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 시스템의 블록도이다.
도 1에 도시된 바와 같이, 본 발명의 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 시스템(100)은 파일입력부(110), 카운트부(130), 엔트로피생성부(150) 및 제어부(170)를 포함한다.
파일입력부(110)는 악성 코드 포함여부를 확인하고자 하는 웹사이트의 html 파일을 입력받는다. 이때, 상기 악성 코드는 쉘 코드 등을 포함할 수 있다. 이때, 상기 쉘 코드(shell code)란 소프트웨어의 취약점을 악용하는 페이로드로 사용되는 코드의 작은 조각을 나타내는 것으로서, 코드 크기가 아주 작아 프로그램의 어느 한 구석에 집어넣어 해커의 공격용도로 사용되며, 어셈블리어로 작성되고 기계어로 변경된다.
카운트부(130)는 상기 html 파일의 내부에 포함된 알파벳에 대한 출현빈도수를 각각의 알파벳별로 카운트한다.
엔트로피생성부(150)는 상기 알파벳의 정보 엔트로피값을 생성한다. 이때, 생성된 정보 엔트로피란, 신호 및 사건에 의한 정보의 양을 기존의 엔트로피에 적용한 개념으로서, 어떤 확률변수의 불확실성(Uncertainity)을 측정하며, 어떤 메시지가 포함하고 있는 정보량의 기대값을 비트(bit) 단위로 표현된다. 이러한 엔트로피생성부(150)는 상기 웹사이트의 난독화된 자바스크립트에 대한 정보 엔트로피값을 생성할 수 있으며, 또한 상기 정보 엔트로피값에 대하여 중복제거(Redundancy)를 수행할 수 있다.
제어부(170)는 상기 정보 엔트로피값을 기설정된 임계값과 비교하고, 상기 html 파일 내 악성 코드 포함여부를 확인하여 상기 웹사이트가 악성 의심 웹사이트인지 여부를 판단한다. 이러한 제어부(170)는 상기 정보 엔트로피값과 저장부(190)에 기저장된 임계값간에 거리 비교 시, 해밍 거리(Hamming distance)를 연산하여 상기 html 파일 내 악성 코드 포함여부를 판단할 수 있다.
이하, 도 2를 참조하여 본 발명의 다른 실시 예에 따른 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법에 자세히 살펴보도록 한다.
도 2는 본 발명의 다른 실시 예에 따른 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법의 순서도이다.
도 2에 도시된 바와 같이, 본 발명의 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법은 먼저, 파일입력부(110)가 악성 코드 포함여부를 확인하고자 하는 웹사이트의 html 파일을 입력받는다(S210). 이때, 상기 악성 코드는 쉘 코드 등을 포함할 수 있는데, 이때, 상기 쉘 코드(shell code)란, 소프트웨어의 취약점을 악용하는 페이로드로 사용되는 코드의 작은 조각을 나타내는 것으로서, 코드 크기가 아주 작아 프로그램의 어느 한 구석에 집어 넣어 해커의 공격용도로 사용되며, 어셈블리어로 작성되고 기계어로 변경된다.
카운트부(130)가 상기 html 파일의 내부에 포함된 각 알파벳에 대한 출현빈도수를 카운트한다(S220).
엔트로피생성부(150)가 상기 알파벳에 대한 정보 엔트로피값을 생성한다(S230). 뿐만 아니라, 상기 엔트로피생성부(150)가 상기 웹사이트의 난독화된 자바스크립트에 대한 정보 엔트로피값을 생성할 수 있으며, 또한 생성된 정보 엔트로피값에 대한 중복제거(Redundancy)를 수행할 수 있다.
제어부(170)가 상기 정보 엔트로피값을 기설정되어 저장부(190)에 기저장된 임계값과 비교하고, 그 비교결과에 따라 상기 html 파일 내 악성 코드 포함여부를 확인하여 상기 웹사이트가 악성 의심 웹사이트인지 여부를 판단한다(S240). 이러한 제어부(170)가 상기 정보 엔트로피값과 기설정된 임계값간에 거리 비교를 위해, 해밍 거리(Hamming distance)를 연산하여 상기 html 파일 내 악성 코드 포함여부를 판단할 수 있다.
즉, 본 발명에서 사용되는 정보 엔트로피의 개념에 대하여 간략히 살펴보도록 한다. 정보 엔트로피란, 신호 및 사건에 의한 정보의 양을 기존의 엔트로피에 적용한 개념으로서, 어떤 확률변수의 불확실성(Uncertainity)을 측정하며, 어떤 메시지가 포함하고 있는 정보량의 기대값을 비트(bit) 단위로 표현된다.
이러한 정보 엔트로피는 그 크기가 클수록 불확실성이 커져 예측이 불가능한 상태가 되고, 각 심볼(symbol)들의 발생 확률의 랜덤성이 증가하며, 중복성이 거의 존재하지 않는 특징을 갖는다. 하지만, 이와 달리, 정보 엔트로피의 크기가 작을수록 확정적인 정보가 많으며, 특정 심볼이 발생할 확률이 높아지며, 예측성이 존재하는 것을 알 수 있다.
하기의 수학식 1을 통해 정보 엔트로피값 H(x)을 생성할 수 있다.
[수학식 1]
Figure 112013117048964-pat00001
이때, 상기
Figure 112013117048964-pat00002
Figure 112013117048964-pat00003
가 발생할 확률을 나타내고,
Figure 112013117048964-pat00004
는 이산 확률 변수를 나타내며,
Figure 112013117048964-pat00005
의 자기 정보량(Self-information)을 나타낸다. 즉, 영어 알파벳의 경우에, 동일한 확률도 발생할 때, 정보 엔트로피값은 4.7 bits가 되지만 알파벳의 출현 빈도수를 계산하면 비트는 감소하게 된다.
특히, 일반적인 문서 내 알파벳 출현빈도수에 대한 정보 엔트로피값은 하기의 수학식 2를 통해 4.14 bits 라는 것을 확인할 수 있으며, 이를 통해 상기 문서 내 사용되는 알파벳이 4.14 bits의 정보량을 갖는 것을 알 수 있다.
[수학식 2]
Figure 112013117048964-pat00006
이하, 웹사이트 내 웹페이지에 쉘 코드를 삽입하는 경우에 대하여 살펴보도록 한다. 예를 들어, 웹사이트 내 웹페이지에 삽입된 쉘 코드가 영문 평문과 자바스크립트의 unescape 함수와 "%u16진수4자리"와 같은 형태로 이루어질 수 있으며, 상기 "%u16진수4자리" 와 같은 형태지만 16진수로 된 프로그램 기계어가 직접적으로 삽입되어 있다고 할 수 있다.
또한, 본 발명의 웹사이트의 알파벳에 대한 정보 엔트로피값을 생성하는 과정에 대하여 자세히 살펴보도록 한다.
도 3은 일반적인 문서 및 복수 개의 웹사이트별 정보 엔트로피값을 나타낸 도면이다.
도 3(a)는 일반 문서 내 각 알파벳의 출현 빈도수를 나타낸 그래프이고, 도 3(b)는 제1 웹사이트 예를 들면, 다음 웹사이트 내 알파벳의 출현 빈도수를 나타낸 그래프이며, 도 3(c)는 제2 웹사이트 예를 들면, 네이버 웹사이트 내 알파벳의 출현 빈도수를 나타낸 그래프이고, 도 3(d)는 제3 웹사이트 예를 들면, 지메일 웹사이트 내 알파벳의 출현 빈도수를 나타낸 그래프이다.
도 3에 도시된 바와 같이, 각각의 웹사이트별 각 알파벳에 대한 출현빈도수를 확인할 수 있는데, 특히, 제1 웹사이트의 경우에는 알파벳의 정보 엔트로피값이 4.316 이고, 중복제거값(Redundancy)이 0.082 이며, 제2 웹사이트의 경우에는 알파벳의 정보 엔트로피값이 4.283 이고, 중복제거값이 0.089 이며, 제3 웹사이트의 경우에는 알파벳의 정보 엔트로피값이 4.402 이고, 중복제거값이 0.063 인 것을 알 수 있다.
도 4는 복수 개의 악성 코드 내 알파벳 출현빈도수를 나타낸 도면이다.
도 4에 도시된 바와 같이, 악성 코드 예를 들면 쉘 코드 내 포함된 알파벳의 출현빈도수, 정보 엔트로피값 및 중복제거값을 확인할 수 있는데, 앞서 도 3을 통해 확인한 정보 엔트로피값과 비교하면 확연한 차이가 있는 것을 알 수 있다.
즉, 도 3에 도시된 일반적인 웹사이트의 정보 엔트로피값이 4.316, 4.283, 4.402 이며, 일반적으로 사용되는 섀넌 정보 엔트로피값 4.14 를 기준으로 비교해 보면 도 3에 도시된 정보 엔트로피값이 섀넌 정보 엔트로피값에 근사치값을 갖는 것을 알 수 있다. 하지만 이와 반면에, 도 4에 도시된 쉘 코드의 정보 엔트로피값은 3.389, 3.723, 3.802 로서, 상기 섀넌 정보 엔트로피값인 4.14 보다 훨씬 낮은 것을 알 수 있다.
결과적으로, 컴퓨터 프로그램 언어에서 사용되는 알파벳은 영어단어의 집합이기 때문에 정보 엔트로피값이 섀넌 정보 엔트로피값과 유사한 것을 알 수 있고, 이와 달리, 기계어로 이루어지는 쉘 코드는 알파벳으로 이루어진 단어 형태가 아니라 동일한 문자의 반복 및 조합으로 이루어짐에 따라 정보 엔트로피값이 섀넌 정보 엔트로피값보다 작은 것을 알 수 있다.
도 5는 복수 개의 쉘 코드별 정보 엔트로피값과 임계값간의 거리 비교를 나타낸 표이다.
이때, 상기 쉘 코드별 정보 엔트로피값과 임계값간의 거리(threshold value) 비교는 하기의 수학식 3에 도시된 바와 같이, 해밍 거리(Hamming distance) 연산을 통해 이루어진다.
[수학식 3]
Figure 112013117048964-pat00007
또한 상기 수학식 3을 통해 일반 웹사이트별 정보 엔트로피값과 기설정된 임계값간의 거리 비교를 도 6과 같이 확인할 수 있다.
결과적으로, 도 5와 도 6을 참고하여 악성 코드에 해당하는 쉘 코드와 일반 웹사이트의 정보 엔트로피값과 임계값간의 거리를 비교하여 살펴보면, 정보 엔트로피값과 임계값간의 거리가 0.1 이상인 경우에 상기 정보 엔트로피값을 갖는 웹사이트 내 악성 코드(또는 쉘 코드)가 포함되어 있다고 판단할 수 있다.
또한, 이러한 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템은 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체에 저장될 수 있다. 이때, 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, DVD±ROM, DVD-RAM, 자기 테이프, 플로피 디스크, 하드 디스크(hard disk), 광데이터 저장장치 등이 있다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 장치에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
본 발명의 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템은 접속하고자 하는 웹사이트 내 악성 코드가 삽입되어 있는지 여부를 용이하게 파악할 수 있어, 악성 코드를 통해 상기 웹사이트에 접속한 PC 등의 단말이 공격받는 것을 방지할 수 있는 효과가 있다.
또한 본 발명의 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템은 웹사이트 내 삽입된 악성 코드를 통해 웹사이트에 접속한 단말에 대한 개인 정보 등을 외부로 노출시켜 범죄에 악용하는 것을 방지할 수 있는 효과가 있다.
더불어, 본 발명의 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템은 고정된 패턴의 악성 코드 뿐만 아니라 수시로 패턴이 변경되는 악성 코드 또한 용이하게 탐지하여 웹사이트 내 악성코드의 삽입여부를 용이하게 판단할 수 있는 효과가 있다.
상기에서는 본 발명의 바람직한 실시 예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 본 발명의 기술 사상 범위 내에서 여러 가지로 변형하여 실시하는 것이 가능하고 이 또한 첨부된 특허청구범위에 속하는 것은 당연하다.
110: 파일입력부 130: 카운트부
150: 엔트로피생성부 170: 제어부
190: 저장부

Claims (10)

  1. 파일입력부가 악성 코드 포함여부를 확인하고자 하는 웹사이트의 html 파일을 입력받는 단계;
    카운트부가 상기 html 파일의 내부에 포함된 알파벳에 대한 출현빈도수를 카운트하는 단계;
    엔트로피생성부가 상기 알파벳의 정보 엔트로피값을 생성하는 단계; 및
    제어부가 상기 정보 엔트로피값을 기설정된 임계값과 비교하고, 상기 html 파일 내 악성 코드 포함여부를 확인하여 상기 웹사이트가 악성 의심 웹사이트인지 여부를 판단하는 단계;
    를 포함하되,
    상기 제어부가 html 파일 내 악성 코드 포함여부를 확인하는 단계는
    상기 정보 엔트로피값과 기설정된 임계값간에 해밍 거리(Hamming distance)를 연산하여 상기 html 파일 내 악성 코드 포함여부를 판단하는 것을 특징으로 하는 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법.
  2. 제1항에 있어서,
    상기 엔트로피생성부가 상기 알파벳의 정보 엔트로피값을 생성하는 단계는
    상기 웹사이트의 난독화된 자바스크립트에 대한 정보 엔트로피값을 생성하는 것을 더 포함하는 것을 특징으로 하는 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법.
  3. 제2항에 있어서,
    상기 엔트로피생성부가 알파벳의 정보 엔트로피값을 생성하는 단계는
    상기 정보 엔트로피값에 대한 중복제거(Redundancy)를 수행하는 것을 더 포함하는 것을 특징으로 하는 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 악성 코드는
    쉘 코드(Shell Code)인 것을 특징으로 하는 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법.
  6. 제1항 내지 제3항 및 제5항 중 어느 한 항에 따른 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체.
  7. 악성 코드 포함여부를 확인하고자 하는 웹사이트의 html 파일을 입력받는 파일입력부;
    상기 html 파일의 내부에 포함된 알파벳에 대한 출현빈도수를 카운트하는 카운트부;
    상기 알파벳의 정보 엔트로피값을 생성하는 엔트로피생성부; 및
    상기 정보 엔트로피값을 기설정된 임계값과 비교하고, 상기 html 파일 내 악성 코드 포함여부를 확인하여 상기 웹사이트가 악성 의심 웹사이트인지 여부를 판단하는 제어부;
    를 포함하되,
    상기 제어부는
    상기 정보 엔트로피값과 기설정된 임계값간에 해밍 거리(Hamming distance)를 연산하여 상기 html 파일 내 악성 코드 포함여부를 판단하는 것을 특징으로 하는 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 시스템.
  8. 제7항에 있어서,
    상기 엔트로피생성부는
    상기 웹사이트의 난독화된 자바스크립트에 대한 정보 엔트로피값을 생성하는 것을 더 포함하는 것을 특징으로 하는 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 시스템.
  9. 제8항에 있어서,
    상기 엔트로피생성부는
    상기 정보 엔트로피값에 대한 중복제거(Redundancy)를 수행하는 것을 더 포함하는 것을 특징으로 하는 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 시스템.
  10. 삭제
KR1020130160282A 2013-12-20 2013-12-20 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템 KR101526500B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020130160282A KR101526500B1 (ko) 2013-12-20 2013-12-20 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020130160282A KR101526500B1 (ko) 2013-12-20 2013-12-20 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR101526500B1 true KR101526500B1 (ko) 2015-06-09

Family

ID=53503982

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020130160282A KR101526500B1 (ko) 2013-12-20 2013-12-20 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR101526500B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101672791B1 (ko) * 2015-10-26 2016-11-07 고려대학교 산학협력단 모바일 웹 애플리케이션 환경에서의 취약점 탐지 방법 및 시스템
KR20190142600A (ko) 2018-06-18 2019-12-27 큐브바이트 주식회사 머신러닝을 이용한 시계열 데이터의 에너지 엔트로피 기반의 진동 이상 징후 탐지시스템
KR20220109814A (ko) 2021-01-29 2022-08-05 충남대학교산학협력단 컴퓨터에서 실행되는 파일의 구조 정보를 이용하여 엔트로피 기반으로 악성코드를 탐지하는 악성코드 탐지 프로그램 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100123368A (ko) * 2009-05-15 2010-11-24 인포뱅크 주식회사 악성코드 분석 방법 및 시스템
KR101060639B1 (ko) * 2010-12-21 2011-08-31 한국인터넷진흥원 자바스크립트 난독화 강도 분석을 통한 악성 의심 웹사이트 탐지 시스템 및 그 탐지방법
KR20120070018A (ko) * 2010-12-21 2012-06-29 한국인터넷진흥원 후킹 기법을 이용한 난독화 자바 스크립트 자동해독 및 악성 웹 사이트 탐지 방법
KR20130021956A (ko) * 2011-08-24 2013-03-06 숭실대학교산학협력단 스팸 문서 판단 방법 및 그 판단 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100123368A (ko) * 2009-05-15 2010-11-24 인포뱅크 주식회사 악성코드 분석 방법 및 시스템
KR101060639B1 (ko) * 2010-12-21 2011-08-31 한국인터넷진흥원 자바스크립트 난독화 강도 분석을 통한 악성 의심 웹사이트 탐지 시스템 및 그 탐지방법
KR20120070018A (ko) * 2010-12-21 2012-06-29 한국인터넷진흥원 후킹 기법을 이용한 난독화 자바 스크립트 자동해독 및 악성 웹 사이트 탐지 방법
KR20130021956A (ko) * 2011-08-24 2013-03-06 숭실대학교산학협력단 스팸 문서 판단 방법 및 그 판단 장치

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101672791B1 (ko) * 2015-10-26 2016-11-07 고려대학교 산학협력단 모바일 웹 애플리케이션 환경에서의 취약점 탐지 방법 및 시스템
KR20190142600A (ko) 2018-06-18 2019-12-27 큐브바이트 주식회사 머신러닝을 이용한 시계열 데이터의 에너지 엔트로피 기반의 진동 이상 징후 탐지시스템
KR20220109814A (ko) 2021-01-29 2022-08-05 충남대학교산학협력단 컴퓨터에서 실행되는 파일의 구조 정보를 이용하여 엔트로피 기반으로 악성코드를 탐지하는 악성코드 탐지 프로그램 및 방법

Similar Documents

Publication Publication Date Title
US10484424B2 (en) Method and system for security protection of account information
JP6223458B2 (ja) アプリケーションが悪意のあるものであるかどうかを識別するための方法、処理システム、およびコンピュータ・プログラム
KR101543237B1 (ko) 코드 패턴을 이용한 정적 분석과 api 흐름을 이용한 동적 분석을 통한 악성 스크립트 탐지 차단 장치, 시스템 및 방법
US9398047B2 (en) Methods and systems for phishing detection
CN108924118B (zh) 一种撞库行为检测方法及系统
CN110034921B (zh) 基于带权模糊hash的webshell检测方法
CN104063673B (zh) 一种在浏览器中进行信息输入的方法和浏览器装置
US20220030029A1 (en) Phishing Protection Methods and Systems
US10621345B1 (en) File security using file format validation
US10091223B2 (en) Method for detecting anomalies in network traffic
CN103973635A (zh) 页面访问控制方法和相关装置及系统
CN107426136B (zh) 一种网络攻击的识别方法和装置
KR101526500B1 (ko) 정보 엔트로피를 이용한 악성 의심 웹사이트 탐지 방법 및 시스템
CN116917894A (zh) 使用转换器检测网络钓鱼url
CN112948725A (zh) 基于机器学习的钓鱼网站url检测方法及系统
JP5568696B1 (ja) パスワード管理システム及びパスワード管理システム用プログラム
JP2012088803A (ja) 悪性ウェブコード判別システム、悪性ウェブコード判別方法および悪性ウェブコード判別用プログラム
Tharani et al. Understanding phishers' strategies of mimicking uniform resource locators to leverage phishing attacks: A machine learning approach
WO2018143097A1 (ja) 判定装置、判定方法、および、判定プログラム
US10250626B2 (en) Attacking node detection apparatus, method, and non-transitory computer readable storage medium thereof
CN112600864A (zh) 一种验证码校验方法、装置、服务器及介质
AU2018218526B2 (en) Identifying human interaction with a computer
KR101327865B1 (ko) 악성코드에 감염된 홈페이지 탐지 장치 및 방법
US10484422B2 (en) Prevention of rendezvous generation algorithm (RGA) and domain generation algorithm (DGA) malware over existing internet services
CN112995218A (zh) 域名的异常检测方法、装置及设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180406

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190411

Year of fee payment: 5