KR20120071827A - 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법 - Google Patents

악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법 Download PDF

Info

Publication number
KR20120071827A
KR20120071827A KR1020100133523A KR20100133523A KR20120071827A KR 20120071827 A KR20120071827 A KR 20120071827A KR 1020100133523 A KR1020100133523 A KR 1020100133523A KR 20100133523 A KR20100133523 A KR 20100133523A KR 20120071827 A KR20120071827 A KR 20120071827A
Authority
KR
South Korea
Prior art keywords
distribution
seed information
malicious code
collecting
potential
Prior art date
Application number
KR1020100133523A
Other languages
English (en)
Inventor
정종일
임채태
오주형
강홍구
이진경
김병익
정현철
Original Assignee
한국인터넷진흥원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국인터넷진흥원 filed Critical 한국인터넷진흥원
Priority to KR1020100133523A priority Critical patent/KR20120071827A/ko
Priority to US13/304,986 priority patent/US20120167220A1/en
Publication of KR20120071827A publication Critical patent/KR20120071827A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/563Static detection by source code analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/562Static detection
    • G06F21/564Static detection by virus signature recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/56Computer malware detection or handling, e.g. anti-virus arrangements
    • G06F21/566Dynamic detection, i.e. detection performed at run-time, e.g. emulation, suspicious activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/033Test or assess software
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2143Clearing memory, e.g. to prevent the data from being stolen
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/21Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/2151Time stamp

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Virology (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

잠재적 악성코드 경유-유포지의 조기 발견이 가능한 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치가 제공된다. 씨드 정보 수집 장치는 씨드 정보 수집 채널로부터 사회적 이슈 키워드를 수집하고, 수집된 사회적 이슈 키워드로부터 잠재적 악성코드 경유-유포지 주소 정보를 수집하는 씨드 정보 수집 모듈, 씨드 정보 수집 모듈이 수집한 잠재적 악성코드 경유-유포지 주소 정보를 이용하여 잠재적 악성코드 경유-유포지의 웹 소스코드를 수집하는 웹 소스코드 수집 모듈, 및 씨드 정보 수집 모듈 및 웹 소스코드 수집 모듈의 수집 정책을 관리하는 정책 관리 모듈을 포함한다.

Description

악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법{Seed information collecting device for detecting landing, hopping and distribution sites of malicious code and seed information collecting method for the same}
본 발명은 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법에 관한 것이다.
악성코드란 악성 또는 악용 가능한 소프트웨어의 집합으로서, 바이러스, 웜, 스파이웨어, 악성 애드웨어 등 사용자와 컴퓨터에게 잠재적으로 위험이 되는 모든 소프트웨어를 총칭하는 말이다. 사전적 의미로 멀웨어(malware)는 'malicious software(악의적인 소프트웨어)'의 약자로, 사용자의 의사와 이익에 반해 시스템을 파괴하거나 정보를 유출하는 등 악의적 활동을 수행하도록 의도적으로 제작된 소프트웨어를 말한다. 국내에서는 이를 '악성코드'로 번역하며. 자기 복제와 파일 감염이 특징인 바이러스를 포함하는 더 넓은 개념이라고 할 수 있다.
이와 같은 악성코드는 네트워크를 통해 광범위하게 유통, 확산되는 특성이 있는데, 이러한 악성코드가 유통, 확산되는 경로를 체계적 파악할 수 있다면 악성코드의 확산을 효율적으로 방지하고 그에 의한 피해를 줄일 수 있는바, 이에 대한 연구가 활발하게 이루어지고 있는 실정이다.
본 발명이 해결하고자 하는 기술적 과제는 악성코드 경유-유포지가 될 수 있는 요소들을 능동적으로 미리 탐지하고, 그에 관한 웹 소스코드를 수집할 수 있는 씨드 정보 수집 장치를 제공하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는 악성코드 경유-유포지가 될 수 있는 요소들을 능동적으로 미리 탐지하고 그에 관한 웹 소스코드를 수집할 수 있는 씨드 정보 수집 방법을 제공하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 기술적 과제를 달성하기 위한 본 발명의 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치의 일 태양(aspect)은, 씨드 정보 수집 채널로부터 사회적 이슈 키워드를 수집하고, 수집된 사회적 이슈 키워드로부터 잠재적 악성코드 경유-유포지 주소 정보를 수집하는 씨드 정보 수집 모듈, 씨드 정보 수집 모듈이 수집한 잠재적 악성코드 경유-유포지 주소 정보를 이용하여 잠재적 악성코드 경유-유포지의 웹 소스코드를 수집하는 웹 소스코드 수집 모듈, 및 씨드 정보 수집 모듈 및 웹 소스코드 수집 모듈의 수집 정책을 관리하는 정책 관리 모듈을 포함한다.
상기 다른 기술적 과제를 달성하기 위한 본 발명의 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 방법의 일 태양(aspect)은, 적어도 하나 이상의 인터넷 검색 엔진의 실시간 검색어 리스트를 이용하여 사회적 이슈 키워드를 수집하고, 수집된 사회적 이슈 키워드를 적어도 하나 이상의 인터넷 검색 엔진에 질의하여 잠재적 악성코드 경유-유포지 주소 정보를 수집하고, 잠재적 악성코드 경유-유포지 주소 정보를 이용하여 잠재적 악성코드 경유-유포지를 방문하고, 잠재적 악성코드 경유-유포지의 웹 소스코드를 수집하는 것을 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 일 실시예에 따른 씨드 정보 수집 장치는 사회적 이슈 키워드를 지속적으로 수집하고, 이러한 사회적 이슈 키워드로 검색되는 사이트들이 악성코드와 관련된 사이트가 아닌지 미리 탐지할 수 있다. 이것은 악성코드 경유-유포지가 될 수 있는 요소들을 능동적으로 수집하고 탐지한다는 측면에서 매우 의미 있는 일이라고 할 수 있는데, 이러한 능동적인 수집 과정을 통해 악성코드 경유-유포지를 통한 악성코드의 배포를 사전에 차단할 수 있기 때문이다. 나아가, 본 발명의 일 실시예에 따른 씨드 정보 수집 장치는 일정 시간 단위로 이러한 사회적 이슈 키워드를 지속적으로 수집하기 때문에, 잠재적 악성코드 경유-유포지의 조기 발견이 가능하다.
또한, 악성코드 경유-유포지의 경우, 사회적 이슈가 부각된 후 이용자를 유인하기 위하여 이와 연관된 컨텐츠로 제작되는 것이 일반적이기 때문에, 본 발명의 일 실시예에 따른 씨드 정보 수집 장치에서는 인터넷 검색 엔진 질의 결과 중 각 영역별 혹은 각 주제별로 생성 일자가 늦은 순 또는 유사도 순으로 N개의 주소 정보만 수집함으로써, 과다하게 주소 정보를 수집함으로써 탐지 효율이 떨어지는 점을 보완할 수 있다.
그리고, 본 발명의 일 실시예에 따른 씨드 정보 수집 장치의 경우, 공개된 악성 주소 정보와 잠재적 악성코드 경유-유포지 주소 정보를 병행하여 수집함으로써, 악성코드 경유-유포지를 보다 효과적으로 파악할 수 있는 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치의 블록 구성도이다.
도 2 내지 4는 본 발명의 일 실시예에 따른 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치의 동작, 즉 본 발명의 일 실시예에 따른 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 방법을 설명하기 위한 순서도들이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 도면에서 표시된 구성요소의 크기 및 상대적인 크기는 설명의 명료성을 위해 과장된 것일 수 있다.
명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭하며, "및/또는"은 언급된 아이템들의 각각 및 하나 이상의 모든 조합을 포함한다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "이루어지다(made of)"는 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
비록 제1, 제2 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하 도 1 내지 도 4를 참조하여, 본 발명의 일 실시예에 따른 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법에 대해 설명한다.
도 1은 본 발명의 일 실시예에 따른 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치의 블록 구성도이고, 도 2 내지 4는 본 발명의 일 실시예에 따른 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치의 동작, 즉 본 발명의 일 실시예에 따른 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 방법을 설명하기 위한 순서도들이다.
본 명세서에서 악성코드 경유-유포지란 악성코드의 근원지(landing site), 경유지(hopping site) 또는 유포지(distribution site) 중 적어도 어느 하나를 의미하는 개념일 수 있다. 구체적으로, 악성코드의 근원지란 예를 들어, 악성코드가 생성되는 사이트일 수 있으며, 악성코드의 경유지란 근원지에서 유포지로 연결되는 중간 과정의 사이트일 수 있고, 악성코드의 유포지란 실제 악성코드가 사용자에게 유포되는 사이트를 의미할 수 있다. 아울러, 본 명세서에서 잠재적 악성코드 경유-유포지란 이러한 악성코드의 근원지, 경유지 또는 유포지 중 적어도 어느 하나가 될 수 있는 사이트를 의미할 수 있다.
먼저, 도 1을 참조하면, 본 발명의 일 실시예에 따른 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치(100)는 씨드 정보 수집 모듈(110), 웹 소스코드 수집 모듈(120), 정책 관리 모듈(130), 씨드 정보 DB(200) 및 웹 소스코드 DB(210)를 포함할 수 있다.
씨드 정보 수집 모듈(110)은 씨드 정보 수집 채널(10)로부터 사회적 이슈 키워드(social issue keyword)를 수집하고, 수집된 사회적 이슈 키워드로부터 잠재적 악성코드 경유-유포지 주소 정보를 수집하는 모듈일 수 있다. 여기서, 사회적 이슈 키워드란, 특정 시기 동안 대중적 관심의 대상이 되는 이슈를 표현하는 키워드를 의미할 수 있고, 잠재적 악성코드 경유-유포지 주소 정보는 예를 들어, 잠재적 악성코드 경유-유포지가 될 수 있는 사이트의 URL 또는 IP 중 적어도 어느 하나를 포함하는 정보일 수 있다.
이하, 도 1과 도 2를 같이 참조하여, 이러한 씨드 정보 수집 모듈(110)의 동작에 대해 보다 구체적으로 설명하도록 한다.
도 2를 참조하면, 씨드 정보 수집 모듈(110)은 적어도 하나 이상의 인터넷 검색 엔진의 실시간 검색어 리스트를 이용하여 사회적 이슈 키워드를 수집한다(S100). 그리고, 수집된 사회적 이슈 키워드를 키워드 큐(keyword Queue)에 채운다(S110).
구체적으로, 씨드 정보 수집 모듈(110)은 적어도 하나 이상의 인터넷 검색 엔진(예를 들어, 현재 대한민국에서 제공되고 있는 주요 인터넷 검색 엔진으로는 네이버, 다음, 야후, 구글 등을 들 수 있다)에서 제공하는 API(Application Programming Interface)를 이용하여, 해당 인터넷 검색 엔진의 실시간 검색어 리스트를 참조하여 사회적 이슈 키워드를 수집할 수 있다. 이 때, 정책 관리 모듈(130)은 이러한 씨드 정보 수집 모듈(110)의 수집 대상에 대한 정책을 제공하고, 수집 동작이 일정 시간(예를 들어, 10분) 단위로 지속되도록 씨드 정보 수집 모듈(110)의 수집 정책을 관리할 수 있다.
이렇게 사회적 이슈 키워드가 수집되면, 씨드 정보 수집 모듈(110)은 수집된 사회적 이슈 키워드를 키워드 큐에서 하나씩 가져온다(S120). 그리고, 적어도 하나 이상의 인터넷 검색 엔진에 질의하여, 검색된 사이트 주소 정보를 잠재적 악성코드 경유-유포지 주소 정보로 수집한다(S130). 그리고, 그 중 상위 N개를 선택한다(S140). 여기서, 정책 관리 모듈(130)은 씨드 정보 수집 모듈(110)이 인터넷 검색 엔진의 검색 결과 중, 각 영역별 혹은 각 주제별로 생성 일자가 늦은 순 또는 유사도 순으로 선정된 N개(N은 관리자가 정할 수 있는 임의의 수)의 사이트 주소 정보를 잠재적 악성코드 경유-유포지 주소 정보로 수집하도록 씨드 정보 수집 모듈(110)의 수집 정책을 관리할 수 있다. 그리고, 앞서 설명한 바와 같이 이러한 주소 정보는 예를 들어, 해당 사이트의 URL 또는 IP일 수 있다.
잠재적 악성코드 경유-유포지 주소 정보 중 상위 N개의 주소 정보가 선택되면, 씨드 정보 수집 모듈(110)은 수집된 잠재적 악성코드 경유-유포지 주소 정보와 씨드 정보 DB(200)에 저장된 기존 주소 정보를 비교한다(S150). 만약, 새로운 주소 정보라면, 씨드 정보 수집 모듈(110)은 이를 씨드 정보 DB(200)에 저장하고(S160), 씨드 정보 DB(200)에 이미 입력된 주소 정보라면, 씨드 정보 수집 모듈(110)은 수집된 사회적 이슈 키워드를 키워드 큐에서 하나씩 가져오는 과정을 키워드 큐가 빌 때까지 반복한다(S170).
일반적으로 사회적으로 하나의 이슈가 부각되었을 때, 그 이슈를 대표하는 대표 키워드는 인터넷 검색 엔진(흔히, 포털 사이트라고도 불린다)의 실시간 검색어 리스트에 오르게 된다. 이처럼 실시간 검색어 리스트에 오른 대표 키워드는 인터넷 검색 엔진을 이용하는 이용자에 의해 지속적으로 검색되는 특성이 있으므로, 매우 큰 대중적인 관심의 대상이 되게 된다.
악성코드 제작자는 일반적으로 본인이 제작한 악성코드가 최대한 광범위하게 유포되는 것을 원할 것이므로, 이러한 사회적 이슈 키워드는 악성코드 배포에 좋은 연결 고리가 될 수 있다. 즉, 악성코드 제작자가 이러한 사회적 이슈 키워드와 연관된 악성코드 배포 사이트를 제작하게 된다면, 다수의 이용자가 이러한 사회적 이슈 키워드 검색을 통해, 제작된 악성코드 배포 사이트에 접속하게 될 것이므로, 악성코드 제작자에게 이러한 사회적 이슈 키워드는 자신이 제작한 악성코드 배포에 좋은 연결 고리가 될 수 있다.
따라서, 본 발명의 일 실시예에 따른 씨드 정보 수집 장치(100)와 같이 이러한 사회적 이슈 키워드를 지속적으로 수집하고, 이러한 사회적 이슈 키워드로 검색되는 사이트들이 악성코드와 관련된 사이트가 아닌지 미리 탐지하는 것은, 악성코드 경유-유포지가 될 수 있는 요소들을 능동적으로 수집하고 탐지한다는 측면에서 매우 의미 있는 일이라고 할 수 있다. 이러한 능동적인 수집 과정을 통해 악성코드 경유-유포지를 통한 악성코드의 배포를 사전에 차단할 수 있기 때문이다. 나아가, 본 발명의 일 실시예에 따른 씨드 정보 수집 장치(100)의 경우, 일정 시간 단위로 이러한 사회적 이슈 키워드를 지속적으로 수집하기 때문에, 잠재적 악성코드 경유-유포지의 조기 발견이 가능하다.
또한, 악성코드 경유-유포지의 경우, 사회적 이슈가 부각된 후 이용자를 유인하기 위하여 이와 연관된 컨텐츠로 제작되는 것이 일반적이기 때문에, 본 발명의 일 실시예에 따른 씨드 정보 수집 장치(100)에서는 인터넷 검색 엔진 질의 결과 중 각 영역별 혹은 각 주제별로 생성 일자가 늦은 순 또는 유사도 순으로 N개의 주소 정보만 수집함으로써, 과다하게 주소 정보를 수집함으로써 탐지 효율을 떨어지는 점을 어느 정도 보완할 수 있다.
다시, 도 1을 참조하면, 씨드 정보 수집 모듈(110)은 씨드 정보 수집 채널(10)로부터 이미 공개된 악성코드 주소 정보를 수집하여, 이를 씨드 정보 DB(200)에 저장할 수도 있다. 이하 도 1과 도 3을 같이 참조하여, 씨드 정보 수집 모듈(110)의 이러한 동작에 대해 보다 구체적으로 설명하도록 한다.
도 3을 참조하면, 씨드 정보 수집 모듈(110)은 씨드 정보 수집 채널(10)로부터 이미 공개된 악성코드 주소 정보를 수집한다(S200). 이 때, 마찬가지로 정책 관리 모듈(130)은 이러한 씨드 정보 수집 모듈(110)의 수집 대상에 대한 정책을 제공하고, 수집 동작이 일정 시간 단위로 지속되도록 씨드 정보 수집 모듈(110)의 수집 정책을 관리할 수 있다.
공개된 악성코드 주소 정보가 수집되면, 씨드 정보 수집 모듈(110)은 수집된 공개된 악성코드 주소 정보와 씨드 정보 DB(200)에 저장된 기존 주소 정보를 비교한다(S210). 만약, 새로운 주소 정보라면, 씨드 정보 수집 모듈(110)은 이를 씨드 정보 DB(200)에 저장하고(S220), 씨드 정보 DB(200)에 이미 입력된 주소 정보라면, 씨드 정보 수집 모듈(110)은 수집된 공개된 악성코드 주소 정보를 폐기한다(S220). 이처럼, 본 발명의 일 실시예에 따른 씨드 정보 수집 장치(100)의 경우, 공개된 악성 주소 정보와 잠재적 악성코드 경유-유포지 주소 정보를 병행하여 수집함으로써, 악성코드 경유-유포지를 보다 효과적으로 파악할 수 있는 장점이 있다.
다시 도 1을 참조하면, 웹 소스코드 수집 모듈(120)은 씨드 정보 수집 모듈(110)이 수집한 잠재적 악성코드 경유-유포지 주소 정보 또는 공개된 악성코드 주소 정보를 이용하여 잠재적 악성코드 경유-유포지 또는 공개된 악성코드 주소지의 웹 소스코드를 수집할 수 있다. 이하, 도 1과 도 4를 같이 참조하여, 이러한 웹 소스코드 수집 모듈(120)의 동작에 대해 보다 구체적으로 설명하도록 한다.
도 4를 참조하면, 웹 소스코드 수집 모듈(120)은 씨드 정보DB(200)로부터 저장된 주소 정보를 가져와 방문지 큐(Target site Queue)를 채운다(S300). 그리고 방문지 큐로부터 주소 정보를 하나씩 가져온다(S310). 이 때, 정책 관리 모듈(130)은 이러한 웹 소스코드 수집 모듈(120)의 수집 정책(depth)을 제공할 수 있다.
다음, 웹 소스코드 수집 모듈(120)은 주소 정보를 이용하여 잠재적 악성코드 경유-유포지 주소지(도 1의 20) 및 공개된 악성코드 주소지(도 1의 20)에 접속한다(S320). 만약, 접속이 성공하지 못할 경우, 웹 소스코드 수집 모듈(120)은 에러 메시지를 출력하고 방문지 큐가 빌 때까지 큐의 주소 정보를 가져온다(S340, S350). 만약, 접속이 성공할 경우, 웹 소스코드 수집 모듈(120)은 접속된 주소지의 HTML 콘텐츠를 다운로드 받는다(S360). 그리고 다운로드 받은 HTML 콘텐츠를 파싱(parsing)한다(S370).
이러한 파싱 과정을 통해 접속된 주소지의 HTML 콘텐츠는 리디렉션(redirection) 목적의 HTML 태그와, 객체(object) 삽입 코드와, 스크립트 코드를 분류될 수 있다. 이러한 리디렉션 목적의 HTML 태그와, 객체(object) 삽입 코드와, 스크립트 코드의 추출 조건은 아래 표 1과 같을 수 있다.
추출 대상 추출 조건
HTML Tag URL 요청 Tag
A, APPLET, AREA, BASE, BLOCKQUOTE, FORM,
FRAME, HEAD, IFRAME, IMG, INPUT, INS, LINK,
META, OBJECT, SCRIPT
URL 요청 속성
href, codebase, uri, cite, action, longdesc, src, profile,
usemap, url, content, classid, data
Object clsid, parameter, codebase, filename, function
Script 소스코드 전체
이렇게 분류된 접속된 주소지 웹 소스코드는 웹 소스코드 DB(210)에 저장되고, 이는 향후 주소지가 악성코드 경유-유포지 인지 판별하는데 사용될 수 있다(S380).
다시 도 1을 참조하면, 정책 관리 모듈(130)은 씨드 정보 수집 모듈(110) 및 웹 소스코드 수집 모듈(120)의 수집 정책을 관리할 수 있다. 이에 대해서는 앞서 씨드 정보 수집 모듈(110) 및 웹 소스코드 수집 모듈(120)을 설명하면서 구체적으로 설명한바 중복된 자세한 설명은 생략하도록 한다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였으나, 본 발명은 상기 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 제조될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100: 씨드 정보 수집 장치 110: 씨드 정보 수집 모듈
120: 웹 소스코드 수집 모듈 130: 정책 관리 모듈
200: 씨드 정보 DB 210: 웹 소스코드 DB

Claims (12)

  1. 씨드 정보 수집 채널로부터 사회적 이슈 키워드를 수집하고, 수집된 상기 사회적 이슈 키워드로부터 잠재적 악성코드 경유-유포지 주소 정보를 수집하는 씨드 정보 수집 모듈;
    상기 씨드 정보 수집 모듈이 수집한 상기 잠재적 악성코드 경유-유포지 주소 정보를 이용하여 상기 잠재적 악성코드 경유-유포지의 웹 소스코드를 수집하는 웹 소스코드 수집 모듈; 및
    상기 씨드 정보 수집 모듈 및 상기 웹 소스코드 수집 모듈의 수집 정책을 관리하는 정책 관리 모듈을 포함하는 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치.
  2. 제 1항에 있어서,
    상기 주소 정보는 URL 또는 IP 중 적어도 어느 하나를 포함하는 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치.
  3. 제 1항에 있어서,
    상기 씨드 정보 수집 모듈이 수집하는 상기 사회적 이슈 키워드는 상기 씨드 정보 수집 모듈이 적어도 하나 이상의 인터넷 검색 엔진에서 제공하는 API를 이용하여 수집한 상기 적어도 하나 이상의 인터넷 검색 엔진의 실시간 검색어 리스트를 포함하는 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치.
  4. 제 3항에 있어서,
    상기 정책 관리 모듈은 상기 씨드 정보 수집 모듈이 상기 실시간 검색어 리스트를 일정 시간 단위로 지속적으로 수집하도록 관리하는 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치.
  5. 제 1항에 있어서,
    상기 씨드 정보 수집 모듈이 상기 사회적 이슈 키워드로부터 잠재적 악성코드 경유-유포지 주소 정보를 수집하는 것은, 상기 씨드 정보 수집 모듈이 상기 사회적 이슈 키워드를 적어도 하나 이상의 인터넷 검색 엔진에 질의하여 얻은 결과를 잠재적 악성코드 경유-유포지 주소 정보로 수집하는 것을 포함하는 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치.
  6. 제 5항에 있어서,
    상기 정책 관리 모듈은 상기 씨드 정보 수집 모듈이 상기 적어도 하나 이상의 인터넷 검색 엔진 질의 결과 중 각 영역별 혹은 각 주제별로 생성 일자가 늦은 순 또는 유사도 순으로 선정된 N개의 주소 정보를 수집하도록 관리하는 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치.
  7. 제 1항에 있어서,
    상기 웹 소스코드 수집 모듈이 상기 잠재적 악성코드 경유-유포지의 웹 소스코드를 수집하는 것은, 상기 웹 소스코드 수집 모듈이 상기 잠재적 악성코드 경유-유포지 주소 정보를 이용하여 상기 잠재적 악성코드 경유-유포지를 방문하고, 상기 잠재적 악성코드 경유-유포지에 포함된 HTML 콘텐츠를 다운로드하고, 상기 다운로드된 HTML 콘텐츠를 파싱하여 상기 잠재적 악성코드 경유-유포지의 웹 소스코드를 수집하는 것을 포함하는 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치.
  8. 제 7항에 있어서,
    상기 다운로드된 HTML 콘텐츠를 파싱하여 상기 잠재적 악성코드 경유-유포지의 웹 소스코드를 수집하는 것은 상기 파싱된 HTML 콘텐츠 중에서 리디렉션(redirection) 목적의 HTML 태그와, 객체(object) 삽입 코드와, 스크립트 코드를 분류하여 수집하는 것을 포함하는 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치.
  9. 적어도 하나 이상의 인터넷 검색 엔진의 실시간 검색어 리스트를 이용하여 사회적 이슈 키워드를 수집하고,
    상기 수집된 사회적 이슈 키워드를 상기 적어도 하나 이상의 인터넷 검색 엔진에 질의하여 잠재적 악성코드 경유-유포지 주소 정보를 수집하고,
    상기 잠재적 악성코드 경유-유포지 주소 정보를 이용하여 상기 잠재적 악성코드 경유-유포지를 방문하고, 상기 잠재적 악성코드 경유-유포지의 웹 소스코드를 수집하는 것을 포함하는 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 방법.
  10. 제 9항에 있어서,
    상기 잠재적 악성코드 경유-유포지 주소 정보는 상기 적어도 하나 이상의 인터넷 검색 엔진 질의 결과 중 각 영역별 혹은 각 주제별로 생성 일자가 늦은 순 또는 유사도 순으로 선정된 N개의 주소 정보를 포함하는 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 방법.
  11. 제 9항에 있어서,
    상기 잠재적 악성코드 경유-유포지의 웹 소스코드를 수집하는 것은,
    상기 잠재적 악성코드 경유-유포지에 포함된 HTML 콘텐츠를 다운로드하고,
    상기 다운로드된 HTML 콘텐츠를 파싱하여 상기 잠재적 악성코드 경유-유포지의 웹 소스코드를 수집하는 것을 포함하는 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 방법.
  12. 제 11항에 있어서,
    상기 다운로드된 HTML 콘텐츠를 파싱하여 상기 잠재적 악성코드 경유-유포지의 웹 소스코드를 수집하는 것은 상기 파싱된 HTML 콘텐츠 중에서 리디렉션(redirection) 목적의 HTML 태그와, 객체(object) 삽입 코드와, 스크립트 코드를 분류하여 수집하는 것을 포함하는 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 방법.
KR1020100133523A 2010-12-23 2010-12-23 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법 KR20120071827A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100133523A KR20120071827A (ko) 2010-12-23 2010-12-23 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법
US13/304,986 US20120167220A1 (en) 2010-12-23 2011-11-28 Seed information collecting device and method for detecting malicious code landing/hopping/distribution sites

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100133523A KR20120071827A (ko) 2010-12-23 2010-12-23 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법

Publications (1)

Publication Number Publication Date
KR20120071827A true KR20120071827A (ko) 2012-07-03

Family

ID=46318708

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100133523A KR20120071827A (ko) 2010-12-23 2010-12-23 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법

Country Status (2)

Country Link
US (1) US20120167220A1 (ko)
KR (1) KR20120071827A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150059882A (ko) * 2013-11-25 2015-06-03 주식회사 케이티 스마트폰용 악성앱 분석 시스템과 이를 이용한 스마트폰용 악성앱 분석 방법 및 스마트폰용 악성앱 차단 서비스 시스템 및 이를 이용한 스마트폰용 악성앱 차단 서비스 방법

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101410838B1 (ko) * 2012-11-09 2014-06-23 최미선 고형세제 그라인더
US11960604B2 (en) * 2016-07-10 2024-04-16 Bank Leumi Le-Israel B.M. Online assets continuous monitoring and protection
CN107992556B (zh) * 2017-11-28 2020-08-21 福建中金在线信息科技有限公司 一种站点管理方法、装置、电子设备以及存储介质
CN114238976B (zh) * 2021-12-21 2023-05-09 北京火山引擎科技有限公司 文件的检测方法、装置、可读介质和电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7379932B2 (en) * 2005-12-21 2008-05-27 International Business Machines Corporation System and a method for focused re-crawling of Web sites
US8020206B2 (en) * 2006-07-10 2011-09-13 Websense, Inc. System and method of analyzing web content
US20100332593A1 (en) * 2009-06-29 2010-12-30 Igor Barash Systems and methods for operating an anti-malware network on a cloud computing platform

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20150059882A (ko) * 2013-11-25 2015-06-03 주식회사 케이티 스마트폰용 악성앱 분석 시스템과 이를 이용한 스마트폰용 악성앱 분석 방법 및 스마트폰용 악성앱 차단 서비스 시스템 및 이를 이용한 스마트폰용 악성앱 차단 서비스 방법

Also Published As

Publication number Publication date
US20120167220A1 (en) 2012-06-28

Similar Documents

Publication Publication Date Title
Olston et al. Web crawling
US9251157B2 (en) Enterprise node rank engine
US9122769B2 (en) Method and system for processing information of a stream of information
CN102882991B (zh) 一种浏览器及其进行域名解析的方法
US8799262B2 (en) Configurable web crawler
Williams et al. Scholarly big data information extraction and integration in the citeseer χ digital library
CN102843445B (zh) 一种浏览器及其进行域名解析的方法
US20090287641A1 (en) Method and system for crawling the world wide web
US20110087647A1 (en) System and method for providing web search results to a particular computer user based on the popularity of the search results with other computer users
US9154522B2 (en) Network security identification method, security detection server, and client and system therefor
CN102262635A (zh) 一种网页爬虫系统及方法
CN102857572A (zh) 一种http访问请求处理方法、装置及网关设备
KR20120071827A (ko) 악성코드 경유-유포지 탐지를 위한 씨드 정보 수집 장치 및 수집 방법
US10491606B2 (en) Method and apparatus for providing website authentication data for search engine
Lee et al. An effective approach to enhancing a focused crawler using Google
CN103440454B (zh) 一种基于搜索引擎关键词的主动式蜜罐检测方法
Thelwall A Free Database of University Web Links: Data Collection Issues.
CN110955855A (zh) 一种信息拦截的方法、装置及终端
Hurst et al. Social streams blog crawler
Sethi An optimized crawling technique for maintaining fresh repositories
Dey et al. Focused web crawling: a framework for crawling of country based financial data
Singhal et al. Design of a priority based frequency regulated incremental crawler
Leng et al. PyBot: an algorithm for web crawling
KR101650316B1 (ko) 분산 병렬 처리 기반의 html5 문서 수집 및 분석 장치 및 방법
Bamrah et al. Web forum crawling techniques

Legal Events

Date Code Title Description
A201 Request for examination
E601 Decision to refuse application