KR101329040B1 - 에스엔에스 트랩 수집 시스템 및 그에 의한 유알엘 수집 방법 - Google Patents

에스엔에스 트랩 수집 시스템 및 그에 의한 유알엘 수집 방법 Download PDF

Info

Publication number
KR101329040B1
KR101329040B1 KR1020110132134A KR20110132134A KR101329040B1 KR 101329040 B1 KR101329040 B1 KR 101329040B1 KR 1020110132134 A KR1020110132134 A KR 1020110132134A KR 20110132134 A KR20110132134 A KR 20110132134A KR 101329040 B1 KR101329040 B1 KR 101329040B1
Authority
KR
South Korea
Prior art keywords
url
information
account
sns
url information
Prior art date
Application number
KR1020110132134A
Other languages
English (en)
Other versions
KR20130065322A (ko
Inventor
정현철
지승구
이태진
정종일
강홍구
김병익
Original Assignee
한국인터넷진흥원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국인터넷진흥원 filed Critical 한국인터넷진흥원
Priority to KR1020110132134A priority Critical patent/KR101329040B1/ko
Priority to US13/674,663 priority patent/US20130151526A1/en
Publication of KR20130065322A publication Critical patent/KR20130065322A/ko
Application granted granted Critical
Publication of KR101329040B1 publication Critical patent/KR101329040B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

SNS 상에서 교류되는 정보 중 악성 코드가 심어진 정보를 정확하고 효율적으로 추출, 수집하기 위한 SNS 트랩 수집 시스템 및 그에 의한 URL 수집 방법이 개시된다. 이를 위하여, 본 발명은 SNS 사이트마다 가입되거나 등록된 계정 정보를 주기적으로 점검하여 점검된 상기 계정 정보를 XML 파싱(parsing)하여 수집하는 SNS 계정 수집 모듈; 상기 XML 파싱한 결과인 계정 아이디/패스워드 정보에 기초하여 상기 SNS 사이트에 로그인된 임의의 계정을 호출하는 계정 호출 모듈; 게시물 확인 오픈 API을 이용하여 상기 호출된 계정의 게시물을 수집하는 게시물 수집 모듈; 상기 수집된 게시물마다 본문 내용을 저장하고, 상기 본문 내용안에 존재하는 URL 정보를 추출, 수집하는 URL 수집 모듈; 및 상기 수집된 URL 정보를 XML 문서 형태로 저장하는 URL 저장 모듈;을 포함하는 SNS 트랩 수집 시스템이 제공된다.
이에, 본 발명은 계정 정보의 계정 아이디와 패스워드를 이용하여 SNS에서 교류되는 게시물(게시글, 메시지, 쪽지 등) 내부에 있는 악성 코드용 URL 정보를 효율적으로 수집함으로써, SNS에서의 악성 코드 검출에 활용 할 수 있어 악성 코드의 감염에 따른 사용자의 피해를 현저하게 줄이는 효과가 있다.

Description

에스엔에스 트랩 수집 시스템 및 그에 의한 유알엘 수집 방법{SNS TRAP COLLECTION SYSTEM AND URL COLLECTION METHOD BY THE SAME}
본 발명은 SNS 트랩 수집 시스템 및 그에 의한 URL 수집 방법에 관한 것으로서, 더욱 상세하게는, SNS 상에서 교류되는 정보 중 악성 코드가 심어진 정보를 정확하고 효율적으로 추출, 수집하기 위한 SNS 트랩 수집 시스템 및 그에 의한 URL 수집 방법에 관한 것이다.
최근에는 많은 사람들이 가까운 지인과의 소식 전달을 위하여 Social Network Service(이하 'SNS'라 지칭함)를 이용하고 있다. 특히, 스마트폰이나 타블릿 PC와 같은 이동 기기들이 급속하게 보급되어 장소의 구분 없이 자신의 소식을 전하거나, 지인의 소식을 쉽게 접할 수 있게 되었다. SNS의 서비스 형태로는 트위터와, 페이스북등과 같은 국외 SNS 및 싸이월드, 미투데이와 같은 국내 SNS가 있다.
이와 같이, 실시간으로 지인간의 정보를 교환할 수 있는 SNS는 앞서 설명한 바와 같이 좋은점뿐만 아니라 단점 또한 갖고 있다. 가장 큰 문제점으로는 악성 웹 사이트 연결에 의한 악성코드 감염이다. 개인 정보 유출, 허위 정보 유포 및 유명인 사칭 등의 다른 문제점들 또한 존재하고 있다.
이중에서 기존의 악성 코드 유포는 웹 페이지 해킹을 통한 악성 코드 전파가 주류를 이루고 있었다. 악성 코드 유포가 불특정 다수를 대상으로 이루어진다. 악성 코드 유포를 위한 공격자는 정상적인 웹 페이지를 해킹하여 악성 코드 유로 URL을 삽입해야 한다. 또는 실제 웹 페이지와 유사한 가짜 웹 페이지를 유도하는 과정이 필요하다.
이에 따라, 기존의 악성 코드 유포 방식에서는 많은 준비 과정이 필요하며 이들 단계 중 한 단계가 실패할 경우 악성 코드 유포에 실패하게 된다.
현재 SNS를 통해 악성 코드를 유포하는 경우, SNS 게시물을 작성하는 사람과 방문하는 사람들 사이에는 신뢰를 가지고 있으므로 보다 확실한 악성 코드 유포가 가능하다. 또한, 악성 코드를 유포하기 위해서, 웹 사이트 해킹을 통한 사용자 유도가 불필요하여 효과적인 악성 코드 유포 경로가 만들어지게 된다.
이러한 특징과 더불어 실시간으로 정보를 교환하는 SNS의 장점을 이용하여 기존보다 빠른 시간내에 악성 코드가 유포되는 특징이 있다. 이에 따라, 사용자가 증가하고 있는 SNS에서의 악성 코드 유포를 확인하여 보다 안전한 인터넷 환경을 구축할 필요성이 있으나, 아직까지 신속히 대처할만한 방법은 제시되지 못하고 있는 실정이다.
본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 게시글, 메시지, 쪽지와 같은 SNS 게시물에서 유포되는 악성 코드용 URL을 검색 사이트에서 제공하는 실시간 검색어 정보에 기반하여 찾아 활용하기 위한 SNS 트랩 수집 시스템 및 그에 의한 URL 수집 방법을 제공하고자 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 기능을 수행하기 위한, 본 발명의 특징은 다음과 같다.
본 발명의 일 실시예에 따르면, SNS 사이트마다 가입되거나 등록된 계정 정보를 주기적으로 점검하여 점검된 상기 계정 정보를 XML 파싱(parsing)하여 수집하는 SNS 계정 수집 모듈; 상기 XML 파싱한 결과인 계정 아이디/패스워드 정보에 기초하여 상기 SNS 사이트에 로그인된 임의의 계정을 호출하는 계정 호출 모듈; 게시물 확인 오픈 API을 이용하여 상기 호출된 계정의 게시물을 수집하는 게시물 수집 모듈; 상기 수집된 게시물마다 본문 내용을 저장하고, 상기 본문 내용안에 존재하는 URL 정보를 추출, 수집하는 URL 수집 모듈; 및 상기 수집된 URL 정보를 XML 문서 형태로 저장하는 URL 저장 모듈;을 포함하는 SNS 트랩 수집 시스템이 제공된다.
여기서, 본 발명의 일 실시예에 따른 SNS 트랩 수집 시스템은 상기 URL 정보가 단축 URL인 경우, 상기 단축 URL을 생성한 원본 사이트에 접속한 후, 상기 원본 사이트로부터 원본 URL 정보를 획득하는 원본 URL 수집 모듈;을 더 포함할 수 있다.
또한, 상기 URL 저장 모듈은, 상기 URL 정보 및 원본 URL 정보를 상기 XML 문서 내의 BOARD 태그 또는 MSG 태그 형태로 저장할 수도 있다.
또한, 상기 게시물 수집 모듈은, 상기 게시물에 대해 크롤링시켜 수집하는 것이 바람직하다.
또한, 본 발명의 일 실시예에 따른 SNS 트랩 수집 시스템은 상기 저장된 XML 문서에 기초하여 상기 URL 정보와 원본 URL 정보의 중복 여부를 각각 점검하여 중복된 상기 URL 정보와 원본 URL 정보를 제거하고, 수집 시간을 기록하는 URL 관리 모듈;을 더 포함할 수 있다.
또한, 본 발명의 다른 일 실시예에 따르면, (a) SNS 사이트마다 가입된 계정 정보를 주기적으로 확인하는 점검 주기 초과 여부를 판단하는 단계; (b) 상기 판단 결과, 초과되지 않으면 점검된 상기 계정 정보를 XML 파싱(parsing)하여 수집하는 단계; (c) 상기 XML 파싱한 결과인 계정 아이디/패스워드 정보에 기초하여 상기 SNS 사이트에 로그인된 임의의 계정을 호출하는 단계; (d) 게시물 확인 오픈 API을 이용하여 상기 호출된 계정이 개시한 게시물이 있는지를 판단하는 단계; (e) 상기 판단 결과, 상기 게시물이 있을 경우 상기 게시물을 수집하는 단계; (f) 상기 수집된 게시물마다 본문 내용을 저장하고, 상기 본문 내용안에 존재하는 URL 정보를 추출, 수집하는 단계; 및 (g) 상기 수집된 URL 정보를 XML 문서 형태로 저장하는 단계;를 포함하는 SNS URL 수집 방법이 제공된다.
여기서, 상기 (b) 단계는, (h) 상기 판단 결과, 초과되면 상기 주기내의 점검 대상의 계정 수와 이미 분석된 계정 수를 비교하여 상기 분석 계정 수가 클 경우 상기 (c) 단계를 수행하는 계정 수 판단 단계;를 더 포함할 수 있다.
또한, 본 발명의 다른 일 실시예에 따른 SNS URL 수집 방법은 (i) 상기 URL 정보가 단축 URL인 경우, 상기 단축 URL을 생성한 원본 사이트에 접속한 후, 상기 원본 사이트로부터 원본 URL 정보를 획득하는 단계;를 더 포함할 수 있다.
또한, 상기 본 발명의 다른 일 실시예에 따른 SNS URL 수집 방법은 (j) 상기 저장된 XML 문서에 기초하여 상기 URL 정보와 원본 URL 정보의 중복 여부를 각각 점검하여 중복된 상기 URL 정보와 원본 URL 정보를 제거하고, 수집 시간을 기록하는 단계;를 더 포함할 수 있다.
또한, 상기 (f) 단계는, 상기 URL 정보 및 원본 URL 정보를 상기 XML 문서 내의 BOARD 태그 또는 MSG 태그 형태로 저장하는 것이 바람직하다.
이상과 같이 본 발명에 의하면, 계정 정보의 계정 아이디와 패스워드를 이용하여 SNS에서 교류되는 게시물(게시글, 메시지, 쪽지 등) 내부에 있는 악성 코드용 URL 정보를 효율적으로 수집함으로써, SNS에서의 악성 코드 검출에 활용할 수 있어 악성 코드의 감염에 따른 사용자의 피해를 현저하게 줄이는 효과가 있다.
또한, 본 발명에 의하면, SNS 게시물(게시글, 메시지, 쪽지 등) 내부에 존재하는 본문 내용과 그 안에 있는 URL 정보(단축 URL 정보)를 수집하여 악성 코드 검출에 활용함으로써, 악성 코드의 감염에 따른 사용자의 피해를 더욱 더 줄이는 효과가 있다.
또한, 본 발명에 의하면, 중복된 URL 정보와 원본 URL 정보를 제거하고, 수집 시간을 기록하여 둠으로써, SNS 사이트에서 거래되는 계정자별 관리가 편하고, 보완 관리가 가능한 효과가 있다.
또한, 본 발명에 의하면, 게시물 확인 오픈 API을 이용하여 게시물을 취득하는데 활용하게 되어, 기존의 프로그램 개발에 국한된 한계를 벗어나 악성 코드 용도로도 사용 가능한 효과가 있다.
도 1은 본 발명의 제1 실시예에 따른 SNS 트랩 수집 시스템(100)을 예시적으로 나타낸 도면이다.
도 2는 본 발명의 제1 실시예에 따른 URL 정보의 XML 형태를 나타낸 도면이다.
도 3 내지 도 5는 본 발명의 제2 실시예에 따른 URL 수집 방법(S100)을 예시적으로 나타낸 순서도이다.
도 6은 본 발명의 제2 실시예에 따른 단축 URL 처리 과정을 도식화하여 나타낸 도면이다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
제1 실시예
도 1은 본 발명의 제1 실시예에 따른 SNS 트랩 수집 시스템(100)을 예시적으로 나타낸 도면이다.
도 1을 참조하면, 본 발명의 제1 실시예에 따른 SNS 트랩 수집 시스템(100)은 SNS 계정 수집 모듈(110), 계정 호출 모듈(120), 게시물 수집 모듈(130), URL 수집 모듈(140), URL 저장 모듈(150), 통신 모듈(160) 및 제어 모듈(170)을 포함하여 구성된다.
먼저, SNS 계정 수집 모듈(110)은 SNS 사이트(210)마다 가입된 계정 정보를 주기적으로 점검하는 기능을 수행한다. 이를 위하여 유/무선 통신망으로 연결된 SNS 사이트(210)을 관리하는 관리 서버(200)와 연계하여, 상기 관리 서버(200)의 허락 또는 관리 서버(200)로의 로그인을 통하여 주기적으로 접근함으로써, 각 SNS 사이트(210)에 가입되거나, 이미 등록된 계정 정보를 점검(체크)할 수 있게 된다.
여기서, 계정 정보를 수집할 때, XML 파싱(parsing)을 통하여 수집하는 것이 바람직하다. SNS 계정 수집 모듈(110)에 의해 XML 파싱이 수행되면, 계정 정보에 포함된 사용자의 계정 주소, 주민등록번호 및 사용자의 전화 번호와 같은 불필요한 요소를 제거할 수 있으며, 계정 아이디와 패스워드 및 계정 수와 같이 본 발명의 목적을 달성하기 위하여 필수적인 계정 정보만을 가려내어 수집할 수 있게 되는 것이다. 여기서, 편의상 SNS 사이트(210)와 관리 서버(200)는 하나만을 도시하였으나, 복수 개로 존재할 수 있다.
다음으로, 계정 호출 모듈(120)은 상기 XML 파싱한 결과인 계정 아이디/패스워드 정보에 기초하여 SNS 사이트(210)에 로그인된 임의의 계정을 호출하는 기능을 수행한다.
통상, SNS 사이트(210)에 게재되는 게시물은 로그인된 사용자의 계정 아이디와 패스워드를 매개로 게재하고 있기 때문에 이러한 사용자의 계정 아이디와 패스워드에 기초하여 호출할 수 있게 된다. 이때, 호출은 로그인된 계정 아이디(사용자)를 계속하여 모니터링한 결과에 의해 발생하거나, SNS 사이트(210)의 관리 서버(200)에서 로그인된 계정에 대응하여 알람이 오면, 상기 알람에 대한 응답으로서 발생하는 것일 수도 있다. 한편, 앞서 설명한 게시물이라 함은 SNS에서 주로 게재되는 형태인 게시글, 메시지나 쪽지와 같은 기능을 총칭하여 부여된 의미를 일컫는다.
다음으로, 게시물 수집 모듈(130)은 계정 호출 모듈(120)에 의하여 호출된 계정(사용자)이 개재한 게시물을 SNS 사이트(210)로부터 수집하는 기능을 수행한다. 이때, SNS 사이트(210)에 게재된 게시물에 접근하기 위해서는 [표 1]에서 예시한 바와 같은 게시물 확인 오픈 API를 이용한다.
SNS 사이트(210)에서 제공하는 오픈 API는 통상 개발자 용도로 제공되는 것이 일반적이나, 본 실시예에서는 이후에 설명될 게시물 내부에 존재하는 URL 정보(단축 URL 정보)를 취득하기 위한 수단으로서 사용한다.
SNS API
트위터 http://twitter.com/statuses/user_timeline/계정명.rss
페이스북 http://www.facebook.com/feeds/page.php?format=atom10&id=계정ID
미투데이 http://me2day.net/계정명/rss_daily
http://me2day.net/계정명/friends/all.rss
게시물 확인 오픈 API 예
이와 같이, SNS 사이트(210)에서 제공되는 오픈 API를 이용하게 되면, 검색 사이트에서 게재한 게시물의 위치까지 접근이 가능하여 상기 게시물을 게시물 수집 모듈(130)에서 쉽게 취득할 수 있게 되는 것이다.
다음으로, URL 수집 모듈(140)은 게시물 수집 모듈(130)에 의하여 수집된 게시물마다 본문 내용을 저장하고, 본문 내용 안에 존재하는 URL 정보를 추출하여 수집하는 기능을 수행한다.
예를 들면, 게시글과 같은 게시물의 본문 내용에는 자신의 정보의 출처를 나타내는 URL 정보가 향상 기록되어 있다. 또는, 메시지나 쪽지와 같은 게시물의 본문 내용에는 SNS 계정 관리자 또는 친구의 메시지로 위장한 스팸 메일의 출처를 나타내는 URL 정보가 마찬가지로 기록되어 있다.
이에 따라, 본 발명의 URL 수집 모듈(140)은 로그인된 계정이 갖고 있는 게시물의 본문 내용에 담겨진 URL 정보를 바로 추출하여 수집할 수 있다. 이때, 바람직하게는 게시물을 XML 형태로 크롤링시켜 URL 정보를 수집할 수 있다. 여기서, URL 수집 모듈(140)에 의하여 수집된 URL 정보는 XML 형태의 BOARD 태그 또는 MSG 태그 형태로 이루어진다. 이러한 URL 정보의 XML 형태는 도 2와 같이 나타낼 수 있다.
또한, 최종적으로 수집된 URL 정보는 크롤링 과정을 통하여 URL 리스트(list) 형태로 만들 수 있다. URL 리스트 형태의 예는 이후의 도 5에서 예시한다.
이와 같이, SNS의 게시물, 메시지나 쪽지와 같은 게시물의 본문 내부에 담겨진 URL 정보는 SNS에서의 악성 코드를 찾는데 활용된다. 여기서, SNS용 URL 악성 코드를 수집하고 활용하는 방법은 동일 출원인에 의해 0000년 00월 00일자로 출원된 한국특허출원번호 10-2010-000000호에 개시되어 있다. 이와 관련한 설명은 생략하며, 본 발명의 목적을 위하여 상기 출원을 본 발명의 일부로서 채용하고 있는 것으로서 해석되어야 한다.
다음으로, URL 저장 모듈(150)은 URL 수집 모듈(140)에 의하여 수집된 URL 정보를 XML 문서 형태로 저장하는 기능을 수행한다. 다시 말해, 앞서 설명한 URL 수집 모듈(140)에 의해 수집된 URL 정보는 XML 형태로 크롤링 과정을 통하여 XML 문서 형태, 예컨대 URL 리스트(list) 형식의 XML 문서 형태로 만들어질 수 있다. XML 문서 형태의 예는 이후의 도 5에서 예시하였다.
다음으로, 통신 모듈(160)은 SNS 트랩 수집 시스템(100)과 SNS 사이트(210)을 제공하는 관리 서버(200)간의 통신 인터페이스를 지원하여, SNS 트랩 수집 시스템(100)과 관리 서버(200) 간에 원활한 데이터 송수신이 가능하게 된다.
이를 통해 알 수 있듯이, SNS 사이트(210)로부터 수집되는 게시물 정보와 그로부터 도출된 URL 정보는 SNS 사이트(210)를 관리하는 관리 서버(200)부터 실질적으로 수집함을 의미한다.
마지막으로, 본 발명의 제어 모듈(170)은 SNS 계정 수집 모듈(110), 계정 호출 모듈(120), 게시물 수집 모듈(130), URL 수집 모듈(140), URL 저장 모듈(150) 및 통신 모듈(160)간의 데이터 흐름을 제어하며, 이로써 SNS 계정 수집 모듈(110), 계정 호출 모듈(120), 게시물 수집 모듈(130), URL 수집 모듈(140), URL 저장 모듈(150) 및 통신 모듈(160)에서 각각 고유의 데이터 처리를 수행할 수 있게 되는 것이다.
이와 같이, 본 발명의 제1 실시예에 따른 SNS 트랩을 통한 SNS 트랩 수집 시스템(100)은 로그인된 계정에 의한 게시물을 수집하고, 상기 게시물의 본문 내용에있는 URL 정보를 수집함으로써, SNS에서 발생되는 악성 코드를 검출하는데 활용되는 유익한 장점이 있다. 기존에는 위와 같은 URL 정보를 검출하고자 하는 메카니즘을 전혀 제공하지 못하였다.
한편, 본 발명의 제1 실시예에 따른 SNS 트랩 수집 시스템(100)은 원본 URL 수집 모듈(180) 및 URL 관리 모듈(190)을 더 포함할 수 있다. 원본 URL 수집 모듈(180)은 게시물에 존재하는 URL 정보가 단축 URL인 것으로 확인될 경우, 상기 단축 URL을 생성한 원본 사이트에 접속한 후, 상기 원본 사이트로부터 원본 URL 정보를 획득하는 기능을 수행한다.
획득한 원본 URL 정보는 앞서 설명한 URL 수집 모듈(140) 처럼 크롤링 과정을 통하여 만들어질 수 있다. 이와 같이, 수집된 게시물의 본문 내용에 단축 URL인 경우에도 효율적으로 원본 URL 정보를 수집할 수 있게 되는 것이다. 최종 획득된 원본 URL 정보는 앞서 설명한 URL 정보와 일맥상통한다.
여기서, 원본 URL 수집 모듈(180)에 의하여 수집된 단축 URL 정보도 또한 URL 저장 모듈(150)에 XML 문서 형태로 저장될 수 있으며, 바람직하게는 XML 문서 내의 BOARD 태그 또는 MSG 태그 형태로 저장될 수 있다.
반면, URL 관리 모듈(190)은 URL 저장 모듈(150)에 의해 저장된 XML 문서 정보에 기초하여 URL 정보와 원본 URL 정보의 중복 여부를 각각 점검하여 중복된 URL 정보와 원본 URL 정보를 제거하고, 수집 시간을 기록하는 기능을 수행한다.
이를 위하여, URL 관리 모듈(190)은 SNS 계정 수집 모듈(110), 계정 호출 모듈(120), 게시물 수집 모듈(130), URL 수집 모듈(140), URL 저장 모듈(150) 및 원본 URL 수집 모듈(180) 등과 연계하여 중복 여부를 체크하고, 수집 시간을 파악하게 되는 것이다.
예를 들어, 게시물 수집 모듈(130)과 연계될 경우, 게시물 수집 모듈(130)에서 해당하는 게시물 정보를 수집할때마다 이벤트가 발생하여 수집 시간을 알아낼 수 있으며, URL 저장 모듈(150) 및 원본 URL 수집 모듈(180)에 저장된 게시물과 URL 정보(원본 URL 정보)를 체크함으로써, URL 정보와 원본 URL 정보의 중복 여부를 알 수 있는 것이다.
제2 실시예
도 3 내지 도 5는 본 발명의 제2 실시예에 따른 URL 수집 방법(S100)을 예시적으로 나타낸 순서도이다.
도 3을 참조하면, 본 발명의 제2 실시예에 따른 URL 수집 방법(S100)은 SNS 사이트(210)에서 발생되는 악성 코드에 감연된 게시글, 메시지, 쪽지 등의 게시물 본문 내부에 숨어있는 URL을 수집하기 위하여 S110 내지 S146 단계로 이루어진다. 이러한 URL 수집 방법(S100)은 앞서 도 1의 SNS 트랩 수집 시스템(100)의 각 구성에 기반한다.
먼저, S110 단계에서는 SNS 사이트(210)마다 가입되거나 등록된 계정 정보를 주기적으로 확인하는 점검 주기 초과 여부를 판단한다. 판단 결과, 점검 주기 내에 계정 정보가 존재하면, 이후의 S112 단계를 실시하고, 그렇지 않을 경우에는 S124 단계를 실시한다.
이후, S112 단계에서는 S110 단계의 판단 결과 점검 주기 내에 계정 정보가 존재하는 것으로 인식하면, SNS 사이트(210, 관리 서버(200))로부터 계정 정보가 수신되었는지를 판단한다. 여기서의 계정 정보는 신규 가입되거나 이미 등록되어 로그인된 사용자의 개인 정보뿐만 아니라 계정 아이디와 패스워드와 같은 정보를 포함함을 의미한다.
이후, S114 단계에서는 S112 단계에 의해 정상적으로 계정 정보가 수신되었음을 확인하면, 수신된 계정 정보를 XML 파싱(parsing)을 실시한다. XML 파싱이 이루어지면 SNS 사이트(210)에 로그인된 임의의 사용자에 대한 개인 정보를 제외한 계정 아이디와 패스워드와 같은 계정 정보만을 추출해 낼 수 있다.
이후, S116 단계에서는 XML 파싱된 계정 정보를 확인될때마다 관리 계정 수를 갱신한다. 바람직하게는 확인된 계정 정보의 수만큼 관리 계정 수를 증가시킨다.
이후, S118 단계에서는 XML 파싱된 계정 아이디와 패스워드가 이미 저장되어 있는 계정 아이디와 패스워드가 있는지를 확인하여 없다고 하면 계정 아이디와 패스워드 정보를 저장하는 갱신을 수행한다. 이미 저장된 계정 아이디와 패스워드라 하면 삭제한다.
이후, S120 단계에서는 새로운 계정 정보(계정 아이디/패스워드)인 경우 이를 저장한다. 이때, 바람직하게는 계정 아이디와 패스워드를 쌍으로 하여 저장한다.
이후, S122 단계에서는 새로운 점검을 위하여 기존의 분석 정보(여기서의 분석 정보라 함은 이미 저장되어 점검 대상인 계정을 의미함)를 초기화를 실시한다. 분석 계정 수의 초기화는 SNS 트랩 수집 시스템(100)이 모든 계정을 점검한 직후 초기화를 실시하지는 않는다. 그러나, 점검 주기 내의 모든 계정들의 점검이 완료된 경우 분석 계정 수를 초기화하면 동일한 계정을 다시 점검할 수 있게 된다. 이러한 S122 단계의 수행은 앞서 설명한 S112 단계의 계정 정보가 수신되지 않은 경우에도 수행된다.
이후, S126 단계에서는 SNS 사이트(210)를 호출을 수행한다. 이러한 S126 단계는 S124 단계의 부정에 의해서도 수행될 수 있다.
즉, S124 단계에서는 S110 단계의 판단 결과 점검 주기가 초과되면 설정 주기내 방문 점검 대상 계정 수와 분석된 계정 수 간의 비교를 실시한다. 비교 결과, 설정 주기내 방문 점검 대상 계정 수보다 분석된 계정 수가 적은 경우 SNS 사이트(210)의 호출을 수행하는 S126 단계를 실시하게 된다. 만약, 설정 주기내 방문 점검 대상 계정 수보다 분석된 계정 수가 큰 경우에는 분석 계정 수를 증가시키는 S146 단계를 실시한다.
이후, S128, S130 및 S132 단계에서는 S126 단계의 호출이 어느 SNS 사이트로 이루어지는지를 각각 판단한다. 예를 들어, 페이스북(facebook) SNS 사이트이면 바로 S134 단계를 수행하고, 아니면, 트위터 SNS 사이트인지를 확인하고 이 또한 아니면 엠투데이 SNS 사이트인지를 판단한다.
이후, S134 단계에서는 임의의 SNS 사이트를 호출한 S128, S130 및 S132 단계를 수행 후, 해당 SNS 사이트인 경우에 수행된다. 이러한 S134 단계에서는 S114 단계의 XML 파싱한 결과인 계정 아이디/패스워드 정보에 기초하여 SNS 사이트에 로그인된 임의의 계정에 대해 호출을 실시한다. 이때의 호출은 로그인된 계정자가 발생한 것을 감지한 해당 SNS 사이트(관리 서버)로부터 보내온 신호(알람 등)에 대응하여 발생되는 것일 수 있다.
이후, S136 단계에서는 호출이 발생한 해당 SNS 사이트에 접속하기 위하여 SNS 계정 로그인을 실시한다. 이러한 SNS 계정 로그인은 자동으로 행해질 수 있다.
이후, S138 단계에서는 S134 단계의 호출에 따른 로그인된 계정(사용자가)이 게재한 게시물이 있는지의 여부를 판단한다.
이후, S140 단계에서는 S138 단계의 판단 결과 게시물이 존재하는 것으로서 판단되면 게시물을 수신하여 저장한다. 이때, 게시물 확인 오픈 API를 이용하여 게시물을 수신한다.
이후, S142 단계에서는 S140 단계에 의해 수신된 게시물을 XML 형태로 크롤링시켜 게시물의 본문 내용으로부터 URL 정보를 추출한다. 이때, 게시물로부터 추출되는 URL 정보는 단축 URL에 의한 원본 URL 정보일 수 있다.
이후, S144 단계에서는 S142 단계에 의해 추출된 URL 정보(원본 URL 정보)를 XML 문서로 저장한다. 이때, XML 문서는 XML 리스트 형식일 수 있다. 이와 같은 과정을 통하여 획득한 XML 문서(URL 정보)는 악성 코드 검출에 활용된다.
한편, S146 단계에서는 개시물이 수신되었음을 확인하거나, S124 단계의 계정 수 비교에 의해 설정 주기내 방문 점검 대상 계정 수보다 분석된 계정 수가 큰경우에 실시된다. 이러한 S146 단계에서는 개시물을 개시한 계정(사용자 수)을 분석 계정 수에 포함시키도록 분석 계정수를 증가시킨다. 이때 계정 수만큼 증가시킨다. 이로써, 신규 가입하거나 이미 등록된 계정에 대하여 효율적으로 관리할 수 있게 되는 것이다.
다음으로, 도 4를 참조하면, 본 발명의 제2 실시예에 따른 URL 수집 방법(S100)은 수집된 게시물로부터 게시물의 본문 내용에 있는 URL 정보가 단축인지 아니지를 판단에서부터 원본 URL 획득를 획득하기까지의 과정을 나타낸 것으로서, S148 단계 내지 S154 단계로 이루어진다. 이러한 URL 수집 방법(S100)은 앞서 도 1의 원본 URL 수집 모듈(180)에 기반하고 있으며, 부수적으로 URL 저장 모듈(150) 및 URL 수집 모듈(140) 등에 기반한다.
먼저, S148 단계에서는 수집된 게시물로부터 게시물의 본문 내용에 있는 URL 정보가 단축인지 아니지를 판단한다. 단축 URL이 아니고, URL 정보인 것으로 판단되면, URL 정보를 XML 문서로 저장한다(S144).
이후, S150 단계에서는 S148 단계의 판단 결과 단축 URL인 것으로 확인되면 단축 URL을 이용하여 원본 사이트에 접속한다. 이후, S152 단계에서는 원본 사이트로부터 원본 URL 정보를 획득한다. 이후, S154 단계에서는 획득한 원본 URL 정보를 URL 정보와 마찬가지로 XML 문서로 저장한다.
마지막으로, 도 5를 참조하면, 본 발명의 제2 실시예에 따른 URL 수집 방법(S100)은 앞서 설명한 S142 단계와 S152 단계에 의해 수집된 URL 정보와 원본 URL 정보를 가지고서 중복 여부를 확인하거나 해당 URL에 대해 수집 시간을 설정하기 위한 과정으로서, S142 내지 S158 단계로 이루어진다. 이러한 URL 수집 방법(S100)은 앞서 도 1의 URL 관리 모듈(190)에 기반하고 있으며, 반드시 이에 한정되지는 않는다. 예를 들면, URL 저장 모듈(150), URL 수집 모듈(140) 및 원본 URL 수집 모듈(180) 등에 기반할 수도 있다.
먼저, S142 단계와 S152 단계에서는 수집된 게시물로부터 게시물 본문 내용에 담겨진 URL 정보와 이후의 과정에 의해 획득한 원본 URL 정보를 갖고 있다.
이후, S154 단계에서는 URL 정보와 원본 URL 정보를 수집하게 되면 당연히 그 출처인 게시물을 게재한 계정이 누구인지를 알 수 있기 때문에 해당하는 계정 정보를 수집한다.
이후, S156 단계에서는 새로이 획득한 계정이 이미 등록되어 있는지를 확인하는 중복될 경우에 중복 URL 제거를 실시한다. 이후, S142 및/또는 S152 단계에 의해 획득한 URL 정보 및/또는 원본 URL 정보에 맞게 URL 수집 시간을 설정한다. 이러한 과정을 통하여 중복 URL을 제거하거나 수집 시간을 설정하게 되면, 계정 수 관리와 분석하는데 유용하게 쓰일 수 있다.
단축 URL 예
도 6은 본 발명의 제2 실시예에 따른 단축 URL 처리 과정을 도식화하여 나타낸 도면이다. 도 6을 참조하면, 본 발명의 제2 실시예에 따른 단축 URL 처리 과정은 제1 객체 예컨대, 게시물내에 포함된 URL 정보 중 'Crawler'의 URL 정보를 가지고, 실제 웹 사이트를 방문하여 정상적인 URL이라고 판정되면 크롤링하여 XML 문서 형태로 만들 수 있다. 그러나, URL 정보 중 'Crawler'의 URL 정보가 단축 URL인 것으로 판정되면, 상기 단축 URL 정보를 통해 단축 URL 사이트로부터 원본 URL 정보를 획득한다.
이어서, 원본 URL 정보를 가지고, 실제 웹 사이트를 방문하여 정상적인 원본 URL 정보를 획득할 수 있으며, 크롤링시켜 XML 문서 형태로 만들게 된다. 이와 같이, 게시물의 본문 내용에 단축 URL 정보가 포함되더라도 원본 URL 정보를 획득함으로써, 악성 코드 수집, 검사 등에 활용할 수 있게 되는 것이다.
이상에서와 같이, 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고 다른 구체적인 형태로 실시할 수 있다는 것을 이해할 수 있을 것이다. 따라서 이상에서 기술한 실시예는 모든 면에서 예시적인 것이며 한정적이 아닌 것이다.
100 : SNS 트랩 수집 시스템 110 : SNS 계정 수집 모듈
120 : 계정 호출 모듈 130 : 게시물 수집 모듈
140 : URL 수집 모듈 150 : URL 저장 모듈
160 : 통신 모듈 170 : 제어 모듈
180 : 원본 URL 수집 모듈 190 : URL 관리 모듈
200 : SNS 사이트 관리 서버 210 : SNS 사이트

Claims (10)

  1. SNS 사이트마다 가입되거나 등록된 계정 정보를 주기적으로 점검하여 점검된 상기 계정 정보를 XML 파싱(parsing)하여 수집하는 SNS 계정 수집 모듈;
    상기 XML 파싱한 결과인 계정 아이디/패스워드 정보에 기초하여 상기 SNS 사이트에 로그인된 임의의 계정을 호출하는 계정 호출 모듈;
    게시물 확인 오픈 API을 이용하여 상기 호출된 계정의 게시물을 수집하는 게시물 수집 모듈;
    상기 수집된 게시물마다 본문 내용을 저장하고, 상기 본문 내용 안에 존재하는 URL 정보를 추출, 수집하는 URL 수집 모듈; 및
    상기 수집된 URL 정보를 XML 문서 형태로 저장하는 URL 저장 모듈;
    을 포함하는 것을 특징으로 하는 SNS 트랩 수집 시스템.
  2. 제 1항에 있어서,
    상기 URL 정보가 단축 URL인 경우, 상기 단축 URL을 생성한 원본 사이트에 접속한 후, 상기 원본 사이트로부터 원본 URL 정보를 획득하는 원본 URL 수집 모듈;
    을 더 포함하는 것을 특징으로 하는 SNS 트랩 수집 시스템.
  3. 제 2항에 있어서,
    상기 URL 저장 모듈은,
    상기 URL 정보 및 원본 URL 정보를 상기 XML 문서 내의 BOARD 태그 또는 MSG 태그 형태로 저장하는 것을 특징으로 하는 SNS 트랩 수집 시스템.
  4. 제 1항 내지 제 3항중 어느 한 항에 있어서,
    상기 게시물 수집 모듈은, 상기 게시물에 대해 크롤링하여 수집하는 것을 특징으로 하는 SNS 트랩 수집 시스템.
  5. 제 4항에 있어서,
    상기 저장된 XML 문서에 기초하여 상기 URL 정보와 원본 URL 정보의 중복 여부를 각각 점검하여 중복된 상기 URL 정보와 원본 URL 정보를 제거하고, 수집 시간을 기록하는 URL 관리 모듈;
    을 더 포함하는 것을 특징으로 하는 SNS 트랩 수집 시스템.
  6. (a) SNS 사이트마다 가입되거나 등록된 계정 정보를 주기적으로 확인하는 점검 주기 초과 여부를 판단하는 단계;
    (b) 상기 판단 결과, 초과되지 않으면 점검된 상기 계정 정보를 XML 파싱(parsing)하여 수집하는 단계;
    (c) 상기 XML 파싱한 결과인 계정 아이디/패스워드 정보에 기초하여 상기 SNS 사이트에 로그인된 임의의 계정을 호출하는 단계;
    (d) 게시물 확인 오픈 API을 이용하여 상기 호출된 계정이 개시한 게시물이 있는지를 판단하는 단계;
    (e) 상기 게시물이 있을 경우 상기 게시물을 수집하는 단계;
    (f) 상기 수집된 게시물마다 본문 내용을 저장하고, 상기 본문 내용안에 존재하는 URL 정보를 추출, 수집하는 단계; 및
    (g) 상기 수집된 URL 정보를 XML 문서 형태로 저장하는 단계;
    를 포함하는 것을 특징으로 하는 URL 수집 방법.
  7. 제 6항에 있어서,
    상기 (b) 단계는,
    (h) 상기 점검 주기가 초과되면 상기 주기내의 점검 대상의 계정 수와 이미 분석된 계정 수를 비교하여 상기 분석 계정 수가 클 경우 상기 (c) 단계를 수행하는 계정 수 판단 단계;
    를 더 포함하는 것을 특징으로 하는 URL 수집 방법.
  8. 제 6항에 있어서,
    (i) 상기 URL 정보가 단축 URL인 경우, 상기 단축 URL을 생성한 원본 사이트에 접속한 후, 상기 원본 사이트로부터 원본 URL 정보를 획득하는 단계;
    를 더 포함하는 것을 특징으로 하는 URL 수집 방법.
  9. 제 8항에 있어서,
    (j) 상기 저장된 XML 문서에 기초하여 상기 URL 정보와 원본 URL 정보의 중복 여부를 각각 점검하여 중복된 상기 URL 정보와 원본 URL 정보를 제거하고, 수집 시간을 기록하는 단계;
    를 더 포함하는 것을 특징으로 하는 URL 수집 방법.
  10. 제 8항에 있어서,
    상기 (f) 단계는,
    상기 URL 정보 및 원본 URL 정보를 상기 XML 문서 내의 BOARD 태그 또는 MSG 태그 형태로 저장하는 것을 특징으로 하는 URL 수집 방법.
KR1020110132134A 2011-12-09 2011-12-09 에스엔에스 트랩 수집 시스템 및 그에 의한 유알엘 수집 방법 KR101329040B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110132134A KR101329040B1 (ko) 2011-12-09 2011-12-09 에스엔에스 트랩 수집 시스템 및 그에 의한 유알엘 수집 방법
US13/674,663 US20130151526A1 (en) 2011-12-09 2012-11-12 Sns trap collection system and url collection method by the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110132134A KR101329040B1 (ko) 2011-12-09 2011-12-09 에스엔에스 트랩 수집 시스템 및 그에 의한 유알엘 수집 방법

Publications (2)

Publication Number Publication Date
KR20130065322A KR20130065322A (ko) 2013-06-19
KR101329040B1 true KR101329040B1 (ko) 2013-11-14

Family

ID=48572985

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110132134A KR101329040B1 (ko) 2011-12-09 2011-12-09 에스엔에스 트랩 수집 시스템 및 그에 의한 유알엘 수집 방법

Country Status (2)

Country Link
US (1) US20130151526A1 (ko)
KR (1) KR101329040B1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101392737B1 (ko) * 2013-09-11 2014-05-12 주식회사 안랩 Url 호출 탐지장치 및 방법
KR101469009B1 (ko) * 2013-10-21 2014-12-05 한국전자통신연구원 스팸 그룹 추출 장치 및 그 방법
US10027702B1 (en) * 2014-06-13 2018-07-17 Trend Micro Incorporated Identification of malicious shortened uniform resource locators
US20160205124A1 (en) * 2015-01-14 2016-07-14 Korea Internet & Security Agency System and method for detecting mobile cyber incident
CN107203580B (zh) * 2017-02-27 2018-06-26 广州旺加旺网络科技有限公司 一种网页显示方法以及使用网页显示方法的移动终端
CN111131268A (zh) * 2019-12-27 2020-05-08 南京邮电大学 一种基于微博平台的用户数据采集存储系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030034265A (ko) * 2001-08-17 2003-05-09 이원석 인터넷 게시판 통합 서비스 장치 및 방법
KR20040017824A (ko) * 2004-01-20 2004-02-27 (주)나우정보통신 웹 문서와 리스트정보의 패턴을 이용한 패턴예상분석에따른 정보검색시스템
KR20110115776A (ko) * 2010-04-16 2011-10-24 가톨릭대학교 산학협력단 양방향 소셜 네트워킹을 위한 정량적 빈도 분석 장치 및 그 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8918710B2 (en) * 2004-10-05 2014-12-23 Oracle International Corporation Reducing programming complexity in applications interfacing with parsers for data elements represented according to a markup language
US8869271B2 (en) * 2010-02-02 2014-10-21 Mcafee, Inc. System and method for risk rating and detecting redirection activities
US9268956B2 (en) * 2010-12-09 2016-02-23 Location Labs, Inc. Online-monitoring agent, system, and method for improved detection and monitoring of online accounts
US20130018823A1 (en) * 2011-07-15 2013-01-17 F-Secure Corporation Detecting undesirable content on a social network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030034265A (ko) * 2001-08-17 2003-05-09 이원석 인터넷 게시판 통합 서비스 장치 및 방법
KR20040017824A (ko) * 2004-01-20 2004-02-27 (주)나우정보통신 웹 문서와 리스트정보의 패턴을 이용한 패턴예상분석에따른 정보검색시스템
KR20110115776A (ko) * 2010-04-16 2011-10-24 가톨릭대학교 산학협력단 양방향 소셜 네트워킹을 위한 정량적 빈도 분석 장치 및 그 방법

Also Published As

Publication number Publication date
US20130151526A1 (en) 2013-06-13
KR20130065322A (ko) 2013-06-19

Similar Documents

Publication Publication Date Title
KR101329040B1 (ko) 에스엔에스 트랩 수집 시스템 및 그에 의한 유알엘 수집 방법
KR101329034B1 (ko) 에스엔에스 검색 서비스를 이용한 유알엘 수집 시스템 및 방법
KR101890272B1 (ko) 보안이벤트 자동 검증 방법 및 장치
CN111600856B (zh) 数据中心运维的安全系统
JP6408395B2 (ja) ブラックリストの管理方法
CN104519018A (zh) 一种防止针对服务器的恶意请求的方法、装置和系统
CN109729044B (zh) 一种通用的互联网数据采集反反爬系统及方法
CN110677384B (zh) 钓鱼网站的检测方法及装置、存储介质、电子装置
US9563770B2 (en) Spammer group extraction apparatus and method
CN103490884A (zh) 用于数字证书的验证的系统和方法
CN108573146A (zh) 一种恶意url检测方法及装置
CN102710770A (zh) 一种上网设备识别方法及其实现系统
Cai et al. Detecting HTTP botnet with clustering network traffic
CN111510463B (zh) 异常行为识别系统
CN106789486B (zh) 共享接入的检测方法、装置、电子设备及计算机可读存储介质
CN114338064B (zh) 识别网络流量类型的方法、装置、系统、设备和存储介质
CN107800686A (zh) 一种钓鱼网站识别方法和装置
JP2016033690A (ja) 不正侵入検知装置、不正侵入検知方法、不正侵入検知プログラム及び記録媒体
TW201928750A (zh) 比對伺服器、比對方法及電腦程式
CN104426861B (zh) 网页检测方法及系统
CN104486320A (zh) 基于蜜网技术的内网敏感信息泄露取证系统及方法
CN109889485A (zh) 一种用户异常操作行为检测方法、系统及存储介质
CN113810381A (zh) 一种爬虫检测方法、web应用云防火墙、装置和存储介质
Hayati et al. HoneySpam 2.0: Profiling web spambot behaviour
CN105939314A (zh) 网络防护方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee