KR101329034B1 - 에스엔에스 검색 서비스를 이용한 유알엘 수집 시스템 및 방법 - Google Patents

에스엔에스 검색 서비스를 이용한 유알엘 수집 시스템 및 방법 Download PDF

Info

Publication number
KR101329034B1
KR101329034B1 KR1020110132122A KR20110132122A KR101329034B1 KR 101329034 B1 KR101329034 B1 KR 101329034B1 KR 1020110132122 A KR1020110132122 A KR 1020110132122A KR 20110132122 A KR20110132122 A KR 20110132122A KR 101329034 B1 KR101329034 B1 KR 101329034B1
Authority
KR
South Korea
Prior art keywords
url
information
search
sns
site
Prior art date
Application number
KR1020110132122A
Other languages
English (en)
Other versions
KR20130065312A (ko
Inventor
정현철
지승구
이태진
정종일
강홍구
김병익
Original Assignee
한국인터넷진흥원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국인터넷진흥원 filed Critical 한국인터넷진흥원
Priority to KR1020110132122A priority Critical patent/KR101329034B1/ko
Priority to US13/676,599 priority patent/US20130179421A1/en
Publication of KR20130065312A publication Critical patent/KR20130065312A/ko
Application granted granted Critical
Publication of KR101329034B1 publication Critical patent/KR101329034B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/51Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems at application loading time, e.g. accepting, rejecting, starting or inhibiting executable software based on integrity or source reliability
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/16Implementing security features at a particular protocol layer
    • H04L63/168Implementing security features at a particular protocol layer above the transport layer

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

SNS 상에서 교류되는 정보 중 악성 코드가 심어진 정보를 정확하고 효율적으로 추출, 수집하기 위한 SNS 검색 서비스를 이용한 URL 수집 시스템 및 방법이 개시된다. 이를 위하여, 본 발명은 검색 사이트를 통해 제공되는 순위가 매겨진 실시간 검색어 정보를 주기적으로 수집하는 검색어 수집 모듈; 상기 실시간 검색어 정보에 기초하여 SNS 사이트에서 교류되는 게시물 내의 URL 정보를 추출하고, 수집하는 URL 수집 모듈; 및 상기 수집된 실시간 검색어 정보와 URL 정보를 기설정된 시간안에 중복 여부를 각각 확인하고, 중복되지 않을 경우 상기 실시간 검색어 정보와 URL 정보를 등록하는 등록 관리 모듈;을 포함하는 SNS 검색 서비스를 이용한 URL 수집 시스템이 제공된다.
이에, 본 발명은 실시간 검색어 정보에 기반한 SNS에서 교류되는 게시물(게시글, 메시지, 쪽지를 포함)내의 URL 정보를 추출, 수집하여, SNS에서의 악성 코드를 수집하는데 활용됨으로써, SNS에서 악성 코드 발생을 미리 차단할 수 있어 감염에 따른 사용자의 피해가 크게 줄여드는 효과가 실현된다. 더욱이 상기 URL 정보를 크롤링을 통하여 효과적인 수집이 가능하다.

Description

에스엔에스 검색 서비스를 이용한 유알엘 수집 시스템 및 방법{SYSTEM AND METHOD FOR COLLECTING URL INFORMATION USING RETRIEVAL SERVICE OF SOCIAL NETWORK SERVICE}
본 발명은 SNS 검색 서비스를 이용한 URL 수집 시스템 및 방법에 관한 것으로서, 더욱 상세하게는, SNS 상에서 교류되는 정보 중 악성 코드가 심어진 정보를 정확하고 효율적으로 추출하여 수집하기 위한 SNS 검색 서비스를 이용한 URL 수집 시스템 및 방법에 관한 것이다.
최근에는 많은 사람들이 가까운 지인과의 소식 전달을 위하여 Social Network Service(이하 'SNS'라 지칭함)를 이용하고 있다. 특히, 스마트폰이나 타블릿 PC와 같은 이동 기기들이 급속하게 보급되어 장소의 구분 없이 자신의 소식을 전하거나, 지인의 소식을 쉽게 접할 수 있게 되었다. SNS의 서비스 형태로는 트위터와, 페이스북등과 같은 국외 SNS 및 싸이월드, 미투데이와 같은 국내 SNS가 있다.
이와 같이, 실시간으로 지인간의 정보를 교환할 수 있는 SNS는 앞서 설명한 바와 같이 좋은점뿐만 아니라 단점 또한 갖고 있다. 가장 큰 문제점으로는 악성 웹 사이트 연결에 의한 악성코드 감염이다. 개인 정보 유출, 허위 정보 유포 및 유명인 사칭 등의 다른 문제점들 또한 존재하고 있다.
이중에서 기존의 악성 코드 유포는 웹 페이지 해킹을 통한 악성 코드 전파가 주류를 이루고 있었다. 악성 코드 유포가 불특정 다수를 대상으로 이루어진다. 악성 코드 유포를 위한 공격자는 정상적인 웹 페이지를 해킹하여 악성 코드 유로 URL을 삽입해야 한다. 또는 실제 웹 페이지와 유사한 가짜 웹 페이지를 유도하는 과정이 필요하다.
이에 따라, 기존의 악성 코드 유포 방식에서는 많은 준비 과정이 필요하며 이들 단계 중 한 단계가 실패할 경우 악성 코드 유포에 실패하게 된다.
현재 SNS를 통해 악성 코드를 유포하는 경우, SNS 게시물을 작성하는 사람과 방문하는 사람들 사이에는 신뢰를 가지고 있으므로 보다 확실한 악성 코드 유포가 가능하다. 또한, 악성 코드를 유포하기 위해서, 웹 사이트 해킹을 통한 사용자 유도가 불필요하여 효과적인 악성 코드 유포 경로가 만들어지게 된다.
이러한 특징과 더불어 실시간으로 정보를 교환하는 SNS의 장점을 이용하여 기존보다 빠른 시간내에 악성 코드가 유포되는 특징이 있다. 이에 따라, 사용자가 증가하고 있는 SNS에서의 악성 코드 유포를 확인하여 보다 안전한 인터넷 환경을 구축할 필요성이 있으나, 아직까지 신속히 대처할만한 방법은 제시되지 못하고 있는 실정이다.
본 발명은 상술한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 본 발명의 목적은 게시글, 메시지, 쪽지와 같은 SNS 게시물에서 유포되는 악성 코드용 URL을 검색 사이트에서 제공하는 실시간 검색어 정보에 기반하여 찾아 활용하기 위한 SNS 검색 서비스를 이용한 URL 수집 시스템 및 방법을 제공하고자 한다.
상기한 바와 같은 본 발명의 목적을 달성하고, 후술하는 본 발명의 특징적인 기능을 수행하기 위한, 본 발명의 특징은 다음과 같다.
본 발명의 일 실시예에 따르면, 검색 사이트를 통해 제공되는 순위가 매겨진 실시간 검색어 정보를 주기적으로 수집하는 검색어 수집 모듈; 상기 실시간 검색어 정보에 기초하여 SNS 사이트에서 교류되는 게시물 내의 URL 정보를 추출하고, 수집하는 URL 수집 모듈; 및 상기 수집된 실시간 검색어 정보와 URL 정보를 기설정된 시간안에 중복 여부를 각각 확인하고, 중복되지 않을 경우 상기 실시간 검색어 정보와 URL 정보를 등록하는 등록 관리 모듈;을 포함하는 SNS 검색 서비스를 이용한 URL 수집 시스템이 제공된다.
여기서, 상기 URL 수집 시스템은 상기 실시간 검색어 정보 및 URL 정보와 관련한 히스토리 정보-상기 히스토리 정보는 최초 수집 시간, 검색어 수집 경로, 중복 수집 횟수, 중복 수집 시간의 내역 정보를 포함함-를 더 수집하는 히스토리 정보 수집 모듈;을 더 포함할 수 있다.
또한, 상기 검색어 수집 모듈와 URL 수집 모듈은, 상기 검색 사이트아 SNS 사이트에서 제공하는 각 오픈 API를 이용하여 상기 실시간 검색어 정보와 URL 정보를 수집하는 것이 바람직하다.
또한, 상기 URL 수집 모듈은, 상기 게시물이 갖고 있는 게시물 URL을 크롤링하여 상기 URL 정보를 추출하는 것이 바람직하다.
또한, 상기 URL 수집 시스템은 상기 URL 정보가 단축 URL인 경우, 상기 단축 URL을 생성한 원본 사이트에 접속한 후, 상기 원본 사이트로부터 원본 URL 정보를 획득하는 원본 URL 수집 모듈;을 더 포함할 수 있다.
또한, 본 발명의 다른 일 실시예에 따르면, (a) URL 수집 시스템과 검색 사이트 간에 연동 프로세스를 실행하는 단계; (b) 상기 (a) 단계를 실행 후, 검색 사이트에서 제공하는 실시간 순위인 신규 검색어 리스트가 있는지의 여부를 판단하는 단계; (c) 상기 신규 검색어 리스트가 있다고 판단되면, 상기 신규 검색어 리스트를 상기 검색 사이트로부터 수신하는 단계; (d) URL 수집 시스템과 SNS 사이트 간에 연동 프로세스를 실행하는 단계; (e) 상기 (d) 단계를 실행 후, 상기 수신된 신규 검색어 리스트에 있는 임의의 실시간 검색어 정보가 상기 SNS 사이트 내의 게시물에 포함되었는지의 여부를 판단하는 단계; (f) 상기 실시간 검색어 정보가 게시물에 포함된다고 판단되면, 상기 게시물 내의 URL 정보를 추출하여 수집하는 단계; 및 (g) 상기 수집된 신규 검색어 리스트와 URL 정보를 등록하는 단계;를 포함하는 SNS 검색 서비스를 이용한 URL 수집 방법이 제공된다.
여기서, 상기 (c) 단계와 (d) 단계의 사이에는, (h) 상기 수신된 신규 검색어 리스트내의 임의의 검색어와 기저장된 검색어가 일치하는지의 여부를 판단하여, 일치될 경우 중복된 검색어를 제거하는 단계;를 더 포함할 수 있다.
또한, 상기 (f) 단계와 (g) 단계의 사이에는, (i) 상기 수집된 URL 정보와 기저장된 URL 정보가 일치하는지의 여부를 판단하여, 일치될 경우 중복된 URL 정보를 제거하는 단계;를 더 포함할 수 있다.
또한, 상기 (a) 단계와 (d) 단계는, 오픈 API를 이용하여 각각 상기 검색 사이트와 SNS 사이트에 접속하는 것이 바람직하다.
또한, 상기 (f) 단계는, 상기 게시물이 갖고 있는 게시물 URL을 크롤링하여 상기 URL 정보를 추출하는 것이 바람직하다.
또한, 상기 URL 수집 방법은 (j) 상기 URL 정보가 단축 URL인 경우, 상기 단축 URL을 생성한 원본 사이트에 접속한 후, 상기 원본 사이트로부터 원본 URL 정보를 획득하는 단계;를 더 포함할 수 있다.
이상에서와 같이 본 발명에 의하면, 실시간 검색어 정보에 기반한 SNS에서 교류되는 게시물(게시글, 메시지, 쪽지) 내부에 있는 악성 코드용 URL 정보를 효율적으로 수집함으로써, SNS에서의 악성 코드 검출에 활용할 수 있어 악성 코드의 감염에 따른 사용자의 피해를 현저하게 줄이는 효과가 있다.
또한, 본 발명에 의하면, SNS에서의 게시물체(게시글, 메시지, 쪽지)내부에 단축 URL 정보를 포함하고 있더라도, 각 정보를 크롤링과 복원을 통해 수집하여 악성 코드 검출에 활용함으로써, 악성 코드의 감염에 따른 사용자 피해를 더욱 더 줄이는 효과가 있다.
또한, 본 발명에 의하면, 실시간 검색어 정보와 관련한 히스토리 정보를 기록하여 둠으로써, 무수히 많은 URL 정보와 단축 URL 정보를 취득하더라도 중복 제거가 용이하고, 보안 관리가 가능한 효과가 있다.
또한, 본 발명에 의하면, 검색 사이트 및 SNS 사이트에서 제공하는 오픈 API를 이용하여 실시간 검색어와 게시물의 URL 정보를 취득할 수 있어, 기존의 프로그램 개발에 국한된 한계를 벗어나 악성 코드 용도로도 사용 가능한 효과가 있다.
도 1은 본 발명의 제1 실시예에 따른 SNS 검색 서비스를 이용한 URL 수집 시스템(100)을 예시적으로 나타낸 도면이다.
도 2 및 도 3은 본 발명의 제1 실시예에 따른 리스트 형식의 실시간 검색어 정보를 예시적으로 나타낸 도면이다.
도 4는 본 발명의 제2 실시예에 따른 SNS 검색 서비스를 이용한 URL 수집 방법(S100)을 예시적으로 나타낸 순서도이다.
도 5는 본 발명의 제2 실시예에 따른 URL 수집 방법(S100)에서 실시하는 실시간 검색어 수집 내지 URL 정보를 수집하기 까지의 과정을 도식화하여 나타낸 도면이다.
도 6은 본 발명의 제2 실시예에 따른 단축 URL 처리 과정을 도식화하여 나타낸 도면이다.
이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 하기 위하여, 본 발명의 바람직한 실시예들에 관하여 첨부된 도면을 참조하여 상세히 설명하기로 한다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
제1 실시예
도 1은 본 발명의 제1 실시예에 따른 SNS 검색 서비스를 이용한 URL 수집 시스템(100)을 예시적으로 나타낸 도면이다.
도 1을 참조하면, 본 발명의 제1 실시예에 따른 SNS 검색 서비스를 이용한 URL 수집 시스템(100)은 검색어 수집 모듈(110), URL 수집 모듈(120), 등록 관리 모듈(130), 통신 모듈(140) 및 제어 모듈(150)을 포함하여 구성된다.
먼저, 본 발명의 검색어 수집 모듈(110)은 검색 사이트에 접속한 후, 검색 사이트(210)에서 제공되는 실시간 검색어 정보를 주기적, 예컨대 1주일 단위로 수집하는 기능을 수행한다.
이때, 수집되는 실시간 검색어 정보는 예컨대 'naver'나 'daum'과 같은 검색 사이트(210, 포탈 검색 사이트)에서 제공되는 실시간 검색어 정보 순위에 따라 게재된 실시간 정보를 가리키는 것으로서, 최근에 사회적으로 이슈가 되고 있는 내용(예: 단어, 문구 형태로 취함)이 중심이 되어 담겨져있다.
daum 검색 사이트와 naver 검색 사이트에서 제공된 실시간 검색어 정보의 예는 도 2 및 도 3과 같이 리스트 형식으로 나타낼 수 있으며, 사회적 이슈가 되거나 사용자에게 높은 관심도(순위)를 나타낸 단어나 문구들을 포함하고 있다. 이러한 실시간 검색어 정보는 예컨대 카페, 블로그, 게시판, 사람, 시, 드라마, 방송, 영화 등과 같이 카테고리별로 분류될 경우 상기 카테고리별로 실시간 검색어 정보를 수집할 수도 있다.
여기서, 검색어 수집 모듈(110)은 검색 사이트(210)의 실시간 검색어 정보를 수집하기 위하여 [표 1]에서 예시한 바와 같은 오픈 API를 이용한다. 즉, 검색 사이트(210)에서 제공하는 오픈 API, 통상 개발자 용도로 오픈 API를 제공하고 있으나, 본 실시예에서는 이후에 설명될 SNS의 URL 정보를 취득하기 위한 용도로 사용할 수 있다.
Naver Daum
연동 프로토콜 HTTP(Get 방식)
요청 URL http://cpenapi.naver.com/search?key=[APIKey]&query=[query]&target=tank
http://openapi.naver.com/search?key=[APIKey]&query=[query]&tatget=ranktheme

http://211.115.113.26/monitor/realTimelssue?
수집 범위 웹 블로그, 신문, 영화, 사람, 방송 등 웹 사이트
전달 파라미터 query-실시간 검색어 출어
[카페, 블로그, 신문 등]
None
실시간 검색어 수집 API 예
이와 같이, 검색 사이트(210)에서 제공되는 오픈 API를 이용하게 되면, 검색 사이트(210)에서 게재한 실시간 검색어 정보의 위치까지 접근하여 실시간 검색어 정보를 검색어 수집 모듈(110)에서 손쉽게 취득할 수 있게 되는 것이다.
다음으로, URL 수집 모듈(120)은 검색어 수집 모듈(110)에 의하여 수집된 실시간 검색어 정보에 기초하여 SNS 사이트(310) 내에서 교류되는 게시물 내의 모든 URL 정보를 추출, 수집하는 기능을 수행한다.
여기서, 게시물이라 함은 SNS 사이트(310) 내에서 교류되는 내용으로서, 예컨대 게시글, 메시지 또는 쪽지와 같은 매개체를 의미한다. 게시글과 같은 게시물 내에는 자신의 정보의 출처를 나타내는 URL 정보가 향상 기록되어 있다. 또는 메시지와 같은 게시물 내에는 SNS 계정 관리자 또는 친구의 메시지로 위장한 스팸 메일의 출처를 나타내는 URL 정보가 마찬가지로 기록되어 있다.
이에 따라, 본 발명의 URL 수집 모듈(120)은 수집된 실시간 검색어 정보가 포함된 게시글, 메시지나 쪽지와 같은 게시물 내에 담겨진 URL 정보를 바로 추출하여 수집할 수 있다. 이러한 과정을 보다 구체적으로 설명하면, 앞서 설명한 오픈 API를 이용하여 실시간 검색어 정보에 접근하는 것과 마찬가지로, URL 수집 모듈(120) 또한 SNS 사이트(310)에서 제공하는 오픈 API를 이용하여 게시물을 확인한다. SNS 사이트(310)에서 제공하는 게시글 확인 오픈 API 예는 [표 2]와 같이 나타낼 수 있다.
트위터 미투데이 페이스북 사이월드
연동 프로토콜 HTTP(Get 방식) HTTP(Get 방식) HTTP(Get 방식) HTTP(Get 방식)
요청 URL http://searchtwitter.com/searchatom?q=KEYWORD http://mw2day.net/searchxml?query=[KEYWORD]&search_at=all http://www.facebook.com/searchphp?q=KEYWORD?type=eposts http://blogcyworld.com/section/search/?q=KEYWORD&category=bbs
전달 파라미터 q-keyword
(영문 또는 URL 인코딩)
query-keyword
(영문 또는 URL 인코딩)
w-search type[social]
m-web
q-site:해당 검색 대상 사이트 KEYWORD(영문 또는 URL 인코딩)
q-keyword(영문 또는 URL 인코딩)
type-검색 타입[게시글]
search_type-검색 대상 페이지 bbs[게시글]
q-keyword(영문 또는 URL 인코딩)
category-bbs[게시글]
q-keyword(영문 또는 URL 인코딩)
참고 페이지 http://dev.naver.com/openapi/apis/me2day/ http://www.google.co.kr/cse http://www.bing.com http://www.쵸재깅com
이러한 오픈 API를 이용하여 게시물(예:게시글, 메시지, 쪽지등)를 확인하게 되면, 게시물 URL을 알 수 있다. 게시물 URL을 확인한 본 발명의 URL 수집 모듈(120)은 비로서 게시물 URL을 통해 게시물 내에서 담고 있는 URL 정보를 추출하게 되는 것이다.
이와 같이 추출된 URL 정보는 URL 리스트 형태를 가질 수 있다. 결국, 크롤링 과정을 통하여 URL 리스트 형태로 URL 정보를 만들 수 있게 된다.
다음으로, 본 발명의 등록 관리 모듈(130)은 검색어 수집 모듈(110)에 의하여 수집된 실시간 검색어 정보와 URL 수집 모듈(120)에 의하여 수집된 URL 정보를 제공받아 기설정된 시간안에 중복되는지의 여부를 각각 판단한다. 각 판단 결과, 중복되지 않을 경우에는 실시간 검색어 정보와 URL 정보를 등록하며, 중복된 경우에는 새로이 수집된 실시간 검색어 정보 또는 URL 정보를 삭제한다.
이와 같이 수집된 SNS의 게시글, 메시지와 쪽지와 같은 게시물내에서 담겨진 URL 정보는 SNS에서의 악성 코드를 찾는데 활용된다. 여기서, 악성 코드의 활용과 검출 방법은 동일 출원인에 의해 0000년 00월 00일자로 출원된 한국특허출원번호 10-2010-000000호에 개시되어 있다. 이와 관련한 설명은 생략하며, 본 발명의 목적을 위하여 상기 출원을 본 발명의 일부로서 적용할 수 있다.
다음으로, 본 발명의 통신 모듈(140)은 URL 수집 시스템(100)과 검색 사이트(210)을 제공하는 관리 서버(200) 간 및/또는 URL 수집 시스템(100)과 SNS 사이트(310)를 제공하는 관리 서버(300) 간의 통신 인터페이스를 지원하여, URL 수집 시스템(100)과 검색 사이트(210)와 SNS 사이트(310)를 제공하는 관리 서버(200, 300)간의 데이터를 각각 송수신할 수 있게 된다.
이를 통해 알 수 있듯이, 검색 사이트(210) 및/또는 SNS 사이트(310)로부터 수집되는 실시간 검색어 정보와 URL 정보는 각 사이트를 관리하는 관리 서버(200, 300)부터 실질적으로 수집함을 의미한다.
마지막으로, 본 발명의 제어 모듈(150)은 검색어 수집 모듈(110), URL 수집 모듈(120), 등록 관리 모듈(130) 및 통신 모듈(140)간의 데이터 흐름을 제어하며, 이로써 검색어 수집 모듈(110), URL 수집 모듈(120), 등록 관리 모듈(130) 및 통신 모듈(140)에서 각 고유의 데이터 처리를 수행할 수 있게 되는 것이다.
이와 같이, 본 발명의 제1 실시예에 따른 SNS 검색 서비스를 이용한 URL 수집 시스템(100)은 실시간 검색어 정보에 기반하여 SNS에서 교류되는 게시물(게시글, 메시지, 쪽지를 포함)내의 URL 정보를 수집함으로써, SNS에서 발생되는 악성 코드를 미연해 검출하고 차단할 수 있어, 악성 코드 감염에 따른 사용자의 피해를 줄일 수 있다.
한편, 본 발명의 제1 실시예에 따른 SNS 검색 서비스를 이용한 URL 수집 시스템(100)은 히스토리 정보 수집 모듈(160) 및 원본 URL 수집 모듈(170)을 더 포함할 수 있다.
히스토리 정보 수집 모듈(160)은 실시간 검색어 정보 및/또는 URL 정보와 관련한 히스토리 정보, 예컨대 최초 수집 시간, 검색어 수집 경로, 중복 수집 횟수 및 중복 수집 시간의 내역 정보와 같은 히스토리 정보를 수집하는 역할을 한다. 이를 위하여, 검색어 수집 모듈(110), URL 수집 모듈(120) 및 등록 관리 모듈(130) 등과 연계하여 알고리즘화 된다.
예를 들어, 검색어 수집 모듈(110)과 연계될 경우, 검색어 수집 모듈(110)에서 해당하는 실시간 검색어 정보를 수집할때마다 이벤트가 발생하여 해당하는 실시간 검색어 정보에 대한 최초 수집 시간와 수집 경로 등을 파악할 수 있다.
반면, 본 발명의 원본 URL 수집 모듈(170)은 게시물내에 존재하는 URL 정보가 단축 URL인 경우, 상기 단축 URL을 생성한 원본 사이트에 접속한 후, 상기 원본 사이트로부터 원본 URL을 획득한다.
획득한 원본 URL은 앞서 설명한 바와 같이 크롤링 과정을 통하여 원본 URL 정보로 만들어지는데 활용된다. 이와 같이, 게시물내의 URL 정보가 단축인 경우에도 효율적으로 원본 URL 정보를 수집할 수 있게 되는 것이다. 상기 원본 URL 정보는 앞서 설명한 URL 정보와 일맥상통한다.
제2 실시예
도 4는 본 발명의 제2 실시예에 따른 SNS 검색 서비스를 이용한 URL 수집 방법(S100)을 예시적으로 나타낸 순서도이며, 도 5는 본 발명의 제2 실시예에 따른 URL 수집 방법(S100)에서 실시하는 실시간 검색어 수집 내지 URL 정보를 수집하기 까지의 과정을 도식화하여 나타낸 도면이다.
도시된 바와 같이, 본 발명의 제2 실시예에 따른 SNS 검색 서비스를 이용한 URL 수집 방법(S100)은 SNS 사이트(310)에서 발생되는 악성 코드에 감연된 게시글, 메시지, 쪽지 등의 게시물내에 숨어있는 URL을 수집하기 위하여 S110 내지 S170 단계로 이루어진다.
먼저, S110 단계에서는 URL 수집 시스템(100)과 검색 사이트(210) 간에 연동 프로세스를 실행한다. 연동 프로세스가 실행되면, S120 단계에서는 검색 사이트(210)에서 제공하는 실시간 순위인 신규 검색어 리스트가 있는지의 여부를 판단한다.
신규 검색어 리스트가 있으면, 이하의 S130 단계를 수행하고, 그렇지 않을 경우에는 S120 단계로 되돌아가 다시 시도한다. 여기서 말한 신규 검색 리스트는 도 1 내지 도 3에서 설명된 실시간 검색어 정보를 의미한다.
이후, S130 단계에서는 S120 단계의 판단 결과 신규 검색어 리스트가 있다고 판단되면, 상기 신규 검색어 리스트를 검색 사이트(210)로부터 수신하는 과정을 실시한다. 다시 말해, 도 5와 같이 사회 이슈가 되는 실시간 검색어 정보를 수집하는 것과 마찬가지이다. 여기서, 신규 검색어 리스트를 확인하기 위해서는 검색 사이트(210)에서 제공하는 오픈 API을 이용하여 접속을 통해서 얻어진 결과이다.
이후, S140 단계에서는 URL 수집 시스템(100)과 SNS 사이트(310) 간에 연동 프로세스를 실행한다. 연동 프로세스가 실행되면, 이후 S150 단계에서는 수신된 신규 검색어 리스트에 있는 임의의 실시간 검색어 정보가 SNS 사이트(310) 내의 게시물에 포함되었는지의 여부를 판단한다.
임의의 실시간 검색어 정보가 게시물에 포함되면, 이하의 S160 단계를 수행하고, 그렇지 않을 경우에는 S150 단계로 되돌아가 다시 시도한다. 여기서 말한 게시물은 SNS 사이트(310)에서 교류되는 게시글, 메시지나 쪽지와 같은 매개체를 의미한다.
이후, S160 단계에서는 실시간 검색어 정보가 게시물에 포함되어 있다고 판단되면, 게시물내의 URL 정보를 추출하여 수집한다. 이때, 게시물내의 URL 정보를 추출하기 위해서는 SNS 사이트(310)에서 제공하는 오픈 API를 이용하여 도 5와 같이 게시물 URL 정보를 먼저 수집하고, 수집된 게시물 URL 정보를 크롤링함으로써, 게시물내의 URL 정보를 추출 후, 수집할 수 있다.
여기서, 수집된 게시물내의 URL 정보는 게시물 URL 정보를 크롤링한 결과, 예컨대 도 5에서와 같이 SNS 게시글 내부에 존재하는 URL들을 크롤링하여 얻어진 결과이다.
이러한 크롤링에 의한 URL 정보의 추출은 도 6에 보다 구체적으로 도시화 하였다. 이는 추후에 살펴보기로 한다. 마지막으로, S170 단계에서는 S130 단계에 의해 수집된 신규 검색어 리스트와 S160 단계에 의해 수집된 URL 정보를 등록하는 과정을 실시한다.
한편, 본 발명의 SNS 검색 서비스를 이용한 URL 수집 방법(S100)은 S130 단계와 S140 단계의 사이에서 S130 단계에 의해 수신된 신규 검색어 리스트 내의 임의의 검색어와 기저장된 검색어가 일치하는지의 여부를 판단하여, 일치될 경우 중복된 검색어를 제거하는 과정을 더 실시할 수 있다. 이러한 중복된 검색어의 제거로 최적 상태의 실시간 검색어 정보를 가지고 SNS 사이트(310)에서 URL 정보를 찾는데 더 유용할 것이다.
이와 마찬가지로, 본 발명의 SNS 검색 서비스를 이용한 URL 수집 방법(S100)은 S160 단계와 S170 단계의 사이에서 S160 단계에 의해 수집된 URL 정보와 기저장된 URL 정보가 일치하는지의 여부를 판단하여, 일치될 경우 중복된 URL 정보를 제거하는 과정을 더 실시할 수도 있다.
이러한 중복된 URL 정보 제거로 인하여, 도 5에서와 같이 최적 상태의 URL 정보를 가지고, 악성 의심 SNS URL을 점검하는데 활용할 수 있으며, 더 나아가 SNS 내에서 발생하는 각종 악성 코드를 수집하는데 활용될 수 있다.
또한, 본 발명의 SNS 검색 서비스를 이용한 URL 수집 방법(S100)은 S160 단계에 의해 수집된 URL 정보가 단축 URL인 것으로 확인되면, 상기 단축 URL을 생성한 원본 사이트에 접속한 후, 원본 사이트로부터 원본 URL 정보를 더 획득하는 과정을 수행할 수 있다. 이러한 과정은 이후의 도 6을 참조하여 보다 상세히 설명한다.
단축 URL 처리 예
도 6은 본 발명의 제2 실시예에 따른 단축 URL 처리 과정을 도식화하여 나타낸 도면이다. 도 6을 참조하면, 본 발명의 제2 실시예에 따른 단축 URL 처리 과정은 게시물 예컨대, 게시글내에 포함된 URL 정보 중 'Crawler'의 URL 정보가 단축 URL인 것으로 판정되면 상기 단축 URL 정보를 통해 단축 URL 사이트로부터 원본 URL 정보를 획득한다.
이어서, 가지고, 실제 웹 사이트를 방문하여 정상적인 URL이라고 판정되면 크롤링 결과를 획득할 수 있으나, 게시물 예컨대, 게시글내에 포함된 URL 정보 중 'Crawler'의 URL 정보가 단축 URL 정보인 것으로 판정될 경우 상기 단축 URL 정보를 가지고 단축 URL 사이트를 방문한 후, 다른 정보로 판정되면, 단축 URL 사이트로부터 원본 URL 정보를 획득한다.
이어서, 원본 URL 정보를 가지고, 실제 웹 사이트를 방문하여 정상적인 원본 URL 정보를 획득할 수 있으며, 크롤링시켜 XML 문서 형태로 만들게 된다. 이와 같이, 게시물 내에 단축 URL 정보가 포함되더라도 원본 URL 정보를 획득함으로써, 악성 코드 수집, 검사 등에 활용할 수 있게 되는 것이다.
이상에서와 같이, 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고 다른 구체적인 형태로 실시할 수 있다는 것을 이해할 수 있을 것이다. 따라서 이상에서 기술한 실시예는 모든 면에서 예시적인 것이며 한정적이 아닌 것이다.
100 : URL 수집 시스템 110 : 검색어 수집 모듈
120 : URL 수집 모듈 130 : 등록 관리 모듈
140 : 통신 모듈 150 : 제어 모듈
160 : 히스토리 정보 수집 모듈 170 : 원본 URL 수집 모듈
200 : 검색 사이트 관리 서버 210 : 검색 사이트
300 : SNS 사이트 관리 서버 310 : SNS 사이트

Claims (11)

  1. 검색 사이트를 통해 제공되는 순위가 매겨진 실시간 검색어 정보를 주기적으로 수집하는 검색어 수집 모듈;
    상기 실시간 검색어 정보에 기초하여 SNS 사이트에서 교류되는 게시물내의 URL 정보를 추출하고, 수집하는 URL 수집 모듈; 및
    상기 수집된 실시간 검색어 정보와 URL 정보를 기설정된 시간안에 중복 여부를 각각 확인하고, 중복되지 않을 경우 상기 실시간 검색어 정보와 URL 정보를 등록하는 등록 관리 모듈;
    을 포함하는 것을 특징으로 하는 SNS 검색 서비스를 이용한 URL 수집 시스템.
  2. 제 1항에 있어서,
    상기 실시간 검색어 정보 및 URL 정보와 관련한 히스토리 정보-상기 히스토리 정보는 상기 실시간 검색어 정보의 최초 수집 시간, 검색어 수집 경로, 중복 수집 횟수, 중복 수집 시간의 내역 정보를 포함함-를 더 수집하는 히스토리 정보 수집 모듈;
    을 더 포함하는 것을 특징으로 하는 SNS 검색 서비스를 이용한 URL 수집 시스템.
  3. 제 1항에 있어서,
    상기 검색어 수집 모듈와 URL 수집 모듈은,
    상기 검색 사이트와 SNS 사이트에서 제공하는 각 오픈 API를 이용하여 상기 실시간 검색어 정보와 URL 정보를 수집하는 것을 특징으로 하는 SNS 검색 서비스를 이용한 URL 수집 시스템.
  4. 제 3항에 있어서,
    상기 URL 수집 모듈은,
    상기 게시물이 갖고 있는 게시물 URL을 크롤링하여 상기 URL 정보를 추출하는 것을 특징으로 하는 SNS 검색 서비스를 이용한 URL 수집 시스템.
  5. 제 1항에 있어서,
    상기 URL 정보가 단축 URL인 경우, 상기 단축 URL을 생성한 원본 사이트에 접속한 후, 상기 원본 사이트로부터 원본 URL 정보를 획득하는 원본 URL 수집 모듈;
    을 더 포함하는 것을 특징으로 하는 SNS 검색 서비스를 이용한 URL 수집 시스템.
  6. (a) URL 수집 시스템과 검색 사이트 간에 연동 프로세스를 실행하는 단계;
    (b) 상기 (a) 단계를 실행 후, 검색 사이트에서 제공하는 실시간 순위인 신규 검색어 리스트가 있는지의 여부를 판단하는 단계;
    (c) 상기 신규 검색어 리스트가 있다고 판단되면, 검색어 수집 모듈이 상기 신규 검색어 리스트를 상기 검색 사이트로부터 수신하는 단계;
    (d) URL 수집 시스템과 SNS 사이트 간에 연동 프로세스를 실행하는 단계;
    (e) 상기 (d) 단계를 실행 후, 상기 수신된 신규 검색어 리스트에 있는 임의의 실시간 검색어 정보가 상기 SNS 사이트 내의 게시물에 포함되었는지의 여부를 판단하는 단계;
    (f) 상기 실시간 검색어 정보가 게시물에 포함된다고 판단되면, 상기 게시물내의 URL 정보를 추출하여 수집하는 단계; 및
    (g) 상기 수집된 신규 검색어 리스트와 URL 정보를 등록하는 단계;
    를 포함하는 것을 특징으로 하는 SNS 검색 서비스를 이용한 URL 수집 방법.
  7. 제 6항에 있어서,
    상기 (c) 단계와 (d) 단계의 사이에는,
    (h) 상기 수신된 신규 검색어 리스트내의 임의의 검색어와 등록 관리 모듈에 기저장된 검색어가 일치하는지의 여부를 판단하여, 일치될 경우 중복된 검색어를 상기 수신된 신규 검색어 리스트내에서 제거하는 단계;
    를 더 포함하는 것을 특징으로 하는 SNS 검색 서비스를 이용한 URL 수집 방법.
  8. 제 6항에 있어서,
    상기 (f) 단계와 (g) 단계의 사이에는,
    (i) 상기 수집된 URL 정보와 등록 관리 모듈에 기저장된 URL 정보가 일치하는지의 여부를 판단하여, 일치될 경우 중복되는 상기 수집된 URL 정보를 제거하는 단계;
    를 더 포함하는 것을 특징으로 하는 SNS 검색 서비스를 이용한 URL 수집 방법.
  9. 제 6항에 있어서,
    상기 (a) 단계와 (d) 단계는,
    오픈 API를 이용하여 각각 상기 검색 사이트와 SNS 사이트에 접속하는 것을 특징으로 하는 SNS 검색 서비스를 이용한 URL 수집 방법.
  10. 제 6항에 있어서,
    상기 (f) 단계는,
    상기 게시물에 대한 게시물 URL을 크롤링하여 상기 URL 정보를 추출하는 것을 특징으로 하는 SNS 검색 서비스를 이용한 URL 수집 방법.
  11. 제 6항에 있어서,
    (j) 상기 URL 정보가 단축 URL인 경우, 상기 단축 URL을 생성한 원본 사이트에 접속한 후, 상기 원본 사이트로부터 원본 URL 정보를 획득하는 단계;
    더 포함하는 것을 특징으로 하는 SNS 검색 서비스를 이용한 URL 수집 방법.
KR1020110132122A 2011-12-09 2011-12-09 에스엔에스 검색 서비스를 이용한 유알엘 수집 시스템 및 방법 KR101329034B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110132122A KR101329034B1 (ko) 2011-12-09 2011-12-09 에스엔에스 검색 서비스를 이용한 유알엘 수집 시스템 및 방법
US13/676,599 US20130179421A1 (en) 2011-12-09 2012-11-14 System and Method for Collecting URL Information Using Retrieval Service of Social Network Service

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110132122A KR101329034B1 (ko) 2011-12-09 2011-12-09 에스엔에스 검색 서비스를 이용한 유알엘 수집 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20130065312A KR20130065312A (ko) 2013-06-19
KR101329034B1 true KR101329034B1 (ko) 2013-11-14

Family

ID=48744667

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110132122A KR101329034B1 (ko) 2011-12-09 2011-12-09 에스엔에스 검색 서비스를 이용한 유알엘 수집 시스템 및 방법

Country Status (2)

Country Link
US (1) US20130179421A1 (ko)
KR (1) KR101329034B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9083729B1 (en) * 2013-01-15 2015-07-14 Symantec Corporation Systems and methods for determining that uniform resource locators are malicious
US20160205124A1 (en) * 2015-01-14 2016-07-14 Korea Internet & Security Agency System and method for detecting mobile cyber incident
KR101699009B1 (ko) * 2016-01-07 2017-01-24 한국인터넷진흥원 모바일 악성앱 유포지 추적을 위한 블랙마켓 수집방법
KR101794187B1 (ko) * 2016-01-19 2017-11-06 한국인터넷진흥원 침해 사고 정보를 관리하기 위한 방법과 침해 사고 관리 시스템, 및 컴퓨터 판독 가능한 매체
US10505981B2 (en) * 2016-11-03 2019-12-10 RiskIQ, Inc. Techniques for detecting malicious behavior using an accomplice model
US20230379359A1 (en) * 2020-10-14 2023-11-23 Nippon Telegraph And Telephone Corporation Detection device, detection method, and detection program
JP7459963B2 (ja) * 2020-10-14 2024-04-02 日本電信電話株式会社 抽出装置、抽出方法および抽出プログラム
US20230385344A1 (en) * 2020-10-14 2023-11-30 Nippon Telegraph And Telephone Corporation Collection device, collection method, and collection program

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090049507A (ko) * 2007-11-13 2009-05-18 주식회사 비즈모델라인 통신망을 통한 여론 분석 방법 및 시스템과 이를 위한기록매체

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7664264B2 (en) * 1999-03-24 2010-02-16 Blue Spike, Inc. Utilizing data reduction in steganographic and cryptographic systems
US9514435B2 (en) * 2009-08-17 2016-12-06 Accenture Global Services Limited System for targeting specific users to discussion threads
US8606792B1 (en) * 2010-02-08 2013-12-10 Google Inc. Scoring authors of posts
US8751511B2 (en) * 2010-03-30 2014-06-10 Yahoo! Inc. Ranking of search results based on microblog data
US8230062B2 (en) * 2010-06-21 2012-07-24 Salesforce.Com, Inc. Referred internet traffic analysis system and method
US8590014B1 (en) * 2010-09-13 2013-11-19 Zynga Inc. Network application security utilizing network-provided identities
US10452727B2 (en) * 2011-09-26 2019-10-22 Oath Inc. Method and system for dynamically providing contextually relevant news based on an article displayed on a web page

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090049507A (ko) * 2007-11-13 2009-05-18 주식회사 비즈모델라인 통신망을 통한 여론 분석 방법 및 시스템과 이를 위한기록매체

Also Published As

Publication number Publication date
KR20130065312A (ko) 2013-06-19
US20130179421A1 (en) 2013-07-11

Similar Documents

Publication Publication Date Title
KR101329034B1 (ko) 에스엔에스 검색 서비스를 이용한 유알엘 수집 시스템 및 방법
Brookman et al. Cross-device tracking: Measurement and disclosures
KR101574652B1 (ko) 모바일 침해사고 분석시스템 및 방법
CN103490884B (zh) 用于数字证书的验证的方法
JP6526172B2 (ja) データ情報取引方法およびシステム
Chaabane et al. Big friend is watching you: Analyzing online social networks tracking capabilities
US20120071131A1 (en) Method and system for profiling data communication activity of users of mobile devices
CN107341160A (zh) 一种拦截爬虫的方法及装置
CN106302512B (zh) 一种用于控制访问的方法、设备与系统
US20190149540A1 (en) Service provision system, service provision method, verification device, verification method, and computer program
CN104519018A (zh) 一种防止针对服务器的恶意请求的方法、装置和系统
CN104125209A (zh) 恶意网址提示方法和路由器
CN109729044B (zh) 一种通用的互联网数据采集反反爬系统及方法
Bujlow et al. Web tracking: Mechanisms, implications, and defenses
CN102638448A (zh) 一种基于非内容分析的判断钓鱼网站的方法
KR101329040B1 (ko) 에스엔에스 트랩 수집 시스템 및 그에 의한 유알엘 수집 방법
CN106789939A (zh) 一种钓鱼网站检测方法和装置
CN104753730A (zh) 一种漏洞检测的方法及装置
US10462257B2 (en) Method and apparatus for obtaining user account
CN109194671A (zh) 一种异常访问行为的识别方法及服务器
CN103617267A (zh) 社交化扩展搜索方法及装置、系统
WO2019123665A1 (ja) 照合サーバ、照合方法及びコンピュータプログラム
CN109660552A (zh) 一种将地址跳变和WAF技术相结合的Web防御方法
CN103095825B (zh) 一种互联网的信息管理方法和系统、服务器
CN104717079A (zh) 网络流量的数据处理方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee