KR101530941B1 - 피싱 웹사이트들을 검출하기 위한 방법, 시스템 및 클라이언트 단말기 - Google Patents

피싱 웹사이트들을 검출하기 위한 방법, 시스템 및 클라이언트 단말기 Download PDF

Info

Publication number
KR101530941B1
KR101530941B1 KR1020157000809A KR20157000809A KR101530941B1 KR 101530941 B1 KR101530941 B1 KR 101530941B1 KR 1020157000809 A KR1020157000809 A KR 1020157000809A KR 20157000809 A KR20157000809 A KR 20157000809A KR 101530941 B1 KR101530941 B1 KR 101530941B1
Authority
KR
South Korea
Prior art keywords
url
features
website
blog post
micro blog
Prior art date
Application number
KR1020157000809A
Other languages
English (en)
Other versions
KR20150011849A (ko
Inventor
원후이 동
푸동 샤오
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20150011849A publication Critical patent/KR20150011849A/ko
Application granted granted Critical
Publication of KR101530941B1 publication Critical patent/KR101530941B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • H04L63/1483Countermeasures against malicious traffic service impersonation, e.g. phishing, pharming or web spoofing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1441Countermeasures against malicious traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/02Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명의 한 실시태양은 피싱 웹사이트의 검출 방법에 관한 것이다. 상기 피싱 웹사이트의 검출 방법은 웹사이트의 URL(uniform resource locator)을 포함하는 마이크로블로그 게시물에 관련된 정보를 획득하는 단계; 상기 마이크로블로그 게시물에 관련된 정보를 분석하여 상기 마이크로블로그 게시물의 특징들을 추출하는 단계; 상기 마이크로블로그 게시물의 추출된 특징들에 따라 상기 마이크로블로그 게시물 내에 포함된 웹사이트의 URL의 신뢰도를 계산하는 단계; 및 상기 웹사이트의 URL의 신뢰도에 따라 상기 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부를 결정하는 단계;를 포함한다.

Description

피싱 웹사이트들을 검출하기 위한 방법, 시스템 및 클라이언트 단말기{Method, system and client terminal for detection of phishing websites}
관련 출원에 대한 전후 참조
본원은 중국 국가지식산권국(中國 國家知識産權局)에 2012년 7월 17일자 출원된 중국 특허출원 제201210247230.9호를 기초로 우선권을 주장한 것이며, 상기 중국 특허출원의 전체 내용은 본원 명세서에 참조병합된다.
기술분야
본 발명은 일반적으로 기술하면 인터넷 분야에 관한 것이며, 좀더 구체적으로 기술하면 피싱 웹사이트를 검출하기 위한 방법, 시스템 및 클라이언트 단말기에 관한 것이다.
인터넷의 보급으로, 점점 더 많은 사용자가 인터넷을 사용해 서로 통신하여 상거래를 수행한다. 이에 따라, 전자 상거래 및 전자 금융과 같은 인터넷 서비스들이 개발되고 있다. 웹사이트의 접속시, 사용자는 계정 및 패스워드와 같은 정보를 입력해야 한다. 상기 계정 및 패스워드와 같은 정보의 입력이 정확한 경우에만, 사용자는 상기 웹사이트에 로그인하여 온라인 작업들을 수행할 수 있다. 사용자의 계정 및 패스워드는 사용자가 그러한 웹사이트들에 로그인하여 작업들을 수행하기 위한 고유 식별자이다. 일단 누군가가 사용자의 계정 및 패스워드를 도용하고 사용자를 사칭하여 웹사이트에 로그인할 경우에는, 사용자의 관심이 영향을 받을 수 있다. 현재, 어떤 악의적인 당사자는 피싱 웹사이트를 사용하여 합법적인 웹사이트와 유사한 웹사이트를 사용자에게 디스플레이하고, 사용자를 유혹하여 계정 및 패스워드를 입력하게 하며, 사용자의 계정 및 패스워드를 도용한다. 피싱 웹사이트는 사용자들의 계정들 및 패스워드들과 같은 개인 정보(private data)를 도용할 목적으로 합법적인 웹사이트의 URL(uniform resource locator) 및 웹페이지 내용을 모사(模寫)하도록 악의적인 당사자에 의해 여러 수단을 통해 구성된 위조 웹사이트를 언급한다.
그 외에도, 중국 인터넷 네트워크 정보센터가 발표한 "중국의 인터넷 개발에 대한 29번째의 통계 조사 보고서"에 나타나 있는 바와 같이, 2011년 12월 말까지 마이크로블로그 사용자들의 수가 2억 5천만 명에 이르렀고, 여러 웹사이트에 등록한 마이크로블로그 계정들의 수가 약 8억만 개이며, 매일 게시되는 마이크로블로그 메시지의 수가 2억만 개에 이르렀다. 마이크로블로그는 일상 생활에서 중요한 네트워크 서비스들 중 하나가 되어 왔고, 점차 사회 생활 내로 파고들어 사람들이 정보(예를 들면 웹사이트의 URL)를 획득하기 위한 중요한 방법이 되어 왔다. 그러나, 마이크로블로그 게시물 내에 포함된 웹사이트의 URL은 피싱 웹사이트의 URL일 수 있으며 선행기술에서는 마이크로블로그 게시물 내에 포함된 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부가 결정될 수 없는데, 이는 사용자들에게 불편을 주게 된다.
그러므로, 지금까지 당해 기술에서 해결하지 못한 위에서 언급한 결함들 및 결점들을 해결할 필요성이 있다.
본 발명의 목적들 중 한 가지 목적은 마이크로블로그 게시물 내에 포함된 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부가 결정될 수 없는 선행기술의 문제점을 해결하기 위해 피싱 웹사이트를 검출하기 위한 방법, 시스템 및 클라이언트 단말기를 제공하는 것이다.
한 실시태양에 있어서, 본 발명은 피싱 웹사이트를 검출하는 방법에 관한 것이다. 한 실시예에서는, 상기 방법이 웹사이트의 URL(uniform resource locator)을 포함하는 마이크로블로그 게시물에 관련된 정보를 획득하는 단계; 상기 마이크로블로그 게시물에 관련된 정보를 분석하여 상기 마이크로블로그 게시물의 특징들을 추출하는 단계; 상기 마이크로블로그 게시물의 추출된 특징들에 따라 상기 마이크로블로그 게시물 내에 포함된 웹사이트의 URL의 신뢰도를 계산하는 단계; 및 상기 웹사이트의 URL의 신뢰도에 따라 상기 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부를 결정하는 단계;를 포함한다.
다른 한 실시태양에 있어서, 본 발명은 피싱 웹사이트를 검출하는 시스템을 제공한다. 한 실시예에서는, 상기 시스템이 웹사이트의 URL(uniform resource locator)을 포함하는 마이크로블로그 게시물에 관련된 정보를 획득하도록 구성된 획득 모듈; 상기 마이크로블로그 게시물에 관련된 정보를 분석하여 상기 마이크로블로그 게시물의 특징들을 추출하도록 구성된 분석 모듈; 상기 마이크로블로그 게시물의 추출된 특징들에 따라 상기 마이크로블로그 게시물 내에 포함된 웹사이트의 URL의 신뢰도를 계산하도록 구성된 계산 모듈; 및 상기 웹사이트의 URL의 신뢰도에 따라 상기 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부를 결정하도록 구성된 결정 모듈;을 포함한다.
또 다른 한 실시태양에 있어서, 본 발명은 피싱 웹사이트를 검출하기 위한 위에서 언급한 시스템을 포함하는 클라이언트 단말기를 제공한다.
또 다른 한 실시태양에 있어서, 본 발명은 하나 이상의 프로세서들에 의해 실행될 때 상기 시스템이 위에서 언급한 피싱 웹사이트의 검출 방법을 수행하게 하는 명령어들이 저장된 비-일시적인 컴퓨터-판독가능 매체에 관한 것이다.
본 발명에서는, 웹사이트의 URL을 포함하는 마이크로블로그 게시물에 관련된 정보가 획득되고, 상기 마이크로블로그 게시물의 특징들이 상기 마이크로블로그 게시물에 관련된 정보로부터 추출되며, 상기 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부를 결정하도록 상기 마이크로블로그 게시물 내에 포함된 웹사이트의 URL의 신뢰도가 상기 마이크로블로그 게시물의 추출된 특징들에 따라 계산된다. 그러므로, 본 발명은 마이크로블로그 게시물 내에 포함된 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부가 결정될 수 없어서, 사용자들에게 불편을 제공하는 선행기술의 문제점을 해결한다.
본 발명의 이들 및 다른 실시태양들은 첨부도면들과 함께 취해진 이하 바람직한 실시예의 설명으로부터 자명해지겠지만, 본 개시내용의 정신 및 범위로부터 벗어나지 않고서도 본 발명의 변경들 및 수정들이 취해질 수 있다.
첨부도면들은 본 발명의 하나 이상의 실시예들을 예시하고 있으며 본 발명의 원리들을 설명하는데 도움을 준다. 가능하면 어디서든지, 첨부도면들 전반에 걸쳐 동일한 참조번호들이 한 실시예의 동일하거나 같은 요소들을 언급하는데 사용된다. 첨부도면들은 본 발명을 본원 명세서에 개시되고 기재된 특정 실시예들로 한정하는 것이 아니다. 첨부도면들은 반드시 기준화할 필요가 없고 그 대신에 본 발명의 원리들을 명확하게 예시하고자 할 때 강조 표시로 나타낼 수 있다.
도 1은 본 발명의 한 실시예에 따른 피싱 웹사이트의 검출 방법의 흐름도이다.
도 2는 본 발명의 한 실시예에 따른 피싱 웹사이트의 검출 시스템의 기능적 블록도이다.
도 3은 본 발명의 한 실시예에 따른 피싱 웹사이트의 검출 방법의 흐름도이다.
도 4는 본 발명의 한 실시예에 따른 피싱 웹사이트의 검출 시스템의 기능적 블록도이다.
이하의 설명은 본질적으로 단지 대표적인 것일 뿐이며 결코 본 개시내용, 그의 응용, 또는 용도들을 한정하려고 의도한 것이 아니다. 본 개시내용의 폭넓은 교시들이 다양한 형태로 구현될 수 있다. 그러므로, 본 개시내용에는 특정 예들이 포함되어 있지만, 본 개시내용의 진정한 범위가 그러한 방식으로 국한되어서는 아니 되는데, 그 이유는 다른 수정들이 첨부도면들, 명세서, 및 청구범위를 검토하면 자명해지기 때문이다. 명료성을 목적으로, 유사한 요소들을 동일시하기 위해 첨부도면들에서는 동일한 참조번호들이 사용된다.
본원 명세서에서 사용된 용어들은 본 개시내용의 문맥 내에서, 그리고 각각의 용어가 사용된 특정 문맥에서 당해 기술에서의 통상의 의미를 지니는 것이 일반적이다. 본 개시내용을 설명하는 데 사용되는 특정 용어들은 본 개시내용의 설명에 관한 추가적인 실무자 지침을 제공하도록 이하에서나 또는 본원 명세서 중 다른 부분에서 논의되어 있다. 본원 명세서에서 논의된 용어들의 예들을 포함하여, 본원 명세서 중 어느 부분에서의 예들의 사용은 단지 대표적인 것일 뿐이며, 결코 본 개시내용 또는 어느 대표적인 용어의 범위 및 의미를 한정하는 것이 아니다. 마찬가지로, 본 개시내용은 본원 명세서에서 제공된 여러 실시예에 국한되지 않는다.
본원 명세서의 설명에서 그리고 이하의 청구항들 전반에 걸쳐 사용되는 "한"과 같은 지시어, "하나의"와 같은 지시어, 및 "그"와 같은 지시어의 의미는 문맥에서 달리 명확하게 나타내지 않는 한 복수의 지시어의 의미를 포함한다. 또한, 본원 명세서의 설명에서 그리고 이하의 청구항들 전반에 걸쳐 사용되는 "내에서"의 의미는 문맥에서 달리 명확하게 나타내지 않는 한 "내에서" 그리고 "상에서"의 의미를 포함한다.
본원 명세서에서 사용되는, "구성하는", "포함하는", "지니는", "함유하는", "내포하는" 등과 같은 용어들은 확장가능한 것으로, 다시 말하면 어떤 것을 포함하지만 그에 국한하지 않음을 의미하는 것으로 이해되어야 한다.
본원 명세서에서 사용되는 "A, B, 및 C 중 적어도 하나"라는 문구는 비-배타적 논리 OR를 사용하여 논리 (A or B or C)를 의미하는 것으로 해석되어야 한다. 여기서 이해하여야 할 점은 한 방법에 내재하는 하나 이상의 단계들이 본 개시내용의 원리들을 변경하지 않고서도 다른 순서로(또는 동시에) 수행될 수 있다는 점이다.
본원 명세서에서 사용되는 "모듈(module)"이라는 용어는 주문형 집적 회로(Application Specific Integrated Circuit; ASIC); 전자 회로; 조합 논리 회로; 필드 프로그램가능 게이트 어레이(field programmable gate array; FPGA); 코드를 실행하는 프로세서(공유, 전용, 또는 그룹); 위에 기재한 기능을 제공하는 다른 적합한 하드웨어 구성요소들; 또는 시스템온칩(system-on-chip)에서와 같은, 위에 언급한 것들 중 일부 또는 모두의 조합;을 언급할 수도 있고 포함할 수도 있으며 그 중 일부일 수도 있다. 상기 "모듈"이라는 용어는 상기 프로세서에 의해 실행되는 코드를 저장하는 메모리(공유, 전용, 또는 그룹)를 포함할 수 있다.
본원 명세서에서 사용되는 "코드"라는 용어는 소프트웨어, 펌웨어, 및/또는 마이크로코드일 수 있으며 프로그램들, 루틴들, 함수들, 클래스들, 및/또는 객체들을 언급할 수 있다. 본원 명세서에서 사용되는 "공유(된)"이라는 용어는 다수의 모듈로부터의 일부 또는 모든 코드가 단일(공유) 프로세서를 사용하여 실행될 수 있음을 의미한다. 그 외에도, 다수의 모듈로부터의 일부 또는 모든 코드는 단일(공유) 메모리에 의해 저장될 수 있다. 본원 명세서에서 사용되는 "그룹"이라는 용어는 단일 모듈로부터의 일부 또는 모든 코드가 한 그룹의 프로세서들을 사용하여 실행될 수 있음을 의미한다. 그 외에도, 단일 모듈로부터의 일부 또는 모든 코드는 한 그룹의 메모리들을 사용하여 저장될 수 있다.
본원 명세서에 기재된 시스템들 및 방법들은 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 컴퓨터 프로그램들에 의해 구현될 수 있다. 상기 컴퓨터 프로그램들은 비-일시적인 유형(有形)의 컴퓨터 판독가능 매체 상에 저장되는 프로세서-실행가능 명령어들을 포함한다. 상기 컴퓨터 프로그램들은 또한 저장된 데이터를 포함할 수 있다. 상기 비-일시적인 유형의 컴퓨터 판독가능 매체의 비-제한적인 예들에는 비휘발성 메모리, 자기 저장장치, 및 광학 저장장치가 있다.
도 1 - 도 4로 이루어진 첨부도면들과 관련된 본 발명의 실시예들이 이하에 기재될 것이다. 여기서 이해해야 할 점은 본원 명세서에 기재된 특정 실시예들이 단지 본 발명을 설명하고자 의도된 것일 뿐이며 본 발명을 제한하고자 의도된 것이 아니라는 점이다. 본원 명세서에 구체화되고 넓은 의미로 기재되는 바와 같은 본 발명의 목적에 따라, 한 실시태양에 있어서, 본 발명은 피싱 웹사이트들을 검출하기 위한 방법, 시스템 및 클라이언트 단말기에 관한 것이다.
도 1을 참조하면, 본 발명의 제1 실시예에 따른 피싱 웹사이트의 검출 방법의 흐름도가 도시되어 있다. 한 실시예에서는, 상기 방법이 이하의 단계를 포함한다.
단계 S101에서는, 웹사이트의 URL을 포함하는 마이크로블로그 게시물에 관련된 정보가 획득된다.
한 실시예에서는, 상기 마이크로블로그 게시물에 관련된 정보가 기능적 특징(functional feature)들, 소셜 네트워킹 특징(social networking feature)들 및 전파 특징(propagation feature)들을 포함한다.
단계 S102에서는, 상기 마이크로블로그 게시물에 관련된 정보가 상기 마이크로블로그 게시물의 특징들을 추출하도록 분석된다.
한 실시예에서는, 상기 마이크로블로그 게시물의 특징들이 상기 마이크로블로그 게시물의 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 포함한다.
단계 S103에서는, 상기 마이크로블로그 게시물 내에 포함된 웹사이트의 URL의 신뢰도가 상기 마이크로블로그 게시물의 추출된 특징들에 따라 계산된다.
단계 S104에서는, 상기 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부가 상기 웹사이트의 URL의 신뢰도에 따라 결정된다.
도 2를 참조하면, 본 발명의 한 실시예에 따른 피싱 웹사이트의 검출 시스템이 도시되어 있다. 상기 시스템은 획득 모듈(11), 분석 모듈(12), 계산 모듈(13), 및 결정 모듈(14)을 포함한다.
상기 획득 모듈(11)은 웹사이트의 URL을 포함하는 마이크로블로그 게시물에 관련된 정보를 획득하도록 구성된다. 대표적인 실시예에서는, 상기 마이크로블로그 게시물에 관련된 정보가 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 포함한다.
상기 분석 모듈(12)은 상기 마이크로블로그 게시물에 관련된 정보를 분석하여 상기 마이크로블로그 게시물의 특징들을 추정하도록 구성되어 있다. 이러한 실시예에서는, 상기 마이크로블로그 게시물의 특징들이 상기 마이크로블로그 게시물의 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 포함한다.
상기 계산 모듈(13)은 상기 마이크로블로그 게시물의 추출된 특징들에 따라 상기 마이크로블로그 게시물 내에 포함된 웹사이트의 URL의 신뢰도를 계산하도록 구성되어 있다.
상기 결정 모듈(14)은 상기 웹사이트의 URL의 신뢰도에 따라 상기 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부를 결정하도록 구성되어 있다.
도 3을 참조하면, 본 발명의 다른 한 실시예에 따른 피싱 웹사이트의 검출 방법의 흐름도가 도시되어 있다. 상기 방법은 이하의 단계들을 포함한다.
단계 S201에서는, 웹사이트의 URL을 포함하는 마이크로블로그 게시물에 관련된 정보가 획득된다.
한 실시예에서는, 상기 마이크로블로그 게시물에 관련된 정보가 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 포함하며, 상기 기능적 특징들은 상기 마이크로블로그 게시물의 길이, 상기 마이크로블로그 게시물의 내용 등을 포함하고, 상기 소셜 네트워킹 특징들은 마이크로블로그 게시자의 식별정보(identity), 실명 인증의 통과 여부, 마이크로블로그 게시자의 나이, 마이크로블로그 계정 등록 시간, 마이크로블로그 레벨, 마이크로블로그 게시물들(원래 게시물들 및 재-게시물들)의 개수, 추종자들 또는 팬들의 수, 추종자들 또는 팬들에 대한 정보, 활동 상태 등을 포함하며, 상기 전파 특징들은 재-게시물들 및 댓글들의 개수, 재-게시자들 및 댓글자들의 특징들 등을 포함한다.
단계 S202에서는, 노이즈 감소가 상기 마이크로블로그 게시물에 관련된 정보에 대해 수행된다.
단계 S203에서는, 상기 노이즈 감소 후에 상기 마이크로블로그 게시물에 관련된 정보가 상기 마이크로블로그 게시물의 특징들을 추출하도록 분석된다.
한 실시예에서는, 상기 마이크로블로그 게시물의 특징들이 상기 마이크로블로그 게시물의 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 포함한다.
단계 S204에서는, 상기 마이크로블로그 게시물 내에 포함된 웹사이트의 URL의 신뢰도가 상기 마이크로블로그 게시물의 추출된 특징들에 따라 계산된다.
상기 웹사이트의 URL의 신뢰도가 c라고 가정하면, c는 미리 설정된 가중치 비율에 기초한 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들에 따라 통합 결정되는데, 이 경우에 상기 기능적 특징들, 상기 소셜 네트워킹 특징들 및 상기 전파 특징들은 미리 설정된 가중치 비율에 기초한 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들에 각각 상응하는 복수 개의 서로 다른 기능적 특징 기술자들에 따라 통합 결정된다.
특히, c = {(f,pf),(s,ps),(d,pd)}
이며, 이 경우에 f는 기능적 특징들을 나타내고, f = {(f1,pf1),(f2,pf2),(f3,pf3), ..., (fn,pfn)}이며, fi는 기능적 특징 기술자를 나타내고, i={l,2,3, ..., n}이며, n은 기능적 특징 기술자들의 개수를 나타내고, pfi는 기능적 특징 기술자 fi의 가중치를 나타내며,
pf는 기능적 특징들 f의 가중치들을 나타내는데,
예를 들면, f1은 마이크로블로그 게시물의 길이를 나타내고, f2는 특정 워드들 또는 감정 워드들의 존재를 나타내며, pf1은 마이크로블로그 게시물의 길이의 가중치를 나타내고, pf2는 특정 워드들 또는 감정 워드들의 존재의 가중치를 나타내며,
s는 소셜 네트워킹 특징들을 나타내고, s = {(s1,ps1),(s2,ps2),(s3,pS3), ..., (sn,psn)}이며, si는 소셜 네트워킹 특징 기술자를 나타내고, i={l,2,3, ..., n}이며, n은 소셜 네트워킹 특징 기술자들의 개수를 나타내고, pSi는 소셜 네트워킹 특징 기술자 Si의 가중치를 나타내며,
ps는 소셜 네트워킹 특징들 s의 가중치들을 나타내는데,
예를 들면, S1는 마이크로블로그 게시자의 식별정보(identity)를 나타내고, S2는 실명 인증을 나타내며, S3는 나이를 나타내고, S4는 마이크로블로그 계정 등록 시간을 나타내며, S5는 마이크로블로그 레벨을 나타내고, S6는 마이크로블로그 게시물들(원래 게시물들 및 재-게시물들)의 개수를 나타내며, S7은 추종자들 또는 팬들의 수를 나타내고, S8은 추종자들 또는 팬들에 대한 정보를 나타내며, S9는 활동 상태를 나타내고,
ps1은 마이크로블로그 게시자의 식별정보의 가중치를 나타내고, ps2는 실명 인증의 가중치를 나타내며, ps3은 나이의 가중치를 나타내고, ps4는 마이크로블로그 계정 등록 시간의 가중치를 나타내며, ps5는 마이크로블로그 레벨의 가중치를 나타내고, ps6은 마이크로블로그 게시물들(원래 게시물들 및 재-게시물들)의 개수의 가중치를 나타내며, ps7은 추종자들 또는 팬들의 수의 가중치를 나타내고, ps8은 추종자들 또는 팬들에 대한 정보의 가중치를 나타내며, pS9는 활동 상태의 가중치를 나타내고,
d는 전파 특징들을 나타내고, d = {(d1,pd1),(d2,pd2),(d3,pd3), ..., (dn,pdn)}이며, di는 전파 특징 기술자를 나타내고, i={l,2,3, ..., n}이며, n은 전파 특징 기술자들의 개수를 나타내고, pdi는 전파 특징 기술자 di의 가중치를 나타내며,
pd는 전파 특징들 d의 가중치들을 나타내는데,
예를 들면, d1은 재-개시물들 및 댓글들의 개수를 나타내고, d2는 재-개시자들 및 댓글자들의 특징들을 나타내며, pd1는 재-게시물들 및 댓글들의 개수의 가중치를 나타내고, pd2는 재-게시자들 및 댓글자들의 특징들의 가중치를 나타낸다.
단계 S205에서는, 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부가 웹사이트의 URL의 신뢰도에 따라 결정된다.
웹사이트의 URL의 신뢰도 c가 ≥ Tw인 경우에, 웹사이트의 URL이 신뢰가능한 것으로 결정되는데, 여기서 Tw는 미리 설정된 신뢰가능한 문턱값이다.
웹사이트의 URL의 신뢰도 c가 ≤ TB인 경우에, 웹사이트의 URL이 신뢰가능하지 않은 것으로 결정되고, 웹사이트의 URL은 피싱 웹사이트의 URL인 것으로 결정되는데, 이 경우에 TB는 미리 설정된 신뢰가능하지 않은 문턱값이다.
웹사이트의 URL의 신뢰도 c가 Tw > c > TB인 조건을 만족하는 경우에, 웹사이트의 URL은 알려져 있지 않은 것으로 결정된다.
미리 설정된 신뢰가능하지 않은 문턱값 TB 및 미리 설정된 신뢰가능한 문턱값 Tw는 다음과 같은 방식으로 구해진다.
피싱에서 빈번하게 사용되는 (은행 및 타오바오(taobao)와 같은) 키워드들을 선택하고, 상기 키워드들을 사용하여 URL들을 포함하는 마이크로블로그 게시물들을 수집하여 데이터 집합을 형성하며, 상기 데이터 집합 상에서의 워드 분리 및 데이터 포매팅을 수행하고, 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 추출하며,
상기 데이터 집합 내에서 URL들의 신뢰가능한 결과들을 수동으로 마킹하고, 4:1 비율로 트레이닝 집합 및 테스트 집합을 임의로 그룹화하며,
분류 모델들이 SVM, 결정 트리들, 및 베이즈(Bayes) 네트워크들과 같은 지도 학습 모델들일 수 있으며, Carlos Castillo와 그의 동료 명의의 논문 "Information Credibility on Twitter"에 실린 실험에 따라, J48 결정 트리에 의해 고정밀도가 획득될 수 있는 경우에, 교차-점검(cross-checking)을 통해 분류 모델들을 트레이닝 및 테스트하고, 결정 트리의 루트 노드에서부터 신뢰가능하지 않은 클래스 리프 노드에 이르기까지의 확률 및 결정 트리의 루트 노드에서부터 신뢰가능한 클래스 리프 노드에 이르기까지의 확률을 각각 신뢰가능하지 않은 문턱값 및 신뢰가능한 문턱값으로서 정의함으로써, 미리 설정된 신뢰가능하지 않은 문턱값 TB 및 미리 설정된 신뢰가능한 문턱값 Tw를 구한다.
도 4를 참조하면, 본 발명의 다른 한 실시예에 따른 피싱 웹사이트의 검출 시스템이 도시되어 있다. 상기 시스템은 획득 모듈(21), 잡음 감소 모듈(22), 분석 모듈(23), 계산 모듈(24), 및 결정 모듈(25)을 포함한다.
상기 획득 모듈(21)은 웹사이트의 URL을 포함하는 마이크로블로그 게시물에 관련된 정보를 획득하는데 사용된다. 본 발명의 제4 실시예에서는, 상기 마이크로블로그 게시물에 관련된 정보가 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 포함하는데, 상기 기능적 특징들은 상기 마이크로블로그 게시물의 길이, 상기 마이크로블로그 게시물의 내용 등을 포함하고, 상기 소셜 네트워킹 특징들은 마이크로블로그 게시자의 식별정보(identity), 실명 인증의 통과 여부, 마이크로블로그 게시자의 나이, 마이크로블로그 계정 등록 시간, 마이크로블로그 레벨, 마이크로블로그 게시물들(원래 게시물들 및 재-게시물들)의 개수, 추종자들 또는 팬들의 수, 추종자들 또는 팬들에 대한 정보, 활성 상태 등을 포함하며, 상기 전파 특징들은 재-게시물들 및 댓글들의 개수, 재-게시자들 및 댓글자들의 특징들 등을 포함한다.
상기 잡음 감소 모듈(22)은 상기 마이크로블로그 게시물에 관련된 정보에 대한 잡음 감소를 수행하는데 사용된다.
상기 분석 모듈(23)은 상기 잡음 감소 후에 상기 마이크로블로그 게시물에 관련된 정보를 분석하여 상기 마이크로블로그 게시물의 특징들을 추정하는데 사용된다. 본 발명의 제4 실시예에서는, 상기 마이크로블로그 게시물의 특징들이 상기 마이크로블로그 게시물의 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 포함한다.
상기 계산 모듈(24)은 상기 마이크로블로그 게시물의 추출된 특징들에 따라 상기 마이크로블로그 게시물 내에 포함된 웹사이트의 URL의 신뢰도를 계산하는데 사용된다.
상기 웹사이트의 URL의 신뢰도가 c라고 가정하면, c는 미리 설정된 가중치 비율에 기초한 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들에 따라 통합 결정되는데, 이 경우에 상기 기능적 특징들, 상기 소셜 네트워킹 특징들 및 상기 전파 특징들은 미리 설정된 가중치 비율에 기초한 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들에 각각 상응하는 복수 개의 서로 다른 기능적 특징 기술자들에 따라 통합 결정된다.
특히, c = {(f,pf),(s,ps),(d,pd)}
이며, 이 경우에 f는 기능적 특징들을 나타내고, f = {(f1,pf1),(f2,pf2),(f3,pf3), ..., (fn,pfn)}이며, fi는 기능적 특징 기술자를 나타내고, i={l,2,3, ..., n}이며, n은 기능적 특징 기술자들의 개수를 나타내고, pfi는 기능적 특징 기술자 fi의 가중치를 나타내며,
pf는 기능적 특징들 f의 가중치들을 나타내는데,
예를 들면, f1은 마이크로블로그 게시물의 길이를 나타내고, f2는 특정 워드들 또는 감정 워드들의 존재를 나타내며, pf1은 마이크로블로그 게시물의 길이의 가중치를 나타내고, pf2는 특정 워드들 또는 감정 워드들의 존재의 가중치를 나타내며,
s는 소셜 네트워킹 특징들을 나타내고, s = {(s1,ps1),(s2,ps2),(s3,pS3), ..., (sn,psn)}이며, si는 소셜 네트워킹 특징 기술자를 나타내고, i={l,2,3, ..., n}이며, n은 소셜 네트워킹 특징 기술자들의 개수를 나타내고, pSi는 소셜 네트워킹 특징 기술자 Si의 가중치를 나타내며,
ps는 소셜 네트워킹 특징들 s의 가중치들을 나타내는데,
예를 들면, S1는 마이크로블로그 게시자의 식별정보(identity)를 나타내고, S2는 실명 인증을 나타내며, S3는 나이를 나타내고, S4는 마이크로블로그 계정 등록 시간을 나타내며, S5는 마이크로블로그 레벨을 나타내고, S6는 마이크로블로그 게시물들(원래 게시물들 및 재-게시물들)의 개수를 나타내며, S7은 추종자들 또는 팬들의 수를 나타내고, S8은 추종자들 또는 팬들에 대한 정보를 나타내며, S9는 활동 상태를 나타내고,
ps1은 마이크로블로그 게시자의 식별정보의 가중치를 나타내고, ps2는 실명 인증의 가중치를 나타내며, ps3은 나이의 가중치를 나타내고, ps4는 마이크로블로그 계정 등록 시간의 가중치를 나타내며, ps5는 마이크로블로그 레벨의 가중치를 나타내고, ps6은 마이크로블로그 게시물들(원래 게시물들 및 재-게시물들)의 개수의 가중치를 나타내며, ps7은 추종자들 또는 팬들의 수의 가중치를 나타내고, ps8은 추종자들 또는 팬들에 대한 정보의 가중치를 나타내며, pS9는 활동 상태의 가중치를 나타내고,
d는 전파 특징들을 나타내고, d = {(d1,pd1),(d2,pd2),(d3,pd3), ..., (dn,pdn)}이며, di는 전파 특징 기술자를 나타내고, i={l,2,3, ..., n}이며, n은 전파 특징 기술자들의 개수를 나타내고, pdi는 전파 특징 기술자 di의 가중치를 나타내며,
pd는 전파 특징들 d의 가중치들을 나타내는데,
예를 들면, d1은 재-개시물들 및 댓글들의 개수를 나타내고, d2는 재-개시자들 및 댓글자들의 특징들을 나타내며, pd1는 재-게시물들 및 댓글들의 개수의 가중치를 나타내고, pd2는 재-게시자들 및 댓글자들의 특징들의 가중치를 나타낸다.
상기 결정 모듈(25)은 상기 웹사이트의 URL의 신뢰도에 따라 상기 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부를 결정하는데 사용된다.
웹사이트의 URL의 신뢰도 c가 ≥ Tw인 경우에, 웹사이트의 URL이 신뢰가능한 것으로 결정되는데, 여기서 Tw는 미리 설정된 신뢰가능한 문턱값이다.
웹사이트의 URL의 신뢰도 c가 ≤ TB인 경우에, 웹사이트의 URL이 신뢰가능하지 않은 것으로 결정되고, 웹사이트의 URL은 피싱 웹사이트의 URL인 것으로 결정되는데, 이 경우에 TB는 미리 설정된 신뢰가능하지 않은 문턱값이다.
웹사이트의 URL의 신뢰도 c가 Tw > c > TB인 조건을 만족하는 경우에, 웹사이트의 URL은 알려져 있지 않은 것으로 결정된다.
미리 설정된 신뢰가능하지 않은 문턱값 TB 및 미리 설정된 신뢰가능한 문턱값 Tw는 다음과 같은 방식으로 구해진다.
피싱에서 빈번하게 사용되는 (은행 및 타오바오(taobao)와 같은) 키워드들을 선택하고, 상기 키워드들을 사용하여 URL들을 포함하는 마이크로블로그 게시물들을 수집하여 데이터 집합을 형성하며, 상기 데이터 집합 상에서의 워드 분리 및 데이터 포매팅을 수행하고, 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 추출하며,
상기 데이터 집합 내에서 URL들의 신뢰가능한 결과들을 수동으로 마킹하고, 4:1 비율로 트레이닝 집합 및 테스트 집합을 임의로 그룹화하며,
분류 모델들이 SVM, 결정 트리들, 및 베이즈(Bayes) 네트워크들과 같은 지도 학습 모델들일 수 있으며, Carlos Castillo와 그의 동료 명의의 논문 "Information Credibility on Twitter"에 실린 실험에 따라, J48 결정 트리에 의해 고정밀도가 획득될 수 있는 경우에, 교차-점검(cross-checking)을 통해 분류 모델들을 트레이닝 및 테스트하고, 결정 트리의 루트 노드에서부터 신뢰가능하지 않은 클래스 리프 노드에 이르기까지의 확률 및 결정 트리의 루트 노드에서부터 신뢰가능한 클래스 리프 노드에 이르기까지의 확률을 각각 신뢰가능하지 않은 문턱값 및 신뢰가능한 문턱값으로서 정의함으로써, 미리 설정된 신뢰가능하지 않은 문턱값 TB 및 미리 설정된 신뢰가능한 문턱값 Tw를 구한다.
본 발명의 실시예들에서는, 웹사이트의 URL을 포함하는 마이크로블로그 게시물에 관련된 정보가 획득되고, 상기 마이크로블로그 게시물에 관련된 정보로부터 마이크로블로그 게시물의 특징들이 추출되며, 상기 마이크로블로그 게시물 내에 포함된 웹사이트의 URL의 신뢰도가 상기 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부를 결정하도록 상기 마이크로블로그 게시물의 추출된 특징들에 따라 계산된다. 그러므로, 본 발명은 마이크로블로그 게시물 내에 포함된 웹사이트의 URL이 피싱 웹사이트인지의 여부가 결정될 수 없음으로써, 사용자들에게 불편을 주게 되는 선행기술의 문제점을 해결한다.
당업자라면 앞서 언급한 실시예들의 단계들 중 일부 또는 모두가 프로그램의 명령어들에 관련된 하드웨어로 이루어질 수 있음을 알 수 있을 것이다.
본 발명의 다른 한 실시태양에서는 하나 이상의 프로세서들에 의해 실행될 경우에 위에서 언급한 시스템이 상기 피싱 웹사이트의 검출 방법을 수행하게 하는 명령어들 또는 코드들이 저장된 비-일시적인 유형(有形)의 컴퓨터-판독가능 매체가 제공된다. 상기 비-일시적인 유형의 컴퓨터 판독가능 저장 매체는 디스크, CD-ROM, 판독 전용 메모리(ROM), 랜덤 메모리(RAM), 플래시 드라이브 따위를 포함하지만, 이들에 국한되지 않는다.
본 발명의 대표적인 실시예들에 대한 위의 설명은 단지 예시 및 설명을 위해서만 제시된 것일 뿐이며 본 발명을 망라하는 것이거나 본 발명을 개시된 정확한 형태들로 한정하는 것이 아니다. 위의 교시들에 비추어 볼 때 여러 수정 및 변경들이 가능하다.
위의 실시예들은 본 발명의 원리들 및 그 원리들의 실제 응용을 설명하여 당업자로 하여금 본 발명 및 여러 실시예를 이용하게 하고 고려된 특정 용도에 적합한 여러 수정을 이용하게 하도록 선택 및 설명되었다. 변형 실시예들은 본 발명의 정신 및 범위로부터 벗어나지 않고서도 본 발명이 속하는 당업자에게 자명해질 것이다. 따라서, 본 발명의 범위는 위의 설명 및 본원 명세서에 기재된 대표적인 실시예들보다는 오히려 첨부된 청구항들에 의해 정의된다.

Claims (18)

  1. 피싱 웹사이트의 검출 방법에 있어서,
    상기 피싱 웹사이트의 검출 방법은,
    (a) 웹사이트의 URL(uniform resource locator)을 포함하는 마이크로블로그 게시물에 관련된 정보를 획득하는 단계;
    (b) 상기 마이크로블로그 게시물에 관련된 정보를 분석하여 상기 마이크로블로그 게시물의 특징들을 추출하는 단계;
    (c) 상기 마이크로블로그 게시물의 추출된 특징들에 따라 상기 마이크로블로그 게시물 내에 포함된 웹사이트의 URL의 신뢰도를 계산하는 단계; 및
    (d) 상기 웹사이트의 URL의 신뢰도에 따라 상기 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부를 결정하는 단계;
    를 포함하며,
    상기 마이크로블로그 게시물에 관련된 정보는 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 포함하며, 상기 마이크로블로그 게시물의 특징들은 상기 마이크로블로그 게시물의 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 포함하는, 피싱 웹사이트의 검출 방법.
  2. 삭제
  3. 제1항에 있어서, 상기 기능적 특징들은 상기 마이크로블로그 게시물의 길이 및/또는 상기 마이크로블로그 게시물의 내용을 포함하며,
    상기 소셜 네트워킹 특징들은 마이크로블로그 게시자의 식별정보(identity), 실명 인증의 통과 여부, 마이크로블로그 게시자의 나이, 마이크로블로그 계정 등록 시간, 마이크로블로그 레벨, 마이크로블로그 게시물들의 개수, 추종자들 또는 팬들의 수, 추종자들 또는 팬들에 대한 정보 및/또는 활동 상태를 포함하고,
    상기 전파 특징들은 재-게시물들 및 댓글들의 개수 및/또는 재-게시자들 및 댓글자들의 특징들을 포함하는, 피싱 웹사이트의 검출 방법.
  4. 제1항에 있어서, 상기 피싱 웹사이트의 검출 방법은,
    상기 마이크로블로그 게시물에 관련된 정보를 획득하는 단계 다음에,
    상기 마이크로블로그 게시물에 관련된 정보에 대한 잡음 감소를 수행하는 단계;
    를 더 포함하며,
    상기 마이크로블로그 게시물에 관련된 정보를 분석하는 단계는,
    잡음 감소 다음에 상기 마이크로블로그 게시물에 관련된 정보를 분석하는 단계를 포함하는, 피싱 웹사이트의 검출 방법.
  5. 제1항에 있어서, 상기 웹사이트의 URL의 신뢰도를 계산하는 단계는,
    미리 설정된 가중치 비율에 기초한 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들에 따라 c를 결정하는 단계를 포함하며, c는 상기 웹사이트의 URL의 신뢰도이고, 상기 기능적 특징들, 상기 소셜 네트워킹 특징들 및 상기 전파 특징들은 미리 설정된 가중치 비율에 기초한 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들에 각각 상응하는 복수 개의 서로 다른 기능적 특징 기술자들에 따라 통합 결정되는, 피싱 웹사이트의 검출 방법.
  6. 제5항에 있어서, 상기 웹사이트의 URL의 신뢰도에 따라 상기 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부를 결정하는 단계는,
    Tw가 미리 설정된 신뢰가능한 문턱값이고 c ≥ Tw인 경우에, 상기 웹사이트의 URL이 신뢰가능한 것으로 결정하는 단계;
    TB가 미리 설정된 신뢰가능하지 않은 문턱값이고 c ≤ TB인 경우에, 상기 웹사이트의 URL이 신뢰가능하지 않은 것으로 결정하고, 상기 웹사이트의 URL이 피싱 웹사이트의 URL인 것으로 결정하는 단계; 및
    상기 웹사이트의 URL의 신뢰도 c가 Tw > c > TB인 조건을 만족하는 경우에, 상기 웹사이트의 URL이 알려져 있지 않은 것으로 결정하는 단계;
    를 포함하는, 피싱 웹사이트의 검출 방법.
  7. 피싱 웹사이트의 검출 시스템에 있어서,
    상기 피싱 웹사이트의 검출 시스템은,
    (a) 웹사이트의 URL(uniform resource locator)을 포함하는 마이크로블로그 게시물에 관련된 정보를 획득하도록 구성된 획득 모듈;
    (b) 상기 마이크로블로그 게시물에 관련된 정보를 분석하여 상기 마이크로블로그 게시물의 특징들을 추출하도록 구성된 분석 모듈;
    (c) 상기 마이크로블로그 게시물의 추출된 특징들에 따라 상기 마이크로블로그 게시물 내에 포함된 웹사이트의 URL의 신뢰도를 계산하도록 구성된 계산 모듈; 및
    (d) 상기 웹사이트의 URL의 신뢰도에 따라 상기 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부를 결정하도록 구성된 결정 모듈;
    을 포함하며,
    상기 마이크로블로그 게시물에 관련된 정보는 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 포함하며, 상기 마이크로블로그 게시물의 특징들은 상기 마이크로블로그 게시물의 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 포함하는, 피싱 웹사이트의 검출 시스템.
  8. 삭제
  9. 제7항에 있어서, 상기 피싱 웹사이트의 검출 시스템은,
    상기 마이크로블로그 게시물에 관련된 정보에 대한 잡음 감소를 수행하도록 구성된 잡음 감소 모듈;
    을 더 포함하며,
    상기 분석 모듈은 잡음 감소 다음에 상기 마이크로블로그 게시물에 관련된 정보를 분석하여 상기 마이크로블로그 게시물의 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 각각 추출하도록 구성되는, 피싱 웹사이트의 검출 시스템.
  10. 제7항에 있어서, 상기 계산 모듈은 미리 설정된 가중치 비율에 기초한 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들에 따라 c를 결정하도록 구성되며, c는 상기 웹사이트의 URL의 신뢰도이고, 상기 기능적 특징들, 상기 소셜 네트워킹 특징들 및 상기 전파 특징들은 미리 설정된 가중치 비율에 기초한 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들에 각각 상응하는 복수 개의 서로 다른 기능적 특징 기술자들에 따라 통합 결정되는, 피싱 웹사이트의 검출 시스템.
  11. 제10항에 있어서, 상기 결정 모듈은,
    Tw가 미리 설정된 신뢰가능한 문턱값이고 c ≥ Tw인 경우에, 상기 웹사이트의 URL이 신뢰가능한 것으로 결정하도록 구성되고,
    TB가 미리 설정된 신뢰가능하지 않은 문턱값이고 c ≤ TB인 경우에, 상기 웹사이트의 URL이 신뢰가능하지 않은 것으로 결정하도록 구성되고, 상기 웹사이트의 URL이 피싱 웹사이트의 URL인 것으로 결정하도록 구성되며, 그리고
    상기 웹사이트의 URL의 신뢰도 c가 Tw > c > TB인 조건을 만족하는 경우에, 상기 웹사이트의 URL이 알려져 있지 않은 것으로 결정하도록 구성되는, 피싱 웹사이트의 검출 시스템.
  12. 청구항 제7항에 따른 피싱 웹사이트의 검출 시스템을 포함하는, 클라이언트 단말기.
  13. 하나 이상의 프로세서들에 의해 실행될 경우에 시스템으로 하여금 피싱 웹사이트의 검출 방법을 수행하게 하는 명령어들이 저장된 비-일시적인 컴퓨터-판독가능 매체로서,
    상기 피싱 웹사이트의 검출 방법은,
    (a) 웹사이트의 URL(uniform resource locator)을 포함하는 마이크로블로그 게시물에 관련된 정보를 획득하는 단계;
    (b) 상기 마이크로블로그 게시물에 관련된 정보를 분석하여 상기 마이크로블로그 게시물의 특징들을 추출하는 단계;
    (c) 상기 마이크로블로그 게시물의 추출된 특징들에 따라 상기 마이크로블로그 게시물 내에 포함된 웹사이트의 URL의 신뢰도를 계산하는 단계; 및
    (d) 상기 웹사이트의 URL의 신뢰도에 따라 상기 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부를 결정하는 단계;
    를 포함하며
    상기 마이크로블로그 게시물에 관련된 정보는 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 포함하며, 상기 마이크로블로그 게시물의 특징들은 상기 마이크로블로그 게시물의 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들을 포함하는, 비-일시적인 컴퓨터-판독가능 매체.
  14. 삭제
  15. 제13항에 있어서, 상기 기능적 특징들은 상기 마이크로블로그 게시물의 길이 및/또는 상기 마이크로블로그 게시물의 내용을 포함하며,
    상기 소셜 네트워킹 특징들은 마이크로블로그 게시자의 식별정보(identity), 실명 인증의 통과 여부, 마이크로블로그 게시자의 나이, 마이크로블로그 계정 등록 시간, 마이크로블로그 레벨, 마이크로블로그 게시물들의 개수, 추종자들 또는 팬들의 수, 추종자들 또는 팬들에 대한 정보 및/또는 활동 상태를 포함하고,
    상기 전파 특징들은 재-게시물들 및 댓글들의 개수 및/또는 재-게시자들 및 댓글자들의 특징들을 포함하는, 비-일시적인 컴퓨터-판독가능 매체.
  16. 제13항에 있어서, 상기 피싱 웹사이트의 검출 방법은,
    상기 마이크로블로그 게시물에 관련된 정보를 획득하는 단계 다음에,
    상기 마이크로블로그 게시물에 관련된 정보에 대한 잡음 감소를 수행하는 단계;
    를 더 포함하며,
    상기 마이크로블로그 게시물에 관련된 정보를 분석하는 단계는,
    잡음 감소 다음에 상기 마이크로블로그 게시물에 관련된 정보를 분석하는 단계를 포함하는, 비-일시적인 컴퓨터-판독가능 매체.
  17. 제13항에 있어서, 상기 웹사이트의 URL의 신뢰도를 계산하는 단계는,
    미리 설정된 가중치 비율에 기초한 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들에 따라 c를 결정하는 단계를 포함하며, c는 상기 웹사이트의 URL의 신뢰도이고, 상기 기능적 특징들, 상기 소셜 네트워킹 특징들 및 상기 전파 특징들은 미리 설정된 가중치 비율에 기초한 기능적 특징들, 소셜 네트워킹 특징들 및 전파 특징들에 각각 상응하는 복수 개의 서로 다른 기능적 특징 기술자들에 따라 통합 결정되는, 비-일시적인 컴퓨터-판독가능 매체.
  18. 제17항에 있어서, 상기 웹사이트의 URL의 신뢰도에 따라 상기 웹사이트의 URL이 피싱 웹사이트의 URL인지의 여부를 결정하는 단계는,
    Tw가 미리 설정된 신뢰가능한 문턱값이고 c ≥ Tw인 경우에, 상기 웹사이트의 URL이 신뢰가능한 것으로 결정하는 단계;
    TB가 미리 설정된 신뢰가능하지 않은 문턱값이고 c ≤ TB인 경우에, 상기 웹사이트의 URL이 신뢰가능하지 않은 것으로 결정하고, 상기 웹사이트의 URL이 피싱 웹사이트의 URL인 것으로 결정하는 단계; 및
    상기 웹사이트의 URL의 신뢰도 c가 Tw > c > TB인 조건을 만족하는 경우에, 상기 웹사이트의 URL이 알려져 있지 않은 것으로 결정하는 단계;
    를 포함하는, 비-일시적인 컴퓨터-판독가능 매체.
KR1020157000809A 2012-07-17 2013-07-15 피싱 웹사이트들을 검출하기 위한 방법, 시스템 및 클라이언트 단말기 KR101530941B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210247230.9A CN103546446B (zh) 2012-07-17 2012-07-17 一种钓鱼网站的检测方法、装置和终端
CN201210247230.9 2012-07-17
PCT/CN2013/079376 WO2014012471A1 (en) 2012-07-17 2013-07-15 Method, system and client terminal for detection of phishing websites

Publications (2)

Publication Number Publication Date
KR20150011849A KR20150011849A (ko) 2015-02-02
KR101530941B1 true KR101530941B1 (ko) 2015-06-23

Family

ID=49948279

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157000809A KR101530941B1 (ko) 2012-07-17 2013-07-15 피싱 웹사이트들을 검출하기 위한 방법, 시스템 및 클라이언트 단말기

Country Status (4)

Country Link
US (1) US9210189B2 (ko)
KR (1) KR101530941B1 (ko)
CN (1) CN103546446B (ko)
WO (1) WO2014012471A1 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104572807B (zh) * 2014-10-29 2018-02-06 中国科学院计算技术研究所 一种基于微博信息源的新闻认证方法及系统
US9398047B2 (en) 2014-11-17 2016-07-19 Vade Retro Technology, Inc. Methods and systems for phishing detection
CN106257886B (zh) * 2015-06-17 2020-06-23 腾讯科技(深圳)有限公司 一种信息处理方法、装置、终端及服务器
EP3125147B1 (en) * 2015-07-27 2020-06-03 Swisscom AG System and method for identifying a phishing website
US11403550B2 (en) * 2015-09-04 2022-08-02 Micro Focus Llc Classifier
US10142366B2 (en) 2016-03-15 2018-11-27 Vade Secure, Inc. Methods, systems and devices to mitigate the effects of side effect URLs in legitimate and phishing electronic messages
CN106131016B (zh) * 2016-07-13 2019-05-03 北京知道创宇信息技术有限公司 恶意url检测干预方法、系统及装置
US10313352B2 (en) * 2016-10-26 2019-06-04 International Business Machines Corporation Phishing detection with machine learning
CN107508809B (zh) * 2017-08-17 2020-10-23 腾讯科技(深圳)有限公司 识别网址类型的方法及装置
US11470113B1 (en) * 2018-02-15 2022-10-11 Comodo Security Solutions, Inc. Method to eliminate data theft through a phishing website
US11212312B2 (en) * 2018-08-09 2021-12-28 Microsoft Technology Licensing, Llc Systems and methods for polluting phishing campaign responses
CN111556065A (zh) * 2020-05-08 2020-08-18 鹏城实验室 钓鱼网站检测方法、装置及计算机可读存储介质
CN111756724A (zh) * 2020-06-22 2020-10-09 杭州安恒信息技术股份有限公司 钓鱼网站的检测方法、装置、设备、计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060168066A1 (en) * 2004-11-10 2006-07-27 David Helsper Email anti-phishing inspector
KR20080024804A (ko) * 2006-09-15 2008-03-19 인포섹(주) 트러스티드 네트워크를 이용한 파밍 방지 방법

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145710B2 (en) * 2003-06-18 2012-03-27 Symantec Corporation System and method for filtering spam messages utilizing URL filtering module
US8176126B2 (en) * 2004-08-26 2012-05-08 International Business Machines Corporation System, method and program to limit rate of transferring messages from suspected spammers
US20100042687A1 (en) * 2008-08-12 2010-02-18 Yahoo! Inc. System and method for combating phishing
CN101534306B (zh) 2009-04-14 2012-01-11 深圳市腾讯计算机系统有限公司 一种钓鱼网站的检测方法及装置
US8521667B2 (en) * 2010-12-15 2013-08-27 Microsoft Corporation Detection and categorization of malicious URLs
CN102170447A (zh) 2011-04-29 2011-08-31 南京邮电大学 一种基于最近邻及相似度测量检测钓鱼网页的方法
CN102279875B (zh) * 2011-06-24 2013-04-24 华为数字技术(成都)有限公司 钓鱼网站的识别方法和装置
CN102231745A (zh) * 2011-07-08 2011-11-02 盛大计算机(上海)有限公司 一种网络应用的安全系统及方法
CN102355469A (zh) * 2011-10-31 2012-02-15 北龙中网(北京)科技有限责任公司 在浏览器地址栏展示网站是否为可信验证的方法
US20130124644A1 (en) * 2011-11-11 2013-05-16 Mcafee, Inc. Reputation services for a social media identity
CN102394798B (zh) * 2011-11-16 2014-12-31 北京交通大学 一种基于多元特征的微博信息传播行为预测方法及系统
CN102571485B (zh) * 2011-12-14 2014-08-27 上海交通大学 一种在微博平台上识别机器人用户的方法
US8813239B2 (en) * 2012-01-17 2014-08-19 Bitdefender IPR Management Ltd. Online fraud detection dynamic scoring aggregation systems and methods
US8966582B1 (en) * 2012-03-20 2015-02-24 Google Inc. Automatic detection and warning regarding potentially malicious sites
US9253207B2 (en) * 2013-02-08 2016-02-02 PhishMe, Inc. Collaborative phishing attack detection
US8712907B1 (en) * 2013-03-14 2014-04-29 Credibility Corp. Multi-dimensional credibility scoring
US9178901B2 (en) * 2013-03-26 2015-11-03 Microsoft Technology Licensing, Llc Malicious uniform resource locator detection

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060168066A1 (en) * 2004-11-10 2006-07-27 David Helsper Email anti-phishing inspector
KR20080024804A (ko) * 2006-09-15 2008-03-19 인포섹(주) 트러스티드 네트워크를 이용한 파밍 방지 방법

Also Published As

Publication number Publication date
CN103546446B (zh) 2015-03-25
KR20150011849A (ko) 2015-02-02
CN103546446A (zh) 2014-01-29
US9210189B2 (en) 2015-12-08
WO2014012471A1 (en) 2014-01-23
US20140096242A1 (en) 2014-04-03

Similar Documents

Publication Publication Date Title
KR101530941B1 (ko) 피싱 웹사이트들을 검출하기 위한 방법, 시스템 및 클라이언트 단말기
US11727114B2 (en) Systems and methods for remote detection of software through browser webinjects
US11381598B2 (en) Phishing detection using certificates associated with uniform resource locators
US11671448B2 (en) Phishing detection using uniform resource locators
Vijayalakshmi et al. Web phishing detection techniques: a survey on the state‐of‐the‐art, taxonomy and future directions
US9544295B2 (en) Login method for client application and corresponding server
US12021894B2 (en) Phishing detection based on modeling of web page content
CN107204960B (zh) 网页识别方法及装置、服务器
CN102957664B (zh) 一种识别钓鱼网站的方法及装置
US20210344693A1 (en) URL risk analysis using heuristics and scanning
Aldwairi et al. Malurls: A lightweight malicious website classification based on url features
US20230126692A1 (en) System and method for blocking phishing attempts in computer networks
CN107463844B (zh) Web木马检测方法及系统
US11470114B2 (en) Malware and phishing detection and mediation platform
KR102110642B1 (ko) 패스워드 보호 질문 설정 방법 및 디바이스
CN106372202B (zh) 文本相似度计算方法及装置
Madhubala et al. Survey on malicious URL detection techniques
CN109145179B (zh) 一种爬虫行为检测方法及装置
CN102891861A (zh) 一种基于客户端的钓鱼网站检测方法及其装置
WO2019114246A1 (zh) 一种身份认证方法、服务器及客户端设备
WO2016201994A1 (zh) 域名可信度确定的方法及装置
CN107786529B (zh) 网站的检测方法、装置及系统
Singh et al. An analytical model for identifying suspected users on Twitter
Liu et al. Learning based malicious web sites detection using suspicious URLs
Lin et al. The Novel Features for Phishing Based on User Device Detection.

Legal Events

Date Code Title Description
A201 Request for examination
A302 Request for accelerated examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180530

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190530

Year of fee payment: 5