KR20070090312A - 스팸 지수 산정 방법 및 시스템 - Google Patents

스팸 지수 산정 방법 및 시스템 Download PDF

Info

Publication number
KR20070090312A
KR20070090312A KR1020060019863A KR20060019863A KR20070090312A KR 20070090312 A KR20070090312 A KR 20070090312A KR 1020060019863 A KR1020060019863 A KR 1020060019863A KR 20060019863 A KR20060019863 A KR 20060019863A KR 20070090312 A KR20070090312 A KR 20070090312A
Authority
KR
South Korea
Prior art keywords
information
question
spam index
spam
keyword
Prior art date
Application number
KR1020060019863A
Other languages
English (en)
Other versions
KR100770163B1 (ko
Inventor
박소연
최유미
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020060019863A priority Critical patent/KR100770163B1/ko
Publication of KR20070090312A publication Critical patent/KR20070090312A/ko
Application granted granted Critical
Publication of KR100770163B1 publication Critical patent/KR100770163B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/438Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/50Business processes related to the communications industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Data Mining & Analysis (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명은 질문 정보 및 상기 질문 정보와 연관된 답변 정보를 포함하는 질문-답변 정보 세트의 저장 시각 정보, 키워드 및 IP 정보와 연관된 어뷰징(abusing) 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하고, 상기 스팸 지수에 따라 상기 질문-답변 정보 세트를 적절히 처리하는 방법 및 시스템에 관한 것이다. 본 발명에 따른 스팸 지수 산정 시스템에서 수행되는 스팸 지수 산정 방법은 질문 정보 및 상기 질문 정보와 연관된 답변 정보를 포함하는 질문-답변 정보 세트(set)가 소정의 데이터베이스에 저장되는 저장 시각 정보를 확인하는 단계, 상기 질문-답변 정보 세트에 포함된 키워드를 확인하는 단계, 상기 질문-답변 정보 세트의 IP 정보를 확인하는 단계, 상기 저장 시각 정보, 상기 키워드 및 상기 IP 정보와 연관된 어뷰징(abusing) 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 단계, 및 상기 산정된 스팸 지수에 따라 상기 질문-답변 정보 세트를 처리하는 단계를 포함한다.
질문-답변 정보 세트, 저장 시각 정보, 키워드, IP, 스팸 지수 테이블

Description

스팸 지수 산정 방법 및 시스템{METHOD AND SYSTEM FOR COMPUTING SPAM INDEX}
도 1은 종래기술에 따른 웹 페이지에 게시된 스팸성 게시물을 도시한 도면이다.
도 2는 본 발명의 일실시예에 있어서, 스팸 지수 산정 방법을 도시한 흐름도이다.
도 3은 본 발명의 일실시예에 있어서, 스팸 지수 테이블의 구조를 도시한 도면이다.
도 4는 본 발명의 일실시예에 있어서, IP 정보와 연관된 스팸 지수 산정 방법을 도시한 흐름도이다.
도 5는 본 발명의 일실시예에 있어서, 저장 시각 정보와 연관된 스팸 지수 산정 방법을 도시한 흐름도이다.
도 6은 본 발명의 일실시예에 있어서, 키워드와 연관된 스팸 지수 산정 방법을 도시한 흐름도이다.
도 7은 본 발명의 일실시예에 있어서, 키워드 스팸 지수 테이블의 구조를 도시한 도면이다.
도 8은 본 발명의 다른 실시예에 있어서, 키워드와 연관된 스팸 지수 산정 방법을 도시한 흐름도이다.
도 9는 본 발명의 일실시예에 있어서, 스팸 지수 산정 시스템의 구성을 도시한 블록도이다.
<도면의 주요 부분에 대한 부호의 설명>
900: 스팸 지수 산정 시스템
910: 데이터베이스
920: 스팸 지수 테이블
930: 키워드 스팸 지수 테이블
940: 시각 정보 확인부
950: 키워드 확인부
960: IP 정보 확인부
970: 스팸 지수 산정부
980: 게시물 처리부
본 발명은 질문 정보 및 상기 질문 정보와 연관된 답변 정보를 포함하는 질문-답변 정보 세트의 저장 시각 정보, 키워드 및 IP 정보와 연관된 어뷰징(abusing) 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하고, 상기 스팸 지수에 따라 상기 질문-답변 정보 세트를 적절히 처리하는 방법 및 시스템 에 관한 것이다.
최근에 남녀노소 할 것 없이 인터넷 사용이 대중화되고 있는 반면, 인터넷 사용에 따른 피해 사례도 점차 증가하고 있다. 일례로, 인터넷 상에서 정보를 서로 공유하기 위하여 운영되고 있는 정보 제공 서비스에 유용한 정보를 등록하지 않고 유해, 성인 광고 등의 스팸성 게시물을 게시하여 많은 네티즌들의 불편함을 가중시키고 있다.
도 1은 종래기술에 따른 웹 페이지에 게시된 스팸성 게시물을 도시한 도면이다.
"네티즌 A"는 자신이 겪어보지 못한 일이나 잘 알지 못하는 정보에 대하여 다른 네티즌들의 도움을 받기 위해 몇 가지 질문 사항을 적은 질문 글을 등록하고, 웹 페이지 운영자는 질문 글을 확인하지 않고, 곧바로 웹 페이지상에 게시하도록 하였다.
도시한 바와 같이, "네티즌 B"가 "네티즌 A"의 질문 글에 대한 답변 글로 질문 사항에 대한 유용한 정보를 등록하고, 웹 페이지 운영자는 답변 글 역시 확인하지 않고 곧바로 웹 페이지상에 게시하도록 하였다. 그러나, 답변 글에 도면부호(102)와 같은 광고성 키워드가 포함되어 있는 경우, 광고성 게시물이므로 다른 네티즌에게 피해를 주기 전에 웹 페이지상에서 삭제 조치해야 마땅하다.
그러나, 종래에는 "네티즌 B"의 답변 글이 광고성 게시물임을 확인한 "네티즌 C"가 신고(101)버튼을 눌러야지만, 웹 페이지 운영자에게 "네티즌 B"의 답변 글이 광고성 게시물임이 보고되어 웹 페이지상에서 삭제 조치할 수 있었다. 또는, 스팸성 게시물이 자주 올라오는 디렉토리를 검수하여 해당 디렉토리에서 전체 게시물을 스크리닝하여 삭제하였다. 또는, 불량 단어의 중요도에 따라 기간별, 시기별 차등 검수하여 게시물을 일일이 확인하여 광고성 게시물인지 판단하여 삭제할 수 있었다. 또는, 게시자 ID나 로그인 IP를 기준으로 스팸성 게시물을 많이 등록하는 ID 리스트를 생성하여 불량 ID를 찾아내어 불량 ID로 게시된 게시글을 찾아 전부 삭제하는 방식으로 스팸성 글을 처리할 수 있었다.
따라서, 상기와 같은 방법은 웹 페이지 운영자가 게시된 게시물에 대한 신고 접수를 받지 못하면, 광고성 게시물이라 하더라도 웹 페이지상에 장기간 노출되어 네티즌들의 불만을 가중시키는 문제점이 있었다. 또한, 하루에도 몇 천 건씩 등록되는 모든 게시물에 대하여 일일이 스팸성 게시물인지 판단하여 삭제하는 방식은 스팸성 게시물에 대한 대응 속도가 늦을뿐더러 많은 인력과 비용이 소요된다는 단점이 있다. 또한, 스팸성 게시물이 장시간 노출되면 검색 신용도가 저하된다는 문제점도 발생한다.
이처럼, 실시간으로 등록되는 게시물에 대하여 웹 페이지에 곧바로 게시하지 않고, 게시하기 전에 스팸성 게시물인지 여부를 판단하여 스팸성 게시물인 경우 사전에 삭제하도록 하는 방법이 요청되고 있는 실정이다.
본 발명은 상술한 바와 같은 종래기술의 문제점을 해결하기 위해 안출된 것으로서, 질문-답변 정보 세트에 포함된 질문자/답변자 IP 정보를 판단하여 IP 정보와 연관된 어뷰징 요소에 따라 스팸 지수를 산정하고, 질문 정보/답변 정보의 저장 시각 정보를 확인하여 저장 시각 정보와 연관된 어뷰징 요소에 따라 스팸 지수를 산정하고, 상기 질문-답변 정보 세트로부터 키워드를 산출하여 키워드 스팸 지수 테이블에 저장된 키워드와 매칭하고, 상기 키워드와 연관된 어뷰징 요소에 따라 스팸 지수를 산정하고, 각 어뷰징 요소에 따라 산정된 스팸 지수의 총 합이 스팸 검출 지수보다 높은 경우 상기 질문-답변 정보 세트를 스팸성 게시물로 검출하여 일정 시간 동안 검색 목록에서 제외시키고, 시스템 운영자에게 보고함으로써, 악성 스팸을 효과적으로 발견하고 사전에 처리하는 지능화된 시스템을 제공하는 방법 및 시스템을 제공하는 것을 목적으로 한다.
또한, 본 발명은 실시간으로 등록되는 질문-답변 정보 세트에 대하여 웹 페이지 등록 전에 상기 질문-답변 정보 세트의 각 어뷰징 요소에 따라 스팸 지수를 산정하고, 상기 스팸 지수가 낮아 스팸성 게시물로 의심되지 않은 경우에만 상기 웹 페이지에 게시하도록 함으로써, 검색 신용도를 증대시키고 검색 질(Quality)을 향상시킬 수 있는 방법 및 시스템을 제공하는 것을 목적으로 한다.
또한, 본 발명은 키워드 별 차등 부여한 키워드 스팸 지수를 키워드 스팸 지수 테이블에 유지하고, 질문-답변 정보 세트로부터 키워드를 추출하여 상기 추출된 키워드를 상기 키워드 스팸 지수 테이블과 매칭하고, 키워드가 매칭되는 해당 키워드 스팸 지수에 따라 스팸 지수를 산정함으로써, 키워드 스팸 지수가 높은 키워드를 포함하는 질문-답변 정보 세트를 용이하게 스팸성 게시물로 검출하고, 상기 스팸성 게시물을 검색 목록에서 제외시켜 스팸성 게시물이 웹 페이지에 노출되지 않도록 하는 방법 및 시스템을 제공하는 것을 목적으로 한다.
상기의 목적을 달성하고, 상술한 종래기술의 문제점을 해결하기 위하여, 본 발명의 일실시예에 따른 스팸 지수 산정 시스템에서 수행되는 스팸 지수 산정 방법은 질문 정보 및 상기 질문 정보와 연관된 답변 정보를 포함하는 질문-답변 정보 세트(set)가 소정의 데이터베이스에 저장되는 저장 시각 정보를 확인하는 단계, 상기 질문-답변 정보 세트에 포함된 키워드를 확인하는 단계, 상기 질문-답변 정보 세트의 IP 정보를 확인하는 단계, 상기 저장 시각 정보, 상기 키워드 및 상기 IP 정보와 연관된 어뷰징(abusing) 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 단계, 및 상기 산정된 스팸 지수에 따라 상기 질문-답변 정보 세트를 처리하는 단계를 포함한다.
또한, 본 발명의 다른 실시예에 따른 스팸 지수 산정 시스템은 질문 정보 및 상기 질문 정보와 연관된 답변 정보를 포함하는 질문-답변 정보 세트가 소정의 데이터베이스에 저장되는 저장 시각 정보를 확인하는 시각 정보 확인부, 상기 질문-답변 정보 세트에 포함된 키워드를 확인하는 키워드 확인부, 상기 질문-답변 정보 세트의 IP 정보를 확인하는 IP 정보 확인부, 상기 저장 시각 정보, 상기 키워드 및 상기 IP 정보와 연관된 어뷰징 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 스팸 지수 산정부, 및 상기 산정된 스팸 지수에 따라 상기 질문-답변 정보 세트를 처리하는 게시물 처리부를 포함한다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다.
도 2는 본 발명의 일실시예에 있어서, 스팸 지수 산정 방법을 도시한 흐름도 이다.
단계(201)에서, 스팸 지수 산정 시스템은 질문-답변 정보 세트를 소정의 데이터베이스에 저장할 수 있다. 상기 질문-답변 정보 세트는 질문자가 등록한 질문 정보 및 상기 질문 정보를 보고 답변자가 등록한 답변 정보를 포함할 수 있다. 또한, 상기 질문 정보와 연관된 답변 정보는 하나 이상일 수 있다. 예를 들어, "이준기"라는 질문에 대해 답변자 A, 답변자 B, 답변자 C가 답변 정보를 등록하였다면, 상기 질문-답변 정보 세트는 질문 정보 하나에 3개의 답변 정보가 포함된 것이라 할 수 있다.
본 발명의 일실시예에 따르면, 상기 데이터베이스는 질문-답변 정보 세트 별 질문 정보의 저장 시각 정보, 답변 정보의 저장 시각 정보, 상기 답변 정보의 채택 시각 정보 및 상기 질문자 IP 정보, 상기 답변자 IP 정보를 포함할 수 있다.
단계(202)에서, 상기 스팸 지수 산정 시스템은 저장 시각 정보, 키워드 및 IP 정보와 연관된 각각의 어뷰징(abusing) 요소를 스팸 지수 테이블에 유지할 수 있다.
이하, 도 3을 참조하여 설명한다. 도 3은 본 발명의 일실시예에 있어서, 스팸 지수 테이블의 구조를 도시한 도면이다.
도시한 바와 같이, 스팸 지수 테이블은 IP 정보(i1 내지 i4), 저장 시각 정보(t1, t2) 및 키워드(k1 내지 k5)와 연관된 각각의 어뷰징 요소 및 상기 어뷰징 요소와 연관된 스팸 지수를 유지할 수 있다.
i1과 연관된 IP 정보의 어뷰징 요소는 질문자 IP 정보와 베스트 답변 정보의 답변자 IP 정보가 동일한 경우일 수 있다. 상기에서도 설명하였듯이, 질문 정보 하나에 답변 정보가 하나 이상일 수 있으며, 상기 베스트 답변 정보의 답변자 IP 정보는 하나 이상의 답변 정보 중 질문자가 답변으로 채택한 답변 정보의 답변자 IP 정보일 수 있다.
예를 들어, 질문자 A가 질문 정보를 등록하고, 다시 상기 질문 정보와 연관된 답변 정보를 등록한 후, 상기 답변 정보를 베스트 답변 정보로 채택하면, 질문자와 답변자의 IP 정보가 동일하다. 이런 경우, 상기 스팸 지수 산정 시스템은 상기 질문 정보와 상기 답변 정보를 포함하는 질문-답변 정보 세트에 대해서 상기 스팸 지수 테이블를 참조하여 IP 정보의 어뷰징 요소 i1과 연관된 "150"으로 스팸 지수를 산정할 수 있다.
i2과 연관된 IP 정보의 어뷰징 요소는 질문자 IP 정보와 베스트 답변 정보의 답변자 IP 정보의 C-Class가 동일한 경우일 수 있다. IP 주소는 인터넷 상에서 물리적인 네트워크 주소와 일치하는 개념으로, 상기 IP 주소를 식별하면 호스트(Host)를 식별할 수 있으므로, 웹 페이지에 게시한 게시물을 누가 등록하였는지 알 수 있다. 상기 IP 주소는 클래스(Class)로 나뉘어 있으며, 하나의 네트워크에서 모든 호스트는 동일한 prefix를 공유한다.
그 중에서도 C-Class IP는 소규모 네트워크에 적용되며, 일정 그룹에 속한 사용자의 IP 정보 중 C-Class IP 정보는 동일하다. 예를 들어, A라는 사업장에서 20대의 컴퓨터로 인터넷을 사용하는 경우, 상기 20대의 컴퓨터에 할당되는 IP 중 C-Class IP는 모두 동일한 것이다. 따라서, 일정 그룹에 속한 사용자들이 고의적 으로 스팸성 게시물을 올리는 경우, 상기 사용자들의 IP 중 C-Class IP는 모두 동일하므로, 상기 스팸 지수 산정 시스템은 C-Class IP를 확인하여 등록되는 게시물이 스팸성 게시물인지 용이하게 판단할 수 있다. 즉, 상기 질문자 IP 정보와 상기 답변자 IP 정보가 완전히 동일하지 않아도 C-Class IP가 동일하다면 동일 IP로 판단할 수 있는 것이다.
따라서, 상기와 같은 경우 상기 스팸 지수 산정 시스템은 상기 질문 정보와 상기 베스트 답변 정보를 포함하는 질문-답변 정보 세트에 대해서 상기 스팸 지수 테이블를 참조하여 IP 정보의 어뷰징 요소 i2와 연관된 "100"으로 스팸 지수를 산정할 수 있다.
i3과 연관된 IP 정보의 어뷰징 요소는 질문자 IP 정보와 일반 답변 정보의 답변자 IP 정보가 동일한 경우일 수 있다. 상기 일반 답변 정보는 답변자가 질문 정보와 연관된 답변 정보로 등록하였지만, 질문자가 답변 정보로 채택하지 않은 것일 수 있다. 이런 경우, IP 정보의 스팸 지수는 "90"으로 산정될 수 있다.
i4과 연관된 IP 정보의 어뷰징 요소는 질문자 IP 정보와 일반 답변 정보의 답변자 IP 정보의 C-Class가 동일한 경우일 수 있다. 이런 경우, IP 정보의 스팸 지수는 "80"으로 산정될 수 있다.
또한, 상기 스팸 지수 테이블은 저장 시각 정보와 연관된 어뷰징 요소 및 스팸 지수를 유지할 수 있다. 도시한 바와 같이, t1과 연관된 IP 정보의 어뷰징 요소는 질문자가 질문 정보와 연관된 답변 정보를 베스트 답변 정보로 채택하는 채택 시간이 1분 이내인 경우, 스팸 지수 "60"으로 산정할 수 있다. 또한, 베스트 답변 정보로 채택하는 채택 시간이 3분 이내인 경우, 스팸 지수 "60"으로 산정할 수 있다. 상기 채택 시간은 상기 스팸 지수 산정 시스템 운영자가 설정할 수 있다.
또한, 상기 스팸 지수 테이블은 키워드와 연관된 어뷰징 요소 및 스팸 지수를 유지할 수 있다. 도시한 바와 같이, 키워드 중 URL(k1)이 가장 높은 스팸 지수로 설정되고, 광고성 키워드(k2), 성인 텍스트(k3), 특정 음절빈도(k4), 중복 키워드(k5)에 대하여 스팸 지수가 서로 상이하게 설정될 수 있다. 상기 키워드와 연관된 스팸 지수는 키워드의 피해 사례를 고려하여 상기 스팸 지수 산정 시스템 운영자가 설정할 수 있다. 예를 들어, URL을 통하면 유해, 성인 사이트로 바로 접속이 가능하기 때문에 호기심이 강한 청소년이 접속할 수 있으므로, URL을 키워드 중 가장 높은 스팸 지수로 설정할 수 있다.
다시, 도 2를 참조하여, 단계(203a) 내지 단계(203c)에서 상기 스팸 지수 산정 시스템은 질문-답변 정보 세트의 스팸성 여부를 판단하기 위해, IP 정보, 저장 시각 정보 및 키워드를 확인할 수 있다. 상기 스팸 지수 산정 시스템은 상기 스팸 지수 테이블을 참조하여 IP 정보는 상기 i1 내지 상기 i4에서, 저장 시각 정보는 상기 t1 및 상기 t2에서, 상기 키워드는 상기 k1 내지 k5에서 각 어뷰징 요소를 확인할 수 있다. 상기 스팸 지수 산정 시스템은 상기 키워드를 확인하기 위해, 상기 질문-답변 정보 세트로부터 키워드를 추출하여 소정의 키워드 스팸 지수 테이블과 매칭할 수 있다. 키워드 확인에 대한 자세한 내용은 도 6 내지 도 8을 참조하여 후술한다.
단계(204)에서, 상기 스팸 지수 산정 시스템은 상기 질문-답변 정보 세트의 스팸 지수를 산정할 수 있다. 상기 스팸 지수 산정 시스템은 상기 IP 정보와 연관된 스팸 지수, 상기 저장 시각 정보와 연관된 스팸 지수, 상기 키워드와 연관된 스팸 지수를 모두 합산한 총 스팸 지수를 산정할 수 있다. 예를 들어, 상기 IP 정보의 스팸 지수가 "150"이고, 상기 저장 시각 정보의 스팸 지수가 "90", "상기 키워드의 스팸 지수가 "160"인 경우, 상기 스팸 지수 산정 시스템은 상기 스팸 지수를 모두 합산한 "400"을 상기 질문-답변 정보 세트의 총 스팸 지수로 산정할 수 있다.
단계(205)에서, 상기 스팸 지수 산정 시스템은 상기 총 스팸 지수가 스팸 검출 지수보다 큰 경우, 상기 질문-답변 정보 세트를 스팸성 게시물로 검출할 수 있다. 상기 스팸 검출 지수는 스팸성 게시물로 검출할 수 있는 최소한의 총 스팸 지수로 설정될 수 있으며, 또는, 상기 스팸 지수 산정 시스템 운영자가 설정할 수 있다. 예를 들어, 상기 스팸 검출 지수가 "500"으로 설정된 경우, 상기 질문-답변 정보 세트의 총 스팸 지수가 500보다 작으면, 비록 스팸 지수가 산정되었지만 스팸성 게시물로 검출하지 않을 수 있다. 상기 총 스팸 지수가 600인 경우, 상기 스팸 검출 지수보다 크니까, 상기 질문-답변 정보 세트를 스팸성 게시물로 검출할 수 있다.
단계(206)에서, 상기 스팸 지수 산정 시스템은 상기 스팸성 게시물로 검출된 상기 질문-답변 정보 세트를 검색 목록에서 제외시키고, 상기 운영자에게 보고할 수 있다. 단계(201) 내지 단계(206)은 상기 질문-답변 정보 세트가 웹 페이지에 게시되기 전에 수행되는 것으로, 상기 질문-답변 정보 세트가 스팸성 게시물이 아닌 경우에는 상기 웹 페이지에 게시된다. 그러나, 상기 스팸성 게시물로 검출된 경우에는 다른 네티즌들이 상기 질문-답변 정보 세트와 연관된 검색어를 입력하여도 상기 질문-답변 정보 세트가 검색되지 않도록 상기 검색 목록에서 삭제시킬 수 있다.
본 발명의 일실시예에 따르면, 상기 스팸 지수 산정 시스템은 소정의 일정 시간 예를 들어, 2주 정도 상기 검색 목록에서 삭제하고, 상기 스팸성 게시물과 연관된 질문자, 답변자 등의 정보를 파악하여 상기 질문자, 상기 답변자가 게시한 게시물을 일괄적으로 삭제하거나 강제 탈퇴시키는 등으로 스팸성 게시물을 게시한 사용자를 처리할 수 있다.
이처럼, 본 발명에 따르면, 악성 스팸을 효과적으로 발견하고 사전에 처리하는 지능화된 시스템을 제공할 수 있다.
도 4는 본 발명의 일실시예에 있어서, IP 정보와 연관된 스팸 지수 산정 방법을 도시한 흐름도이다.
도 4에서는 상기 단계(203a)의 IP 정보를 확인하는 절차를 구체적으로 설명한다.
단계(401) 및 단계(402)에서, 상기 스팸 지수 산정 시스템은 질문-답변 정보 세트의 질문자 IP 정보, 답변자 IP 정보를 식별할 수 있다. 본 발명의 일실시예에 따르면, 상기 스팸 지수 산정 시스템은 상기 질문자 IP 정보와 상기 답변자 IP 정보의 전체 IP 주소를 식별할 수도 있고, C-Class IP 주소를 식별할 수도 있다.
단계(403a)에서, 상기 스팸 지수 산정 시스템은 상기 데이터베이스를 참조하여 상기 질문자 IP 정보 및 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는지 여부를 판단할 수 있다. 예를 들어, 스팸성 게시물을 등록하기 위하여, 사용자 A가 질문 정보를 등록하면, 사용자 B가 답변 정보를 등록하는 방식으로 다수의 질문-답변 정보 세트를 등록한 경우, 데이터베이스에 저장된 질문-답변 정보 세트 중에 상기 사용자 A와 상기 사용자 B가 등록한 질문-답변 정보 세트가 다수 발견될 것이다.
단계(404)에서, 상기 스팸 지수 산정 시스템은 상기 질문자 IP 정보 및 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는 경우, 상기 스팸 지수 테이블을 참조하여 스팸 지수를 산정할 수 있다. 본 발명의 일실시예에 따르면, 상기 산정된 스팸 지수는 IP 정보의 스팸 지수일 수 있다.
또는, 단계(403b)에서, 상기 스팸 지수 산정 시스템은 상기 질문자 IP 정보와 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는지 여부를 판단할 수 있다. 예를 들어, 사용자 A가 질문 정보와 답변 정보를 모두 등록한 경우, 상기 질문 정보와 상기 답변 정보의 IP 주소가 동일할 것이다. 또는, 소규모의 네트워크 망을 통해 질문 정보와 그에 대한 답변 정보를 등록한 경우, 상기 질문 정보와 상기 답변 정보의 C-Class IP 주소가 동일할 것이다.
단계(404)에서, 상기 스팸 지수 산정 시스템은 상기 질문자 IP 정보와 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는 경우, 상기 스팸 지수 테이블을 참조하여 스팸 지수를 산정할 수 있다. 예를 들어, 상기 스팸 지수 산정 시스템은 전체 IP 주소가 동일한 경우 스팸 지수로 150 또는 90을, C-Class IP 주소가 동일한 경우, 스팸 지수로 100 또는 80을 상기 질문-답변 정보 세트에 대한 스팸 지수를 산정할 수 있다.
도 5는 본 발명의 일실시예에 있어서, 저장 시각 정보와 연관된 스팸 지수 산정 방법을 도시한 흐름도이다.
도 5에서는 상기 단계(203b)의 저장 시각 정보를 확인하는 절차를 구체적으로 설명한다.
단계(501)에서, 상기 스팸 지수 산정 시스템은 질문 정보가 데이터베이스에 저장된 시각 정보를 식별할 수 있다. 상기 스팸 지수 산정 시스템은 질문자로부터 질문 정보를 등록 받은 경우, 바로 웹 페이지에 게시하지 않고 상기 데이터베이스에 저장해 두고, 스팸성 게시물이 아닌 것으로 판단된 경우에만 웹 페이지에 게시할 수 있도록 한다.
단계(502)에서, 상기 스팸 지수 산정 시스템은 상기 질문 정보와 연관된 답변 정보의 저장 시각 정보를 식별할 수 있다. 상기 스팸 지수 산정 시스템은 상기 질문 정보와 연관된 모든 답변 정보의 저장 시각 정보를 식별할 수 있다.
단계(503)에서, 상기 스팸 지수 산정 시스템은 답변 정보가 답변으로 채택된 채택 시각 정보를 식별할 수 있다. 질문자는 상기 질문 정보와 연관된 답변 정보 중 하나를 답변 정보로 채택할 수 있다.
단계(504a)에서, 상기 스팸 지수 산정 시스템은 상기 질문 정보의 저장 시각 정보와 상기 답변 정보의 저장 시각 정보의 차이가 소정의 기준 등록 시간 정보보다 작은지 여부를 판단할 수 있다. 상기 기준 등록 시간 정보는 질문 정보를 보고 답변 정보를 입력하는데 소요되는 평균적인 시간으로 설정될 수 있으며, 예를 들 어, 10분, 1시간 등으로 설정될 수 있다. 일실시예로서, 질문자가 질문 정보를 등록하면 답변자가 바로 답변 정보를 등록하여 상기 기준 등록 시간 정보가 매우 짧을 수 있다. 이때, 상기 스팸 지수 산정 시스템은 상기 기준 등록 시간 정보가 매우 짧은 질문-답변 정보 세트가 존재하는 경우, 스팸성 게시물로 의심하여 스팸 지수를 산정할 수 있다.
또는, 단계(504b)에서, 상기 스팸 지수 산정 시스템은 상기 답변 정보의 저장 시각 정보와 상기 채택 시각 정보의 차이가 소정의 답변 반영 시간 정보보다 작은지 여부를 판단할 수 있다. 상기 답변 반영 시간 정보는 질문자가 답변 정보를 보고 답변으로 채택하는데 소요되는 평균적인 시간으로 설정될 수 있으며, 예를 들어, 1분, 3분, 1시간 등일 수 있다. 일실시예로서, 질문자와 답변자 두 사람이 협의하여 상기 질문자가 질문 정보를 등록하면 상기 답변자가 바로 답변 정보를 등록하고, 상기 질문자가 상기 답변 정보를 답변으로 채택하는 경우, 상기 답변 반영 시간 정보가 매우 짧을 수 있다. 이때, 상기 스팸 지수 산정 시스템은 상기 답변 반영 시간이 매우 짧은 질문-답변 정보 세트가 존재하는 경우, 스팸성 게시물로 의심하여 스팸 지수를 산정할 수 있다.
단계(504)에서, 상기 스팸 지수 산정 시스템은 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트에 대한 스팸 지수를 산정할 수 있다. 본 발명의 일실시예에 따르면, 상기 산정된 스팸 지수는 저장 시각 정보의 스팸 지수일 수 있다.
도 6은 본 발명의 일실시예에 있어서, 키워드와 연관된 스팸 지수 산정 방법 을 도시한 흐름도이다.
도 6에서는 상기 단계(203c)의 키워드를 확인하는 절차를 구체적으로 설명한다.
단계(601)에서, 상기 스팸 지수 산정 시스템은 키워드 별 키워드 스팸 지수를 키워드 스팸 지수 테이블에 유지할 수 있다.
이하 도 7를 참조하여 설명한다. 도 7은 본 발명의 일실시예에 있어서, 키워드 스팸 지수 테이블의 구조를 도시한 도면이다.
도시한 바와 같이, 키워드 스팸 지수 테이블은 URL(k1), 광고성 키워드(k2), 성인 키워드(k3) 및 특정 음절빈도(k4)와 연관된 키워드를 유지하고, 상기 키워드 별 키워드 스팸 지수를 유지할 수 있다. 상기 스팸 지수 산정 시스템은 키워드 속성을 고려하여 키워드 스팸 지수를 차등 부여할 수 있으며, 불편함을 가중시키는 키워드에 대한 지수를 높게 산정할 수 있다.
단계(602)에서, 상기 스팸 지수 산정 시스템은 질문-답변 정보 세트로부터 키워드를 추출할 수 있다. 상기 스팸 지수 산정 시스템은 상기 데이터베이스에 저장된 모든 질문-답변 정보 세트에 대해서 키워드를 추출할 수도 있지만, IP 정보와 저장 시각 정보 확인 후, 스팸성 게시물일 확률이 높은 질문-답변 정보 세트에 대해서 키워드를 추출할 수 있다.
단계(603)에서, 상기 스팸 지수 산정 시스템은 상기 추출된 키워드를 상기 키워드 스팸 지수 테이블에 저장된 키워드와 매칭할 수 있다. 상기 스팸 지수 산정 시스템은 상기 추출된 키워드를 URL, 광고성 키워드, 성인 키워드 및 특정 음절 빈도에 포함되는 키워드에 매칭시킬 수 있다.
단계(604)에서, 상기 스팸 지수 산정 시스템은 상기 키워드 스팸 지수 테이블을 참조하여 상기 추출된 키워드와 매칭되는 키워드 스팸 지수를 식별할 수 있다. 본 발명의 일실시예에 따르면, 상기 스팸 지수 산정 시스템은 동일한 키워드에 대해서는 하나의 키워드로 하여 상기 키워드 스팸 지수를 식별할 수 있다.
단계(605)에서, 상기 스팸 지수 산정 시스템은 상기 식별된 키워드 스팸 지수에 따라 상기 질문-답변 정보 세트의 스팸 지수를 산정할 수 있다. 본 발명의 일실시예에 따르면, 상기 산정된 스팸 지수는 키워드의 스팸 지수일 수 있다.
도 8은 본 발명의 다른 실시예에 있어서, 키워드와 연관된 스팸 지수 산정 방법을 도시한 흐름도이다.
단계(801)에서, 상기 스팸 지수 산정 시스템은 상기 질문-답변 정보 세트로부터 키워드를 추출할 수 있다.
단계(802)에서, 상기 스팸 지수 산정 시스템은 상기 추출된 키워드 중 반복되는 키워드가 존재하는지 여부를 식별할 수 있다. 예를 들어, 상기 스팸 지수 산정 시스템은 영어, 컴퓨터 등의 유해 광고 키워드가 반복적으로 검출되거나 박지성, 이영표 등의 인기 키워드가 반복적으로 검출되는 질문-답변 정보 세트가 존재하는지 여부를 식별할 수 있다.
단계(803)에서, 상기 스팸 지수 산정 시스템은 상기 질문-답변 정보 세트에 반복되는 키워드가 존재하는 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트의 스팸 지수를 산정할 수 있다. 도 3을 참 조하면, 중복되는 키워드에 대한 스팸 지수는 "80"이다. 본 발명의 일실시예에 따르면, 상기 스팸 지수 산정 시스템은 질문-답변 정보 세트로부터 추출된 키워드 하나 당 반복 여부를 판단하고, 그에 따른 스팸 지수를 모두 합산하여 키워드와 연관된 총 스팸 지수를 산정할 수 있다.
도 9는 본 발명의 일실시예에 있어서, 스팸 지수 산정 시스템의 구성을 도시한 블록도이다.
스팸 지수 산정 시스템(900)은 데이터베이스(910), 스팸 지수 테이블(920), 키워드 스팸 지수 테이블(930), 시각 정보 확인부(940), 키워드 확인부(950), IP 정보 확인부(960), 스팸 지수 산정부(970) 및 게시물 처리부(980)를 포함할 수 있다.
데이터베이스(910)는 질문-답변 정보 세트 별 질문 정보의 저장 시각 정보, 답변 정보의 저장 시각 정보, 상기 답변 정보의 채택 시각 정보 및 상기 질문자 IP 정보, 상기 답변자 IP 정보를 포함할 수 있다.
스팸 지수 테이블(920)은 IP 정보, 저장 시각 정보 및 키워드와 연관된 어뷰징 요소 및 상기 어뷰징 요소에 대응하는 스팸 지수를 유지할 수 있다(도 3 참조).
키워드 스팸 지수 테이블(930)은 URL, 광고성 키워드, 성인성 키워드 및 유해 음절과 연관된 키워드 및 상기 URL, 상기 광고성 키워드, 상기 성인성 키워드 및 상기 유해 음절 각각 차등 부여한 키워드 스팸 지수를 유지할 수 있다(도 7 참조).
시각 정보 확인부(940)는 질문 정보 및 상기 질문 정보와 연관된 답변 정보 를 포함하는 질문-답변 정보 세트가 소정의 데이터베이스에 저장되는 저장 시각 정보를 확인할 수 있다. 구체적으로, 시각 정보 확인부(940)는 상기 질문 정보의 저장 시각 정보와 상기 답변 정보의 저장 시각 정보를 식별하거나, 질문 정보를 입력한 질문자로부터 상기 답변 정보를 상기 질문 정보의 답변으로 채택하는 채택 시각 정보를 식별할 수 있다.
스팸 지수 산정부(970)는 상기 질문 정보의 저장 시각 정보와 상기 답변 정보의 저장 시각 정보의 차이가 소정의 기준 등록 시간 정보보다 작은 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트에 대한 스팸 지수를 산정할 수 있다. 상기 기준 등록 시간 정보는 질문 정보를 보고 답변 정보를 입력하는데 소요되는 평균적인 시간으로 설정될 수 있으며, 예를 들어, 10분, 1시간 등으로 설정될 수 있다.
또는 스팸 지수 산정부(970)는 상기 답변 정보의 저장 시각 정보와 상기 채택 시각 정보의 차이가 소정의 답변 반영 시간 정보보다 작은 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트에 대한 스팸 지수를 산정할 수도 있다. 상기 답변 반영 시간 정보는 질문자가 답변 정보를 보고 답변으로 채택하는데 소요되는 평균적인 시간으로 설정될 수 있으며, 예를 들어, 1시간 하루 등일 수 있다.
키워드 확인부(950)는 상기 질문-답변 정보 세트에 포함된 키워드를 확인할 수 있다. 키워드 확인부(950)는 상기 질문-답변 정보 세트로부터 키워드를 추출하고, 상기 추출된 키워드를 상기 키워드 스팸 지수 테이블에 저장된 키워드와 매칭 할 수 있다. 키워드 확인부(950)는 상기 질문-답변 정보 세트로부터 키워드를 추출하고, 상기 추출된 키워드 중 반복되는 키워드가 존재하는지 여부를 식별할 수 있다.
스팸 지수 산정부(970)는 상기 키워드 스팸 지수 테이블을 참조하여 상기 추출된 키워드와 매칭되는 키워드 스팸 지수를 식별하고, 상기 식별된 키워드 스팸 지수에 따라 상기 질문-답변 정보 세트의 스팸 지수를 산정할 수 있다. 상기 키워드 스팸 지수 테이블은 키워드 별로 키워드 스팸 지수가 다르므로, 키워드 스팸 지수가 높은 키워드를 포함하고 있는 질문-답변 정보 세트는 전체 스팸 지수도 높아서 스팸성 게시물로 검출될 확률이 더 높아지게 된다.
또는, 스팸 지수 산정부(970)는 상기 질문-답변 정보 세트에 반복되는 키워드가 존재하는 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트의 스팸 지수를 산정할 수도 있다.
IP 정보 확인부(960)는 상기 질문 정보를 입력한 질문자 IP 정보와 상기 답변 정보를 입력한 답변자 IP 정보를 식별하고, 상기 데이터베이스를 참조하여 상기 질문자 IP 정보 및 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는지 여부를 확인할 수 있다. 스팸 지수 산정부(970)는 상기 질문자 IP 정보 및 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트의 스팸 지수를 산정할 수 있다.
또한, IP 정보 확인부(960)는 상기 질문자 IP 정보와 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는지 여부를 확인할 수도 있다. 이때, IP 정보 확인부(960)는 상기 질문자 IP 정보와 상기 답변자 IP 정보의 전체 IP 주소가 동일한지, C-Class IP 주소가 동일한지 확인할 수 있다. 스팸 지수 산정부(970)는 상기 질문자 IP 정보와 상기 답변자 IP 정보의 전체 IP 주소가 동일한지, C-Class IP 주소가 가 동일한지에 따라 상기 스팸 지수 테이블을 참조하여 상기 질문-답변 정보 세트의 스팸 지수를 산정할 수 있다.
스팸 지수 산정부(970)는 상기 스팸 지수 테이블을 참조하여 상기 저장 시각 정보와 연관된 제1 스팸 지수, 상기 키워드와 연관된 제2 스팸 지수, 상기 IP 정보와 연관된 제3 스팸 지수를 산정하고, 상기 제1 스팸 지수, 상기 제2 스팸 지수 및 상기 제3 스팸 지수를 합산한 총 스팸 지수를 산출할 수 있다. 이에, 스팸 지수 산정부(970)는 상기 총 스팸 지수가 스팸 검출 지수보다 큰 경우, 상기 질문-답변 정보 세트를 스팸성 게시물로 검출할 수 있다. 상기 스팸 검출 지수는 스팸성 게시물로 검출할 수 있는 최소한의 총 스팸 지수로 설정될 수 있으며, 상기 스팸 지수 산정 시스템 운영자가 설정할 수 있다.
게시물 처리부(980)는 상기 산정된 스팸 지수에 따라 상기 질문-답변 정보 세트가 스팸성 게시물로 검출된 경우, 소정의 일정 시간 동안 상기 질문-답변 정보 세트를 검색 목록에서 삭제시키고, 상기 질문-답변 정보 세트를 스팸 지수 산정 시스템(900) 운영자에게 보고할 수 있다. 상기 소정의 일정 시간은 하루, 일주일, 한달 일 수 있으며, 상기 운영자가 결정할 수 있다.
본 발명에 따른 스팸 지수 산정 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해 져야 한다.
본 발명에 따르면, 질문-답변 정보 세트에 포함된 질문자/답변자 IP 정보를 판단하여 IP 정보와 연관된 어뷰징 요소에 따라 스팸 지수를 산정하고, 질문 정보/답변 정보의 저장 시각 정보를 확인하여 저장 시각 정보와 연관된 어뷰징 요소에 따라 스팸 지수를 산정하고, 상기 질문-답변 정보 세트로부터 키워드를 산출하여 키워드 스팸 지수 테이블에 저장된 키워드와 매칭하고, 상기 키워드와 연관된 어뷰징 요소에 따라 스팸 지수를 산정하고, 각 어뷰징 요소에 따라 산정된 스팸 지수의 총 합이 스팸 검출 지수보다 높은 경우 상기 질문-답변 정보 세트를 스팸성 게시물로 검출하여 일정 시간 동안 검색 목록에서 제외시키고, 시스템 운영자에게 보고함으로써, 악성 스팸을 효과적으로 발견하고 사전에 처리하는 지능화된 시스템을 제공할 수 있다.
또한, 본 발명에 따르면, 실시간으로 등록되는 질문-답변 정보 세트에 대하여 웹 페이지 등록 전에 상기 질문-답변 정보 세트의 각 어뷰징 요소에 따라 스팸 지수를 산정하고, 상기 스팸 지수가 낮아 스팸성 게시물로 의심되지 않은 경우에만 상기 웹 페이지에 게시하도록 함으로써, 검색 신용도를 증대시키고 검색 질(Quality)을 향상시킬 수 있다.
또한, 본 발명에 따르면, 키워드 별 차등 부여한 키워드 스팸 지수를 키워드 스팸 지수 테이블에 유지하고, 질문-답변 정보 세트로부터 키워드를 추출하여 상기 추출된 키워드를 상기 키워드 스팸 지수 테이블과 매칭하고, 키워드가 매칭되는 해 당 키워드 스팸 지수에 따라 스팸 지수를 산정함으로써, 키워드 스팸 지수가 높은 키워드를 포함하는 질문-답변 정보 세트를 용이하게 스팸성 게시물로 검출하고, 상기 스팸성 게시물을 검색 목록에서 제외시켜 스팸성 게시물이 웹 페이지에 노출되지 않도록 할 수 있다.

Claims (31)

  1. 스팸 지수 산정 시스템에서 수행되는 스팸 지수 산정 방법에 있어서,
    질문 정보 및 상기 질문 정보와 연관된 답변 정보를 포함하는 질문-답변 정보 세트(set)가 소정의 데이터베이스에 저장되는 저장 시각 정보를 확인하는 단계;
    상기 질문-답변 정보 세트에 포함된 키워드를 확인하는 단계;
    상기 질문-답변 정보 세트의 IP 정보를 확인하는 단계;
    상기 저장 시각 정보, 상기 키워드 및 상기 IP 정보와 연관된 어뷰징(abusing) 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 단계; 및
    상기 산정된 스팸 지수에 따라 상기 질문-답변 정보 세트를 처리하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  2. 제1항에 있어서,
    질문-답변 정보 세트 별 IP 정보를 상기 데이터베이스에 저장하는 단계를 더 포함하고,
    상기 질문-답변 정보 세트의 IP 정보를 확인하는 상기 단계는,
    상기 질문 정보를 입력한 질문자 IP 정보와 상기 답변 정보를 입력한 답변자 IP 정보를 식별하는 단계; 및
    상기 데이터베이스를 참조하여 상기 질문자 IP 정보 및 상기 답변자 IP 정보 가 동일한 질문-답변 정보 세트가 존재하는지 여부를 확인하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  3. 제2항에 있어서,
    상기 질문-답변 정보 세트의 IP 정보를 확인하는 상기 단계는,
    상기 데이터베이스를 참조하여 상기 질문자 IP 정보와 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는지 여부를 확인하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  4. 제3항에 있어서,
    상기 질문자 IP 정보와 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는지 여부를 확인하는 상기 단계는,
    상기 질문자 IP 정보와 상기 답변자 IP 정보의 C-Class IP 정보가 동일한지 여부를 판단하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  5. 제1항에 있어서,
    상기 저장 시각 정보, 상기 키워드 및 상기 IP 정보와 연관된 어뷰징 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 상기 단계는,
    상기 저장 시각 정보, 상기 키워드 및 상기 IP 정보와 연관된 각각의 어뷰징 요소를 스팸 지수 테이블에 유지하는 단계;
    상기 스팸 지수 테이블을 참조하여 상기 저장 시각 정보, 상기 키워드 및 상기 IP 정보와 연관된 어뷰징 요소를 식별하는 단계; 및
    상기 식별된 어뷰징 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  6. 제5항에 있어서,
    상기 IP 정보와 연관된 어뷰징 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 상기 단계는,
    상기 질문자 IP 정보 및 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  7. 제5항에 있어서,
    상기 IP 정보와 연관된 어뷰징 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 상기 단계는,
    상기 질문자 IP 정보와 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상 기 질문-답변 정보 세트의 스팸 지수를 산정하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  8. 제1항에 있어서,
    질문-답변 정보 세트가 소정의 데이터베이스에 저장되는 저장 시각 정보를 확인하는 상기 단계는,
    상기 질문 정보의 저장 시각 정보와 상기 답변 정보의 저장 시각 정보를 식별하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  9. 제5항에 있어서,
    상기 저장 시각 정보와 연관된 어뷰징 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 상기 단계는,
    상기 질문 정보의 저장 시각 정보와 상기 답변 정보의 저장 시각 정보의 차이가 소정의 기준 등록 시간 정보보다 작은 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트에 대한 스팸 지수를 산정하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  10. 제1항에 있어서,
    질문-답변 정보 세트가 소정의 데이터베이스에 저장되는 저장 시각 정보를 확인하는 상기 단계는,
    상기 답변 정보의 저장 시간 정보를 식별하는 단계; 및
    상기 답변 정보에 대한 질문 정보를 입력한 질문자로부터 상기 답변 정보를 상기 질문 정보의 답변으로 채택하는 채택 시각 정보를 식별하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  11. 제5항에 있어서,
    상기 저장 시각 정보와 연관된 어뷰징 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 상기 단계는,
    상기 답변 정보의 저장 시각 정보와 상기 채택 시각 정보의 차이가 소정의 답변 반영 시간 정보보다 작은 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트에 대한 스팸 지수를 산정하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  12. 제1항에 있어서,
    상기 질문-답변 정보 세트에 포함된 키워드를 확인하는 상기 단계는,
    키워드 별 키워드 스팸 지수를 키워드 스팸 지수 테이블에 유지하는 단계;
    상기 질문-답변 정보 세트로부터 키워드를 추출하는 단계; 및
    상기 추출된 키워드를 상기 키워드 스팸 지수 테이블에 저장된 키워드와 매 칭하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  13. 제12항에 있어서,
    키워드 별 키워드 스팸 지수를 키워드 스팸 지수 테이블에 유지하는 상기 단계는,
    URL, 광고성 키워드, 성인성 키워드 및 유해 음절 각각의 키워드 스팸 지수를 차등 부여하는 단계; 및
    상기 URL, 상기 광고성 키워드, 상기 성인성 키워드 및 상기 유해 음절과 연관된 키워드를 상기 키워드 스팸 지수 테이블에 유지하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  14. 제13항에 있어서,
    상기 키워드와 연관된 어뷰징 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 상기 단계는,
    상기 키워드 스팸 지수 테이블을 참조하여 상기 추출된 키워드와 매칭되는 키워드 스팸 지수를 식별하는 단계;
    상기 식별된 키워드 스팸 지수에 따라 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  15. 제1항에 있어서,
    상기 질문-답변 정보 세트에 포함된 키워드를 확인하는 상기 단계는,
    상기 질문-답변 정보 세트로부터 키워드를 추출하는 단계; 및
    상기 추출된 키워드 중 반복되는 키워드가 존재하는지 여부를 식별하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  16. 제5항에 있어서,
    상기 키워드와 연관된 어뷰징 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 상기 단계는,
    상기 질문-답변 정보 세트에 반복되는 키워드가 존재하는 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  17. 제5항에 있어서,
    상기 저장 시각 정보, 상기 키워드 및 상기 IP 정보와 연관된 어뷰징 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 상기 단계는,
    상기 스팸 지수 테이블을 참조하여 상기 저장 시각 정보와 연관된 제1 스팸 지수, 상기 키워드와 연관된 제2 스팸 지수, 상기 IP 정보와 연관된 제3 스팸 지수 를 산정하는 단계;
    상기 제1 스팸 지수, 상기 제2 스팸 지수 및 상기 제3 스팸 지수를 합산한 총 스팸 지수를 산출하는 단계; 및
    상기 총 스팸 지수가 스팸 검출 지수보다 큰 경우, 상기 질문-답변 정보 세트를 스팸성 게시물로 검출하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  18. 제1항에 있어서,
    상기 산정된 스팸 지수에 따라 상기 질문-답변 정보 세트를 처리하는 상기 단계는,
    상기 질문-답변 정보 세트가 스팸성 게시물로 검출된 경우, 소정의 일정 시간 동안 상기 질문-답변 정보 세트를 검색 목록에서 삭제시키는 단계; 및
    상기 질문-답변 정보 세트를 상기 스팸 지수 산정 시스템 운영자에게 보고하는 단계
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 방법.
  19. 제1항 내지 제18항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체.
  20. 질문 정보 및 상기 질문 정보와 연관된 답변 정보를 포함하는 질문-답변 정 보 세트가 소정의 데이터베이스에 저장되는 저장 시각 정보를 확인하는 시각 정보 확인부;
    상기 질문-답변 정보 세트에 포함된 키워드를 확인하는 키워드 확인부;
    상기 질문-답변 정보 세트의 IP 정보를 확인하는 IP 정보 확인부;
    상기 저장 시각 정보, 상기 키워드 및 상기 IP 정보와 연관된 어뷰징 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 스팸 지수 산정부; 및
    상기 산정된 스팸 지수에 따라 상기 질문-답변 정보 세트를 처리하는 게시물 처리부
    를 포함하는 것을 특징으로 하는 스팸 지수 산정 시스템.
  21. 제20항에 있어서,
    상기 데이터베이스는 질문-답변 정보 세트 별 IP 정보를 저장하고,
    상기 IP 정보 확인부는,
    상기 질문 정보를 입력한 질문자 IP 정보와 상기 답변 정보를 입력한 답변자 IP 정보를 식별하고, 상기 데이터베이스를 참조하여 상기 질문자 IP 정보 및 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는지 여부를 확인하거나, 상기 질문자 IP 정보와 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는지 여부를 확인하는 것을 특징으로 하는 스팸 지수 산정 시스템.
  22. 제20항에 있어서,
    상기 저장 시각 정보, 상기 키워드 및 상기 IP 정보와 연관된 각각의 어뷰징 요소를 유지하는 스팸 지수 테이블를 더 포함하고,
    상기 스팸 지수 산정부는,
    상기 스팸 지수 테이블을 참조하여 상기 저장 시각 정보, 상기 키워드 및 상기 IP 정보와 연관된 어뷰징 요소를 식별하고, 상기 식별된 어뷰징 요소에 기초하여 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 것을 특징으로 하는 스팸 지수 산정 시스템.
  23. 제22항에 있어서,
    상기 스팸 지수 산정부는,
    상기 질문자 IP 정보 및 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트의 스팸 지수를 산정하거나, 또는 상기 질문자 IP 정보와 상기 답변자 IP 정보가 동일한 질문-답변 정보 세트가 존재하는 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 것을 특징으로 하는 스팸 지수 산정 시스템.
  24. 제20항에 있어서,
    상기 시각 정보 확인부는,
    상기 질문 정보의 저장 시각 정보와 상기 답변 정보의 저장 시각 정보를 식 별하거나, 상기 답변 정보의 저장 시간 정보를 식별하고 상기 답변 정보에 대한 질문 정보를 입력한 질문자로부터 상기 답변 정보를 상기 질문 정보의 답변으로 채택하는 채택 시각 정보를 식별하는 것을 특징으로 하는 스팸 지수 산정 시스템.
  25. 제22항에 있어서,
    상기 스팸 지수 산정부는,
    상기 질문 정보의 저장 시각 정보와 상기 답변 정보의 저장 시각 정보의 차이가 소정의 기준 등록 시간 정보보다 작은 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트에 대한 스팸 지수를 산정하거나 상기 답변 정보의 저장 시각 정보와 상기 채택 시각 정보의 차이가 소정의 답변 반영 시간 정보보다 작은 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트에 대한 스팸 지수를 산정하는 것을 특징으로 하는 스팸 지수 산정 시스템.
  26. 제20항에 있어서,
    키워드 별 키워드 스팸 지수를 유지하는 키워드 스팸 지수 테이블을 더 포함하고,
    상기 키워드 확인부는,
    상기 질문-답변 정보 세트로부터 키워드를 추출하고, 상기 추출된 키워드를 상기 키워드 스팸 지수 테이블에 저장된 키워드와 매칭하는 것을 특징으로 하는 스 팸 지수 산정 시스템.
  27. 제26항에 있어서,
    상기 키워드 스팸 지수 테이블은,
    URL, 광고성 키워드, 성인성 키워드 및 유해 음절 각각의 키워드 스팸 지수를 차등 부여하고, 상기 URL, 상기 광고성 키워드, 상기 성인성 키워드 및 상기 유해 음절과 연관된 키워드를 유지하는 것을 특징으로 하는 스팸 지수 산정 시스템.
  28. 제27항에 있어서,
    상기 스팸 지수 산정부는,
    상기 키워드 스팸 지수 테이블을 참조하여 상기 추출된 키워드와 매칭되는 키워드 스팸 지수를 식별하고, 상기 식별된 키워드 스팸 지수에 따라 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 것을 특징으로 하는 스팸 지수 산정 방법.
  29. 제22항에 있어서,
    상기 키워드 확인부는,
    상기 질문-답변 정보 세트로부터 키워드를 추출하고, 상기 추출된 키워드 중 반복되는 키워드가 존재하는지 여부를 식별하고,
    상기 스팸 지수 산정부는,
    상기 질문-답변 정보 세트에 반복되는 키워드가 존재하는 경우, 상기 스팸 지수 테이블을 참조하여 해당 어뷰징 요소에 따라 상기 질문-답변 정보 세트의 스팸 지수를 산정하는 것을 특징으로 하는 스팸 지수 산정 시스템.
  30. 제22항에 있어서,
    상기 스팸 지수 산정부는,
    상기 스팸 지수 테이블을 참조하여 상기 저장 시각 정보와 연관된 제1 스팸 지수, 상기 키워드와 연관된 제2 스팸 지수, 상기 IP 정보와 연관된 제3 스팸 지수를 산정하고, 상기 제1 스팸 지수, 상기 제2 스팸 지수 및 상기 제3 스팸 지수를 합산한 총 스팸 지수를 산출하고, 상기 총 스팸 지수가 스팸 검출 지수보다 큰 경우, 상기 질문-답변 정보 세트를 스팸성 게시물로 검출하는 것을 특징으로 하는 스팸 지수 산정 시스템.
  31. 제20항에 있어서,
    상기 게시물 처리부는,
    상기 질문-답변 정보 세트가 스팸성 게시물로 검출된 경우, 소정의 일정 시간 동안 상기 질문-답변 정보 세트를 검색 목록에서 삭제시키고, 상기 질문-답변 정보 세트를 상기 스팸 지수 산정 시스템 운영자에게 보고하는 것을 특징으로 하는 스팸 지수 산정 시스템.
KR1020060019863A 2006-03-02 2006-03-02 스팸 지수 산정 방법 및 시스템 KR100770163B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060019863A KR100770163B1 (ko) 2006-03-02 2006-03-02 스팸 지수 산정 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060019863A KR100770163B1 (ko) 2006-03-02 2006-03-02 스팸 지수 산정 방법 및 시스템

Publications (2)

Publication Number Publication Date
KR20070090312A true KR20070090312A (ko) 2007-09-06
KR100770163B1 KR100770163B1 (ko) 2007-10-26

Family

ID=38688722

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060019863A KR100770163B1 (ko) 2006-03-02 2006-03-02 스팸 지수 산정 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR100770163B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010062063A2 (ko) * 2008-11-03 2010-06-03 엔에이치엔비즈니스플랫폼 주식회사 브라우저 기반 어뷰징 방지 방법 및 시스템
KR101594452B1 (ko) * 2015-09-08 2016-02-17 국방과학연구소 온라인 게시물의 유언비어 식별장치
KR20210134581A (ko) * 2019-11-21 2021-11-10 주식회사 카카오 대화형 서비스를 제공하는 서버 및 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100452910B1 (ko) * 2002-02-22 2004-10-14 주식회사 네오위즈 대량 메일의 파악에 기반한 스팸 메일 필터링 방법 및 장치
US7171450B2 (en) * 2003-01-09 2007-01-30 Microsoft Corporation Framework to enable integration of anti-spam technologies
US7711779B2 (en) 2003-06-20 2010-05-04 Microsoft Corporation Prevention of outgoing spam
KR20050078311A (ko) * 2004-01-29 2005-08-05 주식회사 케이티 다중 메일 서버의 스팸메일 탐지 및 관리 방법과 그 시스템
US7353241B2 (en) 2004-03-24 2008-04-01 Microsoft Corporation Method, medium and system for recovering data using a timeline-based computing environment
KR20050102753A (ko) * 2004-04-21 2005-10-27 장수진 스팸메일 차단 시스템 및 그 방법

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010062063A2 (ko) * 2008-11-03 2010-06-03 엔에이치엔비즈니스플랫폼 주식회사 브라우저 기반 어뷰징 방지 방법 및 시스템
WO2010062063A3 (ko) * 2008-11-03 2010-07-29 엔에이치엔비즈니스플랫폼 주식회사 브라우저 기반 어뷰징 방지 방법 및 시스템
US8997253B2 (en) 2008-11-03 2015-03-31 Nhn Business Platform Corporation Method and system for preventing browser-based abuse
KR101594452B1 (ko) * 2015-09-08 2016-02-17 국방과학연구소 온라인 게시물의 유언비어 식별장치
KR20210134581A (ko) * 2019-11-21 2021-11-10 주식회사 카카오 대화형 서비스를 제공하는 서버 및 방법

Also Published As

Publication number Publication date
KR100770163B1 (ko) 2007-10-26

Similar Documents

Publication Publication Date Title
US10735401B2 (en) Online identity reputation
CN104298719B (zh) 基于社交行为进行用户的类别划分、广告投放方法和系统
US9152681B2 (en) Social media identity discovery and mapping for banking and government
CN105338001A (zh) 识别钓鱼网站的方法及装置
KR20130083838A (ko) 임팩트 분석 및 영향 트랙킹을 포함한 복수의 미디어에 대한 데이터 수집, 트랙킹 및 분석
US20170337638A1 (en) Entity page recommendation based on post content
US20140156341A1 (en) Identifying potential customers using social networks
US8965867B2 (en) Measuring and altering topic influence on edited and unedited media
KR20080098232A (ko) 키워드 비교를 이용한 광고 검수 방법 및 시스템
US10565311B2 (en) Method for updating a knowledge base of a sentiment analysis system
KR100792700B1 (ko) 신경망을 가지는 협업 필터링 시스템을 이용하여 클릭패턴에 기초한 웹 광고 추천 방법 및 그 시스템
US20210051174A1 (en) Combo-squatting domain linkage
US11757916B1 (en) Methods and apparatus for analyzing and scoring digital risks
KR101868421B1 (ko) 웹 상의 콘텐츠들에 대한 거짓 여부 판별 지원 장치 및 그 동작 방법
JP2022548501A (ja) 暗号通貨取引を分析するためのデータ取得方法及び装置
KR102407056B1 (ko) Sns 사용자 채널에 대한 공개 데이터를 수집하고, 수집된 공개 데이터를 기반으로 영향력을 측정하는 시스템 및 방법
US10510014B2 (en) Escalation-compatible processing flows for anti-abuse infrastructures
Mahbub et al. Online recruitment fraud detection: A study on contextual features in australian job industries
KR100770163B1 (ko) 스팸 지수 산정 방법 및 시스템
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
Roy et al. Unveiling the risks of NFT promotion scams
Li et al. Detecting Promotion Campaigns in Community Question Answering.
Price et al. Resource networks of pet scam websites
CN116318974A (zh) 站点风险识别方法、装置、计算机可读介质及电子设备
Duan et al. Cloaker catcher: a client-based cloaking detection system

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Re-publication after modification of scope of protection [patent]
FPAY Annual fee payment

Payment date: 20121011

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130926

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140925

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20151008

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20161010

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20181008

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20191001

Year of fee payment: 13