KR100742130B1 - Method and system for detecting spam based on keyword - Google Patents

Method and system for detecting spam based on keyword Download PDF

Info

Publication number
KR100742130B1
KR100742130B1 KR1020060012510A KR20060012510A KR100742130B1 KR 100742130 B1 KR100742130 B1 KR 100742130B1 KR 1020060012510 A KR1020060012510 A KR 1020060012510A KR 20060012510 A KR20060012510 A KR 20060012510A KR 100742130 B1 KR100742130 B1 KR 100742130B1
Authority
KR
South Korea
Prior art keywords
keyword
spam
data
spam detection
group
Prior art date
Application number
KR1020060012510A
Other languages
Korean (ko)
Inventor
김선배
도관표
김태일
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020060012510A priority Critical patent/KR100742130B1/en
Application granted granted Critical
Publication of KR100742130B1 publication Critical patent/KR100742130B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

A method and a system for detecting spam based on keywords are provided to reduce human resource/expense required for managing spam data by extracting the keywords from data registered by the user, matching the keywords with each word group, and automatically determining/deleting the spam based on a matching result. A spam keyword database(801) stores spam keywords for a harmful AD(ADvertisement) keyword group, an adult AD keyword group, and a URL(Uniform Resource Locator)/phone number group. A keyword extractor(802) extracts the keywords from the data registered by the user. A frequency calculator(807) calculates a matching frequency between the extracted keywords and each word group. A case number calculator(808) calculates the number of cases matching the extracted keywords to one word group. A spam data determiner(805) determines whether the data registered by the user is the spam or not based on the calculated frequency and case number. A data processor(806) processes the registered data depending on a determination result.

Description

키워드 기반 스팸 검출 방법 및 시스템{METHOD AND SYSTEM FOR DETECTING SPAM BASED ON KEYWORD} Keyword-based spam detection method and system {METHOD AND SYSTEM FOR DETECTING SPAM BASED ON KEYWORD}

도 1은 종래기술에 따른 웹 페이지에 게시된 스팸 데이터를 도시한 도면이다.1 is a diagram illustrating spam data posted on a web page according to the prior art.

도 2는 본 발명의 일실시예에 있어서, 키워드 기반 스팸 검출 방법을 도시한 흐름도이다.2 is a flowchart illustrating a keyword-based spam detection method according to an embodiment of the present invention.

도 3은 본 발명의 일실시예에 있어서, 스팸 검출 키워드 데이터베이스의 구조를 도시한 도면이다.3 is a diagram illustrating a structure of a spam detection keyword database according to one embodiment of the present invention.

도 4 및 도 5는 본 발명의 일실시예에 있어서, 스팸 데이터 검출 화면을 도시한 도면이다.4 and 5 are diagrams illustrating a spam data detection screen according to an embodiment of the present invention.

도 6은 본 발명의 일실시예에 있어서, 스팸 검출 수치를 산출하여 스팸 여부를 판단하는 방법을 도시한 흐름도이다.6 is a flowchart illustrating a method of determining whether spam is calculated by calculating a spam detection value according to an embodiment of the present invention.

도 7은 본 발명의 일실시예에 있어서, 스팸 검출 비율을 산출하여 스팸 여부를 판단하는 방법을 도시한 흐름도이다.7 is a flowchart illustrating a method for determining whether spam is calculated by calculating a spam detection rate according to an embodiment of the present invention.

도 8은 본 발명의 일실시예에 있어서, 키워드 기반 스팸 검출 시스템의 구성을 도시한 블록도이다.8 is a block diagram illustrating a configuration of a keyword-based spam detection system according to an embodiment of the present invention.

<도면의 주요 부분에 대한 부호의 설명><Explanation of symbols for main parts of the drawings>

800: 키워드 기반 스팸 검출 시스템800: keyword-based spam detection system

801: 스팸 검출 키워드 데이터베이스801: spam detection keyword database

802: 키워드 추출부802: keyword extraction unit

803: 윈도우 설정부803: window setting unit

804: 단어군 매칭부804: word group matching unit

805: 스팸 데이터 판단부805: spam data determination unit

806: 데이터 처리부806: data processing unit

807: 빈도수 산출부807: frequency calculator

808: 가짓수 산출부808: gadget counting unit

809: 가중치 부여부809: weighting unit

810: 스팸 검출 수치 산출부810: spam detection value calculator

811: 스팸 검출 비율 산출부811: spam detection rate calculator

812: 키워드 음절 분할부812: Keyword syllable divider

본 발명은 사용자로부터 등록되는 데이터에 포함된 키워드를 추출하고, 상기 키워드와 각 단어군을 매칭시켜 상기 매칭 결과에 따라 상기 데이터의 스팸 여부를 판단하고, 상기 판단 결과에 따라 상기 데이터를 적절히 처리하는 방법 및 시스템에 관한 것이다.The present invention extracts a keyword included in data registered from a user, matches the keyword and each word group, determines whether the data is spam based on the matching result, and appropriately processes the data according to the determination result. It relates to a method and a system.

도 1은 종래기술에 따른 웹 페이지에 게시된 스팸 데이터를 도시한 도면이다.1 is a diagram illustrating spam data posted on a web page according to the prior art.

초고속 인터넷 망의 발달로 인하여 사용자들은 언제 어디서든지 인터넷을 이용할 수 있게 되었다. 따라서, 사용자들은 포털 사이트에 접속하여 정보를 습득하거나 뉴스, 영화 등을 볼 수도 있게 되었다. 그러나, 인터넷 사용이 증가함에 따라 인터넷 사용에 따른 피해도 증가하고 있다. 그 일례로, 다수의 사람들에게 무작위로 이메일을 전송하거나 광고성 정보를 게시하는 등의 스팸(spam)을 꼽을 수 있다. 이제 스팸은 덧글, 댓글 등 다양한 형태로 인터넷 상에서 행해지고 있다.With the development of high speed internet network, users can use the internet anytime and anywhere. Therefore, users can access portal sites to obtain information or to watch news and movies. However, as the use of the Internet increases, the damage caused by the use of the Internet also increases. One example is spam, such as sending random emails or posting advertising information to a large number of people. Spam is now being done on the Internet in various forms, including comments and comments.

도시한 바와 같이, 웹 페이지 상에 게시된 컨텐츠 등에 네티즌들의 생각을 적어놓을 수 있는 공간에 광고성 스팸(102, 103)을 게시하여 다른 네티즌들에게 피해를 주고 있다. 도면부호(102)에서와 같이, 영어 학원을 홍보하는 광고글을 게시하거나 도면부호(103)에서와 같이, URL을 게시하여 호기심이 많은 청소년들로 하여금 웹 페이지의 방문을 유도하도록 한다.As shown in the figure, advertisement spam 102 and 103 are posted in a space where the netizens' thoughts can be written on content posted on a web page, thereby damaging other netizens. As shown at 102, post an advertisement promoting an English language school or as shown at 103 to post a URL to induce curious youth to visit a web page.

그러나, 웹 페이지는 남녀노소에 상관없이 모두 접속이 가능하고 네티즌들로부터 게시된 데이터는 아무런 여과 없이 그대로 게시되기 때문에, 청소년들에게 해로운 성인 광고를 게시하게 되면 청소년들의 정신 건강에 해로울 수 있다. 또한, 네티즌들의 생각을 서로 토론하는 공간에 광고성 글을 많이 게시되어 있으면 웹 페이지에서 토론 공간을 운영하는 본래의 목적을 달성하기 어렵다는 문제점이 있다.However, since web pages are accessible to both young and old, and the data posted by netizens is posted without any filtering, posting adult advertisements that are harmful to adolescents can be harmful to their mental health. In addition, there is a problem that it is difficult to achieve the original purpose of operating a discussion space on a web page if a lot of advertising articles are posted in the space to discuss the ideas of netizens.

이에 따른 대책으로 종래에는 도면부호(101)에서와 같이, 광고성 글인 경우 네티즌들이 "신고"버튼을 누르면, 웹 페이지 관리자에게 보고되어 광고성 글이 웹 페이지상에 게시되지 않도록 조치를 취하고 있다. 또한, 웹 페이지 관리자가 일일이 네티즌들로부터 등록되는 데이터가 스팸 데이터인지 확인하고, 스팸 데이터로 확인된 경우 삭제하는 방식으로 스팸 데이터로부터 네티즌들을 보호할 수 있었다. As a countermeasure, conventionally, as indicated by the reference numeral 101, when the netizens press the "report" button in the case of the advertising article, the web page manager is reported so that the advertising article is not posted on the web page. In addition, the web page manager was able to protect the netizens from the spam data by checking whether the data registered from the netizens is spam data and deleting the spam data.

그러나 이러한 방식은 실시간으로 등록되는 전체 데이터에 대해 확인하는 일은 쉽지 않을 뿐더러 그에 따른 인력을 충원하기 위해 많은 비용이 필요하다는 문제점이 제기된다. 또한, 웹 페이지에 글을 올리는 일이 일반화되고 있는 반면에 허위광고, 성인광고에 관련된 글도 많이 게시되어 건전한 인터넷 문화를 정착해 나가는데 악영향을 초래하고 있다.However, this method raises a problem that it is not easy to check the entire data registered in real time, and it requires a lot of money to recruit the manpower. In addition, while posting a web page is becoming more common, a lot of articles related to false advertisements and adult advertisements have been posted, which has a bad influence on the establishment of a healthy internet culture.

이처럼, 스팸으로부터 청소년들을 보호하고 건전한 인터넷 문화를 정착해 나가기 위해 웹 페이지에서 자동으로 등록되는 데이터에 대한 스팸을 판단하고 그에 따른 조치를 취할 수 있도록 하는 방법이 요청되고 있는 실정이다.As such, there is a demand for a method for judging spam and automatically taking action on data automatically registered on web pages in order to protect teenagers from spam and establish a healthy internet culture.

본 발명은 상술한 바와 같은 종래기술의 문제점을 해결하기 위해 안출된 것으로서, 사용자로부터 등록되는 데이터에 포함된 키워드를 추출하여 상기 키워드와 각 단어군을 매칭시켜 상기 매칭 결과에 따라 상기 데이터의 스팸 여부를 판단하고, 상기 판단 결과에 따라 상기 데이터를 적절히 처리함으로써, 종래와 같이 시스템 관리자가 일일이 스팸 데이터를 판단하여 삭제할 필요없이 시스템이 자동으로 스팸 데이터를 판단하여 삭제 처리할 수 있도록 하여 스팸 데이터를 관리하는 인력 절감 및 그에 따른 비용을 절감할 수 있는 방법 및 시스템을 제공하는 것을 목적으로 한다.The present invention has been made to solve the problems of the prior art as described above, by extracting a keyword included in the data registered from the user to match the keyword and each word group to determine whether the data is spam based on the matching result And appropriately process the data according to the determination result, so that the system can automatically determine and delete the spam data and process the spam data without the system administrator having to determine and delete the spam data as usual. It is an object of the present invention to provide a method and a system capable of reducing manpower and thus cost.

또한, 본 발명은 데이터의 특정 영역을 스캔하여 상기 특정 영역에 포함된 키워드를 추출하는 윈도우를 이용하여 사용자로부터 등록되는 데이터의 특정 영역을 스캔하고, 상기 특정 영역에 포함된 키워드를 추출하여 스팸 데이터 여부를 판단함으로써, 상기 데이터의 전체적인 내용이 유해한 내용이 아니더라도 상기 데이터의 일부분에 유해 내용이 포함되어 있다면 스팸 데이터로 판단하여 처리함으로써 정확하게 스팸 데이터를 판단할 수 있는 방법 및 시스템을 제공하는 것을 목적으로 한다.The present invention also scans a specific region of data registered from a user by using a window for scanning a specific region of data and extracting a keyword included in the specific region, and extracts a keyword included in the specific region to spam data. The purpose of the present invention is to provide a method and system for accurately determining spam data by determining whether spam data is included in a part of the data even if the entire contents of the data are not harmful contents. do.

또한, 본 발명은 데이터에 포함된 키워드를 음절 별로 분할하여 스팸 검출 키워드와 매칭시킴으로써 스팸 검출 키워드 데이터베이스에 등록되어 있지 않은 신조어 등이 도배되는 경우에도 스팸 데이터로 검출할 수 있어서 스팸 데이터 검출 확률을 높일 수 있는 방법 및 시스템을 제공하는 것을 목적으로 한다.In addition, the present invention divides the keywords contained in the data by syllables and matches them with the spam detection keywords, so that even if new words or the like that are not registered in the spam detection keyword database are detected, they can be detected as spam data, thereby increasing the probability of detecting spam data. It is an object of the present invention to provide a method and system.

또한, 본 발명은 데이터로부터 띄어쓰기나 특수 기호를 제외한 새로운 스트링을 만들어 스팸 검출 키워드와 매칭시킴으로써, 띄어쓰기에 따른 스팸 검출을 용이하게 수행할 수 있는 방법 및 시스템을 제공하는 것을 목적으로 한다.In addition, an object of the present invention is to provide a method and system that can easily detect spam by spacing by creating a new string excluding spaces or special symbols from the data and matching the spam detection keyword.

또한, 본 발명은 데이터에 포함된 키워드 중 중복되는 키워드가 있는 경우 상기 중복되는 키워드와 각 단어군을 매칭시켜 스팸 데이터 유무를 판단할 수 있는 방법 및 시스템을 제공하는 것을 목적으로 한다.Another object of the present invention is to provide a method and system for determining whether spam data exists by matching the duplicate keyword with each word group when there are duplicate keywords among the keywords included in the data.

또한, 본 발명은 웹 페이지를 운영하는 시스템에서 자동으로 사용자로부터 등록되는 데이터에 대하여 실시간으로 스팸 여부를 판단하여 스팸 데이터로 판단된 경우, 웹 페이지에서 삭제함으로써, 스팸 데이터로부터 청소년을 보호하고 건전한 인터넷 문화를 정착시켜 나가는데 큰 역할을 수행할 수 있는 방법 및 시스템을 제공하는 것을 목적으로 한다.In addition, the present invention is to determine whether spam in real time with respect to the data automatically registered from the user in the system operating a web page, if it is determined that the spam data, by deleting from the web page, to protect the youth from spam data and healthy Internet It aims to provide a method and system that can play a large role in establishing a culture.

상기의 목적을 달성하고, 상술한 종래기술의 문제점을 해결하기 위하여, 본 발명의 일실시예에 따른 키워드 기반 스팸 검출 방법은 각 단어군 별로 스팸 검출 키워드를 스팸 검출 키워드 데이터베이스에 유지하는 단계, 사용자로부터 등록되는 데이터에 포함된 키워드를 추출하는 단계, 상기 스팸 검출 키워드 데이터베이스를 참조하여 상기 추출된 키워드와 상기 각 단어군을 매칭시키는 단계, 상기 매칭 결과에 기초하여 상기 데이터의 스팸 여부를 판단하는 단계, 및 상기 판단 결과에 따라 상기 데이터를 처리하는 단계를 포함한다.In order to achieve the above object and to solve the above-mentioned problems of the prior art, the keyword-based spam detection method according to an embodiment of the present invention, maintaining a spam detection keyword for each word group in the spam detection keyword database, the user Extracting a keyword included in data registered from the; matching the extracted keyword with each word group by referring to the spam detection keyword database; determining whether the data is spam based on the matching result; And processing the data according to the determination result.

또한, 본 발명의 다른 실시예에 따른 키워드 기반 스팸 검출 방법은 각 단어군 별로 스팸 검출 키워드를 스팸 검출 키워드 데이터베이스에 유지하는 단계, 데이터의 특정 영역을 스캔하여 상기 특정 영역에 포함된 키워드를 추출하는 윈도우(window)를 설정하는 단계, 상기 윈도우를 이용하여 사용자로부터 등록되는 데이터의 특정 영역을 스캔하고, 상기 특정 영역에 포함된 키워드를 추출하는 단계, 상기 스팸 검출 키워드 데이터베이스를 참조하여 상기 추출된 키워드와 상기 각 단어군을 매칭시키는 단계, 상기 매칭 결과에 기초하여 상기 데이터의 스팸 여부를 판단하는 단계, 및 상기 판단 결과에 따라 상기 데이터를 처리하는 단계를 포함한다.In addition, the keyword-based spam detection method according to another embodiment of the present invention maintains a spam detection keyword for each word group in a spam detection keyword database, scanning the specific region of the data to extract the keyword included in the specific region Setting a window; scanning a specific region of data registered from a user using the window; extracting a keyword included in the specific region; referring to the spam detection keyword database; extracting the extracted keyword And matching each word group, determining whether the data is spam based on the matching result, and processing the data according to the determination result.

또한, 본 발명의 또 다른 실시예에 따른 키워드 기반 스팸 검출 시스템은 각 단어군 별로 스팸 검출 키워드를 유지하는 스팸 검출 키워드 데이터베이스, 사용자 로부터 등록되는 데이터에 포함된 키워드를 추출하는 키워드 추출부, 상기 스팸 검출 키워드 데이터베이스를 참조하여 상기 추출된 키워드와 상기 각 단어군을 매칭시키는 단어군 매칭부, 상기 매칭 결과에 기초하여 상기 데이터의 스팸 여부를 판단하는 스팸 데이터 판단부, 및 상기 판단 결과에 따라 상기 데이터를 처리하는 데이터 처리부를 포함한다.In addition, the keyword-based spam detection system according to another embodiment of the present invention is a spam detection keyword database for maintaining a spam detection keyword for each word group, a keyword extraction unit for extracting a keyword contained in the data registered from the user, the spam A word group matching unit for matching the extracted keyword with each word group with reference to a detection keyword database, a spam data determination unit determining whether the data is spam based on the matching result, and the data according to the determination result It includes a data processing unit for processing.

이하에서는 첨부된 도면을 참조하여 본 발명에 따른 다양한 실시예를 상세히 설명한다.Hereinafter, various embodiments of the present disclosure will be described in detail with reference to the accompanying drawings.

도 2는 본 발명의 일실시예에 있어서, 키워드 기반 스팸 검출 방법을 도시한 흐름도이다.2 is a flowchart illustrating a keyword-based spam detection method according to an embodiment of the present invention.

단계(201)에서, 키워드 기반 스팸 검출 시스템은 각 단어군 별로 스팸 검출 키워드를 스팸 검출 키워드 데이터베이스에 유지할 수 있다. In step 201, the keyword-based spam detection system may maintain a spam detection keyword in a spam detection keyword database for each word group.

이하, 도 3을 참조하여 설명한다. 도 3은 본 발명의 일실시예에 있어서, 스팸 검출 키워드 데이터베이스의 구조를 도시한 도면이다.A description with reference to FIG. 3 is as follows. 3 is a diagram illustrating a structure of a spam detection keyword database according to one embodiment of the present invention.

스팸 검출 키워드 데이터베이스는 유해 광고 키워드군, 성인 광고 키워드군, URL 및 전화번호군 별로 스팸(spam) 검출 키워드를 유지할 수 있다. 상기 유해 광고 키워드군은 컴퓨터, 영어, 보건, 편입학원 등으로 홍보성 성격의 스팸 검출 키워드를 포함할 수 있다. 상기 성인 광고 키워드군은 19세 미만의 청소년들에게 해로운 성인 광고성 성격의 스팸 검출 키워드를 포함할 수 있다. 또한, URL 및 전화번호군은 상기 유해 광고 키워드군과 상기 성인 광고 키워드군과 연관된 웹 페이지의 URL 또는 전화번호일 수 있다.The spam detection keyword database may maintain spam detection keywords by harmful advertisement keyword groups, adult advertisement keyword groups, URLs, and phone number groups. The harmful advertising keyword group may include a spam detection keyword of a promotional nature such as a computer, English, health, transfer school. The adult advertising keyword group may include a spam detection keyword having an adult advertising personality that is harmful to adolescents under 19 years old. In addition, the URL and the telephone number group may be a URL or a telephone number of a web page associated with the harmful advertisement keyword group and the adult advertisement keyword group.

도시하지는 않았지만, 상기 스팸 검출 키워드 데이터베이스는 인명 사전, 어미사전/어미음절 사전, 제외어 사전(white list)을 포함할 수 있다. 상기 인명 사전은 인기 검색어 중 특별히 인명을 포함하는 것으로, 특정 인명이 도배된 경우를 스팸 데이터로 검출하기 위한 것이다. 상기 어미사전/어미음절 사전은 데이터에 어미에만 쓰이는 단어 비율이 낮은 경우를 스팸 데이터로 검출하기 위한 것이다. 상기 제외어 사전은 "누드교과서"와 같은 단어들이 "누드"로 매칭되는 것을 막기 위한 것으로, 상기 제외어 사전에 등록된 단어는 매칭 대상에서 제외시킬 수 있다. Although not shown, the spam detection keyword database may include a life dictionary, a dictionary of mother / syllables, and a white list of negatives. The personal dictionary includes a special name among popular search terms, and is used to detect when a specific personal name is infested as spam data. The dictionary / mother syllable dictionary is for detecting a case where the word ratio used only for the mother to the data is low as spam data. The negative dictionary is for preventing words such as "nude textbooks" from being matched with "nude", and the words registered in the negative dictionary may be excluded from the matching object.

또한, 본 발명의 일실시예에 따르면, 상기 스팸 검출 키워드 데이터베이스는 각 단어군 별로 가중치를 부여하여 유지할 수 있다. 예를 들어, 상기 유해 광고 키워드군은 가중치 "1", 상기 성인 광고 키워드군은 가중치 "3", 상기 URL 및 전화번호군은 가중치 "5"로 설정할 수 있다. 이에 따라 키워드 기반 스팸 검출 시스템은 사용자로부터 등록되는 데이터에 포함된 키워드 중에 상기 URL 및 전화번호군에 포함된 키워드가 하나라도 있다면 상기 데이터를 스팸 데이터로 판단할 수 있다. 즉, 상기 사용자로부터 등록된 데이터에 가중치가 높은 군에 속하는 키워드가 하나라도 포함되어 있다면 다른 스팸 검출 키워드를 더 찾을 필요없이 곧바로 스팸 데이터로 판단함으로써, 시간을 절약할 수 있다.In addition, according to an embodiment of the present invention, the spam detection keyword database may be maintained by assigning a weight to each word group. For example, the harmful advertisement keyword group may be set to a weight "1", the adult advertisement keyword group to a weight "3", and the URL and telephone number group to a weight "5". Accordingly, the keyword-based spam detection system may determine the data as spam data if at least one keyword included in the URL and the telephone number group is included in the data registered from the user. That is, if any of the keywords belonging to the group having a high weight is included in the data registered from the user, it is possible to save time by directly determining the spam data without having to find another spam detection keyword.

또한, 본 발명의 또 다른 실시예에 따르면, 상기 키워드 기반 스팸 검출 시스템의 관리자가 직접 단어 군별 스팸 검출 키워드를 입력하여 상기 스팸 검출 키워드 데이터베이스에 유지할 수 있다.In addition, according to another embodiment of the present invention, an administrator of the keyword-based spam detection system may directly input a spam detection keyword for each word group and maintain it in the spam detection keyword database.

다시, 도 2를 참조하여, 단계(202)에서, 상기 키워드 기반 스팸 검출 시스템 은 사용자로부터 등록되는 데이터에 포함된 키워드를 추출할 수 있다. 상기 데이터는 웹 페이지상에 상기 사용자로부터 등록되는 텍스트, 이미지, 동영상 등을 모두 포함할 수 있다. 본 발명의 일실시예에 따르면, 상기 키워드 기반 스팸 검출 시스템은 상기 데이터를 전체적으로 스캔하고, 소정의 문자변환 프로그램을 이용하여 상기 스캔된 데이터를 문자로 변환하여 키워드를 추출할 수 있다. Again, referring to FIG. 2, in step 202, the keyword-based spam detection system may extract keywords included in data registered from a user. The data may include text, an image, a video, and the like registered from the user on a web page. According to an embodiment of the present invention, the keyword-based spam detection system may scan the data as a whole and extract the keyword by converting the scanned data into text using a predetermined text conversion program.

또한, 상기 키워드 기반 스팸 검출 시스템은 띄어쓰기 또는 특수 기호를 제외한 키워드만을 상기 스팸 검출 키워드 데이터베이스에 매칭시키기 위하여 상기 데이터로부터 띄어쓰기 또는 특수 기호를 제외한 새로운 스트링을 생성할 수 있다. 예를 들어, "02-999-1234 편입 학원으로 오세요~~^^"인 데이터에는 키워드 말고, "~~^^"인 특수 기호가 포함되어 있고, "편입학원"에는 띄어쓰기가 포함되어 있다. 따라서, 상기 키워드 기반 스팸 검출 시스템은 상기 데이터를 "029991234편입학원으로오세요"인 새로운 스트링으로 생성하여, 상기 스팸 검출 키워드 데이터베이스의 각 단어군과 매칭시킬 수 있다. 즉, 상기 키워드 기반 스팸 검출 시스템은 "편입학원"이 "편 입학원", "편입 학원", "편입학 원" 등으로 표시된 경우에도 상기 스팸 검출 키워드 데이터베이스에 "편입학원"으로 매칭시킬 수 있다.In addition, the keyword-based spam detection system may generate a new string excluding spaces or special symbols from the data in order to match only keywords except spaces or special symbols to the spam detection keyword database. For example, "02-999-1234 come to the transfer school ~~ ^^" data contains a special symbol "~~ ^^" not a keyword, and "transfer school" includes a space. Accordingly, the keyword-based spam detection system may generate the data as a new string of "Come to 029991234 Transfer School" and match each word group of the spam detection keyword database. That is, the keyword-based spam detection system can match the spam detection keyword database as "transfer school" even when "transfer school" is displayed as "admission school", "transfer school", "transfer school".

또한, 상기 키워드 기반 스팸 검출 시스템은 상기 데이터의 특정 영역을 스캔하여, 상기 특정 영역에 포함된 키워드를 추출하는 윈도우(window)를 이용하여 상기 데이터에 포함된 키워드를 추출할 수 있다. 상기 키워드 기반 스팸 검출 시스템은 상기 데이터의 스팸 여부를 판단할 때 상기 데이터의 전체 영역에 포함된 키워드를 추출하여 판단하거나 상기 데이터의 전체 영역이 아닌 특정 영역에 포함 된 키워드를 추출하여 판단할 수 있다.In addition, the keyword-based spam detection system may scan a specific region of the data and extract a keyword included in the data using a window for extracting a keyword included in the specific region. When determining whether the data is spam, the keyword-based spam detection system may extract the keyword included in the entire area of the data or determine the keyword included in the specific area instead of the entire area of the data. .

따라서, 본 발명에 따르면, 상기 윈도우를 이용하여 사용자로부터 등록되는 데이터의 특정 영역을 스캔하고, 상기 특정 영역에 포함된 키워드를 추출하여 스팸 데이터 여부를 판단함으로써, 상기 데이터의 전체적인 내용이 유해한 내용이 아니더라도 상기 데이터의 일부분에 유해 내용이 포함되어 있다면 스팸 데이터로 판단하여 처리함으로써 정확하게 스팸 데이터를 판단할 수 있다.Therefore, according to the present invention, by scanning a specific region of the data registered from the user using the window, and extracting the keywords included in the specific region to determine whether spam data, the entire contents of the data is harmful If not, if the harmful data is included in a part of the data, the spam data can be judged accurately by determining that the spam data.

또한, 본 발명의 다른 실시예에 따르면, 상기 키워드 기반 스팸 검출 시스템은 상기 키워드를 음절 별로 분할하고, 상기 스팸 검출 키워드 데이터베이스를 참조하여 상기 분할된 음절과 상기 각 단어군을 매칭시킬 수 있다. 예를 들어, 상기 키워드 기반 스팸 검출 시스템은 "영어"라는 키워드에 대하여 "영", "어"로 분할하고, 상기 분할된 "영" 또는 "어"에 대하여 상기 각 단어군을 매칭시킬 수 있다. 따라서, 상기 키워드 기반 스팸 검출 시스템은 상기 스팸 검출 키워드 데이터베이스에 등록되어 있지 않은 신조어 등이 상기 데이터에 도배되어 있는 경우에도 제한적이나마 상기 데이터를 스팸 데이터로 검출할 수 있다.In addition, according to another embodiment of the present invention, the keyword-based spam detection system may divide the keyword by syllable, and match the divided syllable with each word group by referring to the spam detection keyword database. For example, the keyword-based spam detection system may divide "English" or "word" for the keyword "English" and match each word group with respect to the divided "English" or "word". . Accordingly, the keyword-based spam detection system may detect the data as spam data even if the new word or the like that is not registered in the spam detection keyword database is limited to the data.

또한, 본 발명의 또 다른 실시예에 따르면, 상기 키워드 기반 스팸 검출 시스템은 상기 데이터에 포함된 키워드 중 중복되는 키워드를 추출할 수 있다. 상기 데이터에 포함된 키워드 중 2회 이상 중복되는 키워드가 존재하는 경우, 상기 키워드 기반 스팸 검출 시스템은 상기 데이터가 스팸 데이터 또는 장난성 데이터로 의심하고, 상기 중복되는 키워드에 대한 스팸 여부를 판단할 수 있다.Further, according to another embodiment of the present invention, the keyword-based spam detection system may extract a duplicate keyword among the keywords included in the data. If there are two or more duplicate keywords among the keywords included in the data, the keyword-based spam detection system may suspect that the data is spam data or mischievous data, and determine whether or not the duplicate keywords are spam. have.

상기 키워드 기반 스팸 검출 시스템은 상기 스팸 검출 키워드 데이터베이스 를 참조하여 상기 추출된 키워드와 상기 각 단어군을 매칭시키고, 상기 매칭 결과에 따라 상기 데이터의 스팸 여부를 판단할 수 있다. 이를 위해, 상기 키워드 기반 스팸 검출 시스템은 이하 단계(203) 내지 단계(205)를 수행할 수 있다.The keyword-based spam detection system may match the extracted keyword with each word group by referring to the spam detection keyword database, and determine whether the data is spam based on the matching result. To this end, the keyword-based spam detection system may perform the following steps (203) to (205).

단계(203)에서, 상기 키워드 기반 스팸 검출 시스템은 상기 추출된 키워드에 대하여 상기 각 단어군에 매칭되는 빈도수를 산출할 수 있다. 상기 빈도수는 상기 유해 광고 키워드군, 상기 성인 광고 키워드군, 상기 URL 및 전화번호군에 속하는 모든 스팸 검출 키워드와 상기 키워드가 매칭되는 수를 의미할 수 있다. 즉, 상기 키워드 기반 스팸 검출 시스템은 상기 각 단어군과 상관없이 상기 키워드가 상기 스팸 검출 키워드 데이터베이스에 저장된 상기 스팸 검출 키워드에 매칭되는 수를 산출할 수 있다.In operation 203, the keyword-based spam detection system may calculate a frequency matched with each word group with respect to the extracted keyword. The frequency may refer to a number of matching of the spam detection keyword and the keyword belonging to the harmful advertisement keyword group, the adult advertisement keyword group, the URL, and the phone number group. That is, the keyword-based spam detection system may calculate the number of matches of the keyword with the spam detection keyword stored in the spam detection keyword database regardless of each word group.

또한, 본 발명의 일실시예에 따르면, 상기 키워드 기반 스팸 검출 시스템은 상기 데이터에 대하여 한글/영어 토글 단어의 빈도수, 어미/조사 빈도수 또는 긴 어절 검출 빈도수를 산출할 수도 있다. 예를 들어, 상기 키워드 기반 스팸 검출 시스템은 "영어"라는 한글 키워드에 대해 "duddj"로 표기된 경우에도 스팸 데이터의 유무를 판단하거나, "를", "가", "이" 등의 조사 빈도수가 어미 빈도수에 비해 현저히 작게 추출되는지 여부를 판단하여 스팸 데이터의 유무를 판단할 수도 있다. In addition, according to an embodiment of the present invention, the keyword-based spam detection system may calculate the frequency of the Hangul / English toggle word, the ending / search frequency, or the long word detection frequency for the data. For example, the keyword-based spam detection system determines the presence or absence of spam data even when "duddj" is indicated for a Korean keyword "English", or the frequency of surveys such as "," "a", "this", and the like. The presence or absence of spam data may be determined by determining whether the extraction is significantly smaller than the mother frequency.

단계(204)에서, 상기 키워드 기반 스팸 검출 시스템은 상기 추출된 키워드에 대하여 상기 각 단어군에 매칭되는 가짓수를 산출할 수 있다. 상기 가짓수는 상기 유해 광고 키워드군에 속하는 스팸 검출 키워드에 매칭되는 수, 상기 성인 광고 키워드군에 속하는 스팸 검출 키워드에 매칭되는 수, 상기 URL 및 전화번호군에 속하 는 스팸 검출 키워드에 매칭되는 수를 의미할 수 있다. 즉, 상기 키워드 기반 스팸 검출 시스템은 상기 가짓수를 이용하여 상기 키워드가 상기 단어군 중 어디에 많이 매칭되는지 여부를 판단할 수 있다.In step 204, the keyword-based spam detection system may calculate the number of pieces of the matched keyword for each word group. The number of matches is a number matching a spam detection keyword belonging to the harmful advertising keyword group, a number matching a spam detection keyword belonging to the adult advertising keyword group, and a number matching a spam detection keyword belonging to the URL and phone number group. Can mean. That is, the keyword-based spam detection system may determine whether the keyword matches a large number of the word group using the number of pieces.

또한, 상기 키워드 기반 스팸 검출 시스템은 상기 추출된 키워드 중 동일한 키워드에 대하여 하나의 키워드로 판단하여 상기 가짓수를 산출할 수 있다. 상기 키워드 기반 스팸 검출 시스템은 상기 데이터에서 "컴퓨터"가 2회이상 추출되는 경우, "컴퓨터"에 대하여 상기 유해 광고 키워드군에 속하는 하나의 가짓수로 산출할 수 있다.In addition, the keyword-based spam detection system may calculate the number of pieces by determining the same keyword among the extracted keywords as one keyword. When the keyword-based spam detection system extracts the "computer" from the data two or more times, the keyword-based spam detection system may calculate the number of one computer belonging to the harmful advertisement keyword group with respect to the "computer".

또한, 상기 도 2에서 설명한 바와 같이, 상기 키워드 기반 스팸 검출 시스템은 상기 산출된 가짓수를 상기 각 단어군 별로 부여된 가중치와 연관하여 스팸 데이터인지 여부를 판단할 수 있다. 상기 키워드 기반 스팸 검출 시스템은 가중치가 높게 설정된 단어군에 속하는 스팸 검출 키워드에 매칭되는 키워드가 있는 경우, 스팸 데이터로 판단함으로써, 빠르고 정확하게 스팸 데이터를 검출할 수 있다.In addition, as described above with reference to FIG. 2, the keyword-based spam detection system may determine whether the calculated number of pieces of spam data is spam data in association with a weight assigned to each word group. The keyword-based spam detection system can detect spam data quickly and accurately by determining that there is a keyword matching a spam detection keyword belonging to a word group set to a high weight, as spam data.

단계(205)에서, 상기 키워드 기반 스팸 검출 시스템은 상기 빈도수 및 상기 가짓수를 기초하여 상기 데이터의 스팸 여부를 판단할 수 있다. 예를 들어, 상기 키워드 기반 스팸 검출 시스템은 상기 빈도수가 200회가 넘고, 상기 가짓수가 20이 넘는 경우, 상기 데이터를 스팸 데이터로 판단할 수 있다. 상기 키워드 기반 스팸 검출 시스템은 상기 판단 결과에 따라 상기 데이터를 처리할 수 있다.In step 205, the keyword-based spam detection system may determine whether the data is spam based on the frequency and the number of pieces. For example, the keyword-based spam detection system may determine the data as spam data when the frequency is more than 200 and the number is 20. The keyword-based spam detection system may process the data according to the determination result.

본 발명의 일실시예에 따르면, 상기 키워드 기반 스팸 검출 시스템은 상기 빈도수 및 상기 가짓수를 이용하여 스팸 검출 수치 또는 스팸 검출 비율을 산출하 여 스팸 데이터인지 여부를 판단할 수 있다. 이에 대한 상세한 설명은 도 6 및 도 7에서 후술하기로 한다.According to an embodiment of the present invention, the keyword-based spam detection system may determine whether or not the spam data by calculating the spam detection value or the spam detection rate by using the frequency and the number of false. Detailed description thereof will be described later with reference to FIGS. 6 and 7.

단계(206)에서, 상기 키워드 기반 스팸 검출 시스템은 상기 데이터가 스팸 데이터로 판단된 경우, 상기 키워드 기반 스팸 검출 시스템 관리자에게 상기 데이터에 대한 스팸 여부를 보고(report)할 수 있다. 상기 관리자는 상기 데이터가 스팸 데이터인 경우, 웹 페이지 상에서 상기 데이터를 삭제 처리할 수 있다. 또한, 상기 키워드 기반 스팸 검출 시스템은 상기 보고와 동시에 자동으로 상기 데이터를 삭제 처리할 수도 있다.In step 206, if it is determined that the data is spam data, the keyword-based spam detection system may report whether the data is spam to the keyword-based spam detection system administrator. When the data is spam data, the administrator may delete the data on a web page. In addition, the keyword-based spam detection system may automatically delete the data at the same time as the report.

단계(207)에서, 상기 키워드 기반 스팸 검출 시스템은 상기 데이터를 삭제하여, 웹 페이지상에 상기 데이터가 게시되지 않도록 조치할 수 있다. 본 발명의 일실시예에 따르면, 상기 키워드 기반 스팸 검출 시스템은 상기 데이터를 등록한 상기 사용자의 메일 주소를 소정의 데이터베이스에 저장하여 이후에 상기 사용자가 데이터를 등록하면 상기 데이터를 바로 게시하지 않고 스팸 데이터인지 유무를 먼저 확인한 후 게시할 수 있다.In step 207, the keyword-based spam detection system may delete the data to prevent the data from being posted on a web page. According to an embodiment of the present invention, the keyword-based spam detection system stores the e-mail address of the user who registered the data in a predetermined database so that if the user later registers the data, the spam data is not immediately posted. You can check your presence before posting.

도 4 및 도 5는 본 발명의 일실시예에 있어서, 스팸 데이터 검출 화면을 도시한 도면이다.4 and 5 are diagrams illustrating a spam data detection screen according to an embodiment of the present invention.

도 4에서 도시한 바와 같이, 도면부호(401)에서, 상기 키워드 기반 스팸 검출 시스템에서 사용자로부터 등록되는 데이터를 도시한 도면이다. 상기 키워드 기반 스팸 검출 시스템은 데이터(401)에 포함된 키워드를 추출하여 상기 추출된 키워드와 상기 스팸 검출 키워드 데이터베이스에 저장된 각 단어군을 매칭시켜 데이터 (401)의 스팸 유무를 판단할 수 있다.As shown in FIG. 4, reference numeral 401 illustrates data registered from a user in the keyword-based spam detection system. The keyword-based spam detection system may determine whether spam exists in the data 401 by extracting a keyword included in the data 401 and matching the extracted keyword with each word group stored in the spam detection keyword database.

본 발명의 일실시예에 따르면, 데이터(401)는 웹 페이지 상에 게시된 블로그, 포스트에 맞춘 html 형식으로 등록되므로, 정확한 스팸 데이터 유무를 판단하기 위해서는 상기 html을 삭제하는 것이 용이하다. 따라서, 상기 키워드 기반 스팸 검출 시스템은 데이터(401)에서 상기 html을 모두 제거한 후, 상기 데이터의 텍스트를 단순 연결(concatenation)하여 스팸 데이터 유무를 판단할 수 있다. 상기 데이터의 텍스트는 글제목, 사용자 별명, 블로그 이름, 포스트카테고리 또는 본문으로 구성될 수 있고, 상기 키워드 기반 스팸 검출 시스템은 상기 데이터의 텍스트에 포함된 키워드를 추출할 수 있다.According to an embodiment of the present invention, since the data 401 is registered in a html format that is matched with a blog or a post posted on a web page, it is easy to delete the html to determine the existence of correct spam data. Accordingly, the keyword-based spam detection system may determine whether spam data exists by removing all the html from the data 401 and then simply concatenating the text of the data. The text of the data may be composed of a text title, a user nickname, a blog name, a post category, or a body, and the keyword-based spam detection system may extract a keyword included in the text of the data.

도면부호(402)에서, 상기 키워드 기반 스팸 검출 시스템은 상기 html을 제거한 텍스트 데이터에서 반복되는 특정 키워드를 추출한 도면이다. 상기 특정 키워드는 "게임프로그래밍", "게임그래픽", "max", "일러스트" 등으로, 악의적으로 상기 특정 키워드를 반복하여 검색결과에 노출시키려한 흔적을 볼 수 있다.In reference numeral 402, the keyword-based spam detection system extracts a specific keyword repeated from text data from which the html is removed. The specific keywords are "game programming", "game graphics", "max", "illustration", and the like, and the malicious keyword may be repeatedly displayed in the search results.

도 5에서 도시한 바와 같이, 도면부호(501)은 데이터(401)의 스팸 타입일 수 있다. 상기 데이터의 스팸 타입은 데이터(401)가 유해 광고 키워드군, 성인 광고 키워드군, URL 및 전화번호군 중 어디에 속하는지 여부를 파악할 수 있다. 상기 유해 광고 키워드군을 "1", 상기 성인 광고 키워드군을 "2", 상기 URL 및 전화번호군을 "3"으로 설정하고, 데이터(401)의 빈도수 및 가짓수에 기초하여 상기 데이터의 스팸 타입을 결정할 수 있다.As shown in FIG. 5, reference numeral 501 may be a spam type of data 401. The spam type of the data can determine whether the data 401 belongs to the harmful advertisement keyword group, the adult advertisement keyword group, the URL, and the telephone number group. The harmful advertisement keyword group is set to "1", the adult advertisement keyword group is set to "2", and the URL and telephone number group are set to "3", and the spam type of the data is based on the frequency and the number of the data 401. Can be determined.

도면부호(502)는 데이터(401)가 상기 유해 광고 키워드군에 속하는 스팸 검 출 키워드의 비율일 수 있다. "RateHarm(28)"로 표기된 스팸 검출 비율은 데이터(401)에 포함된 키워드가 상기 스팸 검출 키워드와 매칭되는 빈도수(503) 및 가짓수(504)를 기초하여 산출될 수 있다. 또한, 상기 스팸 검출 비율은 데이터(401)의 글길이(=음절수)를 이용하여 산출될 수도 있다. 즉, 상기 스팸 검출 비율은 데이터(401)에 포함된 키워드가 매칭되는 단어군에 포함되는 음절수와 빈도수(503) 및 가짓수(504)를 기초하여 산출될 수도 있다. Reference numeral 502 may be a ratio of spam detection keywords whose data 401 belongs to the harmful advertisement keyword group. The spam detection rate indicated as "RateHarm 28" may be calculated based on the frequency 503 and the number 504 of the keywords included in the data 401 matching the spam detection keywords. In addition, the spam detection rate may be calculated using the text length (= syllable number) of the data 401. That is, the spam detection rate may be calculated based on the number of syllables, the frequency 503 and the number 504 included in the word group to which the keywords included in the data 401 match.

또한, 도면부호(505)는 데이터(401)에 포함됨 키워드의 전체 음절 개수이고, 도면부호(506)은 최빈음절 리스트 상위 10개를 표시한 것이다. 신조어 등이 데이터에 도배되는 경우도 검출하기 위하여, 상기 추출된 키워드를 음절로 분할한 후, 상기 분할된 음절에 대하여 상기 스팸 검출 키워드와 매칭시킬 수 있다. 도시한 바와 같이 데이터(401)에 포함된 음절 중 가장 많은 빈도수를 보인 것은 "그"로 174번 추출되었음을 알 수 있다. 그 다음으로 "게"가 164번 추출되었음을 알 수 있는 것이다.In addition, reference numeral 505 denotes the total number of syllables of the keywords included in the data 401, and reference numeral 506 denotes the top ten syllable list. In order to detect a case where a new word or the like is spread over the data, the extracted keyword may be divided into syllables, and then matched with the spam detection keyword. As shown, it can be seen that the highest frequency among the syllables included in the data 401 has been extracted 174 times. Next, you can see that the "crab" has been extracted 164 times.

이처럼, 본 발명에 따르면, 데이터에 포함된 키워드를 음절 별로 분할하여 스팸 검출 키워드와 매칭시킴으로써 스팸 검출 확률을 높일 수 있다.As described above, according to the present invention, the spam detection probability may be increased by dividing the keyword included in the data by syllable and matching the spam detection keyword.

도 6은 본 발명의 일실시예에 있어서, 스팸 검출 수치를 산출하여 스팸 여부를 판단하는 방법을 도시한 흐름도이다.6 is a flowchart illustrating a method of determining whether spam is calculated by calculating a spam detection value according to an embodiment of the present invention.

상기 키워드 기반 스팸 검출 시스템은 빈도수 및 가짓수를 기초하여 스팸 검출 수치를 산출한 후, 상기 스팸 검출 수치에 따라 상기 데이터의 스팸 여부를 판단할 수 있다. 이를 위해, 상기 키워드 기반 스팸 검출 시스템은 상기 도 2에서 단계(205) 및 단계(206) 사이에 단계(601) 내지 단계(603)을 수행할 수 있다.The keyword-based spam detection system may calculate the spam detection value based on the frequency and the number of false, and then determine whether the data is spam based on the spam detection value. To this end, the keyword-based spam detection system may perform steps 601 to 603 between step 205 and step 206 in FIG. 2.

단계(601)에서, 상기 키워드 기반 스팸 검출 시스템은 상기 빈도수 및 상기 가짓수를 기초하여 스팸 검출 수치를 산출할 수 있다. 상기 스팸 검출 수치는 상기 빈도수와 상기 가짓수를 수치화한 것으로, 상기 가짓수에 대한 가중치를 고려하여 산출할 수 있다. 예를 들어, 상기 빈도수를 100으로 상기 가짓수를 20으로 수치화하고, 이에 따른 상기 스팸 검출 수치가 60으로 산출될 수 있다. In step 601, the keyword-based spam detection system may calculate a spam detection value based on the frequency and the number of pieces. The spam detection value is obtained by quantifying the frequency and the number of pieces, and may be calculated in consideration of the weight of the number of pieces. For example, the frequency may be 100 and the false number is 20, and thus the spam detection value may be calculated as 60.

단계(602)에서, 상기 키워드 기반 스팸 검출 시스템은 상기 스팸 검출 수치가 소정의 기준 수치 이상인지 여부를 판단할 수 있다. 상기 소정의 기준 수치는 일반적으로 스팸 데이터로 판단되는 데이터의 스팸 검출 수치의 문턱값(Threshold)으로 설정될 수 있다. 즉, 데이터의 상기 스팸 검출 수치가 50 이상인 경우, 상기 데이터를 스팸 데이터로 판단된다면 상기 키워드 기반 스팸 검출 시스템은 상기 소정의 기준 수치를 50으로 설정할 수 있다.In step 602, the keyword-based spam detection system may determine whether the spam detection value is above a predetermined reference value. The predetermined reference value may be set as a threshold of spam detection values of data generally determined to be spam data. That is, when the spam detection value of the data is 50 or more, if the data is determined to be spam data, the keyword-based spam detection system may set the predetermined reference value to 50.

단계(603)에서, 상기 키워드 기반 스팸 검출 시스템은 상기 스팸 검출 수치가 소정의 기준 수치 이상인 경우, 상기 데이터를 스팸 데이터로 판단할 수 있다. 이후에, 상기 키워드 기반 스팸 검출 시스템은 관리자에게 상기 데이터의 스팸 여부를 보고하고, 상기 데이터를 삭제 조치할 수 있다.In operation 603, when the spam detection value is equal to or greater than a predetermined reference value, the keyword-based spam detection system may determine the data as spam data. Subsequently, the keyword-based spam detection system may report whether the data is spam to an administrator and delete the data.

도 7은 본 발명의 일실시예에 있어서, 스팸 검출 비율을 산출하여 스팸 여부를 판단하는 방법을 도시한 흐름도이다.7 is a flowchart illustrating a method for determining whether spam is calculated by calculating a spam detection rate according to an embodiment of the present invention.

상기 키워드 기반 스팸 검출 시스템은 빈도수 및 가짓수를 기초하여 스팸 검출 비율을 산출한 후, 상기 스팸 검출 비율에 따라 상기 데이터의 스팸 여부를 판 단할 수 있다. 이를 위해, 상기 키워드 기반 스팸 검출 시스템은 상기 도 2에서 단계(205) 및 단계(206) 사이에 단계(701) 내지 단계(703)을 수행할 수 있다.The keyword-based spam detection system may calculate the spam detection rate based on the frequency and the number of pieces, and then determine whether the data is spam based on the spam detection rate. To this end, the keyword-based spam detection system may perform steps 701 to 703 between step 205 and step 206 in FIG. 2.

단계(701)에서, 상기 키워드 기반 스팸 검출 시스템은 상기 빈도수 및 상기 가짓수를 기초하여 스팸 검출 비율 산출할 수 있다. 상기 스팸 검출 비율은 상기 데이터에 포함된 전체 키워드를 100으로 보고 상기 빈도수와 상기 가짓수를 백분율로 환산하여 상기 빈도수와 상기 가짓수의 수량이 전체 키워드에서 얼마나 되는지 퍼센트(%)로 산출할 수 있다. 예를 들어, 상기 도 5에서 도시한 보와 같이, 상기 빈도수가 231회이고, 상기 가짓수가 17가지인 경우, 상기 스팸 검출 비율이 28%로 산출될 수 있다. 또한, 상기 키워드 기반 스팸 검출 시스템은 데이터의 음절수를 이용하여 상기 스팸 검출 비율을 산출할 수도 있다. In step 701, the keyword-based spam detection system may calculate a spam detection rate based on the frequency and the number of false. The spam detection rate may be calculated as a percentage (%) of the total keywords included in the data as 100 and the frequency and the number of the number of the number of the frequency and the number of the number of the number of the total number of keywords in the total keyword. For example, as shown in FIG. 5, when the frequency is 231 times and the number of false bits is 17, the spam detection rate may be calculated as 28%. In addition, the keyword-based spam detection system may calculate the spam detection rate using the number of syllables of the data.

단계(702)에서, 상기 키워드 기반 스팸 검출 시스템은 상기 스팸 검출 비율이 소정의 기준 비율 이상인지 여부를 판단할 수 있다. 상기 소정의 기준 비율은 상기 소정의 기준 수치와 마찬가지로 스팸 데이터로 판단되는 데이터의 스팸 검출 비율의 문턱값으로 설정될 수 있다. In step 702, the keyword-based spam detection system may determine whether the spam detection rate is equal to or greater than a predetermined reference rate. The predetermined reference ratio may be set to a threshold value of the spam detection ratio of data determined to be spam data, similar to the predetermined reference value.

단계(703)에서, 상기 키워드 기반 스팸 검출 시스템은 상기 스팸 검출 비율이 소정의 기준 비율 이상인 경우, 상기 데이터를 스팸 데이터로 판단할 수 있다.In step 703, the keyword-based spam detection system may determine the data as spam data when the spam detection ratio is equal to or greater than a predetermined reference ratio.

도 8은 본 발명의 일실시예에 있어서, 키워드 기반 스팸 검출 시스템의 구성을 도시한 블록도이다.8 is a block diagram illustrating a configuration of a keyword-based spam detection system according to an embodiment of the present invention.

도 8은 도 2에서 설명한 각 단계를 수행하는 키워드 기반 스팸 검출 시스템의 각 구성요소를 설명하는 도면으로 상기 도 2에서 상세히 설명하였으므로, 도 8 에서는 간략히 설명하기로 한다.FIG. 8 is a diagram illustrating each component of the keyword-based spam detection system performing each step described with reference to FIG. 2, which is described in detail with reference to FIG. 2.

키워드 기반 스팸 검출 시스템(800)은 스팸 검출 키워드 데이터베이스(801), 키워드 추출부(802), 윈도우 설정부(803), 단어군 매칭부(804), 스팸 데이터 판단부(805), 데이터 처리부(806), 빈도수 산출부(807), 가짓수 산출부(808), 가중치 부여부(809), 스팸 검출 수치 산출부(810), 스팸 검출 비율 산출부(811) 및 키워드 음절 분할부(812)를 포함할 수 있다.The keyword-based spam detection system 800 includes a spam detection keyword database 801, a keyword extraction unit 802, a window setting unit 803, a word group matching unit 804, a spam data determination unit 805, and a data processing unit ( 806, a frequency calculator 807, a number calculator 808, a weighting unit 809, a spam detection value calculator 810, a spam detection rate calculator 811, and a keyword syllable divider 812. It may include.

스팸 검출 키워드 데이터베이스(801)는 각 단어군 별로 스팸 검출 키워드를 유지할 수 있다. 도 3을 참조하여 스팸 검출 키워드 데이터베이스(801)는 유해 광고 키워드군, 성인 광고 키워드군, URL 및 전화번호군에 대한 스팸 검출 키워드를 유지할 수 있다. 또한, 본 발명의 일실시예에 따르면, 스팸 검출 키워드 데이터베이스(801)는 상기 스팸 검출 키워드에 대하여 음절 별로 분할된 키워드를 유지할 수 있다. 또한, 스팸 검출 키워드 데이터베이스(801)는 각 단어군 별로 가중치를 부여하여 유지할 수 있다.The spam detection keyword database 801 may maintain a spam detection keyword for each word group. Referring to FIG. 3, the spam detection keyword database 801 may maintain spam detection keywords for a harmful advertisement keyword group, an adult advertisement keyword group, a URL, and a phone number group. In addition, according to an embodiment of the present invention, the spam detection keyword database 801 may maintain a keyword divided by syllable for the spam detection keyword. In addition, the spam detection keyword database 801 may maintain a weighted value for each word group.

키워드 추출부(802)는 사용자로부터 등록되는 데이터에 포함된 키워드를 추출할 수 있다. 키워드 추출부(802)는 데이터의 전체 영역을 스캔하여, 상기 데이터에 포함된 키워드를 추출할 수 있다. 또한, 본 발명의 일실시예에 따르면, 키워드 추출부(802)는 상기 데이터에 중복되는 키워드가 포함되어 있으면 스팸이나 장난성 데이터로 의심하여 상기 중복되는 키워드를 추출할 수 있다. 또한, 본 발명의 다른 실시예에 따르면, 키워드 추출부(802)는 상기 데이터로부터 띄어쓰기 또는 특수 기호를 제외한 키워드만으로 구성된 새로운 스트링을 생성할 수 있다. 상기 스트링은 키워드만을 포함하는 것으로, 스팸 검출 키워드 데이터베이스(801)를 참조하여 상기 스트링에 포함된 키워드와 상기 각 단어군을 매칭시킬 수 있다.The keyword extractor 802 may extract a keyword included in data registered from a user. The keyword extractor 802 may scan an entire area of the data and extract a keyword included in the data. In addition, according to an embodiment of the present invention, if the keyword extraction unit 802 includes duplicate keywords in the data, the keyword extractor 802 may suspect spam or mischief data and extract the duplicate keywords. In addition, according to another embodiment of the present invention, the keyword extraction unit 802 may generate a new string composed only of keywords excluding spaces or special symbols from the data. The string includes only keywords, and the keyword included in the string may be matched with each word group by referring to the spam detection keyword database 801.

윈도우 설정부(803)는 상기 데이터의 특정 영역을 스캔하여 상기 특정 영역에 포함된 키워드를 추출하는 윈도우(window)를 설정할 수 있다. 키워드 추출부(802)는 상기 윈도우를 이용하여 상기 데이터의 특정 영역을 스캔하고, 상기 특정 영역에 포함된 키워드를 추출할 수 있다.The window setting unit 803 may set a window for scanning a specific region of the data and extracting a keyword included in the specific region. The keyword extractor 802 may scan a specific region of the data using the window and extract a keyword included in the specific region.

따라서, 키워드 추출부(802)는 상기 데이터의 전체적인 내용이 유해한 내용이 아니더라도 상기 데이터의 일부분에 유해 내용이 포함되어 있다면 스팸 데이터로 판단하여 처리하도록 할 수 있다.Therefore, even if the entire contents of the data are not harmful contents, the keyword extractor 802 may determine that the harmful data is included in the portion of the data and process the spam data.

단어군 매칭부(804)는 스팸 검출 키워드 데이터베이스(801)를 참조하여 상기 추출된 키워드와 상기 각 단어군을 매칭시킬 수 있다. 이를 위해, 단어군 매칭부(804)는 빈도수 산출부(807) 및 가짓수 산출부(808)를 이용하여 상기 키워드와 상기 각 단어군을 매칭시켜 스팸 유무를 판단할 수 있다.The word group matching unit 804 may match the extracted keyword with each word group by referring to the spam detection keyword database 801. To this end, the word group matching unit 804 may determine whether spam exists by matching the keyword with each word group using the frequency calculator 807 and the number calculator 808.

본 발명의 일실시예에 따르면, 키워드 음절 분할부(812)는 상기 추출된 키워드를 음절 별로 분할하고, 단어군 매칭부(804)는 스팸 검출 키워드 데이터베이스를 참조하여 상기 분할된 음절과 상기 각 단어군을 매칭시킬 수 있다.According to an embodiment of the present invention, the keyword syllable dividing unit 812 divides the extracted keyword by syllable, and the word group matching unit 804 refers to the divided syllable and each word by referring to a spam detection keyword database. Match groups.

빈도수 산출부(807)는 상기 추출된 키워드에 대하여 상기 각 단어군에 매칭되는 빈도수를 산출할 수 있다. 빈도수 산출부(807)는 스팸 검출 키워드 데이터베이스(801)에 저장된 상기 각 단어군과 상관없이 상기 키워드가 상기 스팸 검출 키워드에 매칭되는 수를 산출할 수 있다.The frequency calculator 807 may calculate a frequency matched with each word group with respect to the extracted keyword. The frequency calculator 807 may calculate a number of matching the keyword with the spam detection keyword irrespective of each word group stored in the spam detection keyword database 801.

가짓수 산출부(808)는 상기 추출된 키워드에 대하여 상기 각 단어군 중 하나에 매칭되는 가짓수를 산출할 수 있다. 가짓수 산출부(808)는 상기 유해 광고 키워드군에 속하는 스팸 검출 키워드에 매칭되는 수, 상기 성인 광고 키워드군에 속하는 스팸 검출 키워드에 매칭되는 수, 상기 URL 및 전화번호군에 속하는 스팸 검출 키워드에 매칭되는 수를 산출하여 상기 키워드가 상기 단어군 중 어디에 많이 매칭되는지 여부를 산출할 수 있다.The number of pieces calculator 808 may calculate the number of pieces of the keyword matched with one of the word groups. The number calculation unit 808 matches a spam detection keyword belonging to the harmful advertisement keyword group, a number matching spam detection keyword belonging to the adult advertisement keyword group, and a spam detection keyword belonging to the URL and phone number group. It is possible to calculate where the keyword matches a lot in the word group by calculating the number of.

본 발명의 일실시예에 따르면, 가중치 부여부(809)는 상기 각 단어군에 가중치를 부여할 수 있으며, 가짓수 산출부(808)는 상기 가중치를 고려하여 상기 키워드에 대하여 상기 각 단어군 중 하나에 매칭되는 가짓수를 산출할 수 있다. 또한, 가짓수 산출부(808)는 상기 추출된 키워드 중 동일한 키워드에 대하여 하나의 키워드로 판단하여 상기 가짓수를 산출할 수 있다.According to an embodiment of the present invention, the weighting unit 809 may weight the respective word groups, and the number calculation unit 808 may consider one of the word groups for the keyword in consideration of the weight. It is possible to calculate the number of gadgets matching. In addition, the number of numbers calculation unit 808 may calculate the number of pieces of the keyword by determining the same keyword among the extracted keywords.

스팸 검출 수치 산출부(810)는 상기 빈도수 및 상기 가짓수를 이용하여 스팸 검출 수치를 산출할 수 있다. 스팸 검출 수치 산출부(810)는 상기 빈도수와 상기 가짓수를 수치화한 것으로, 상기 가짓수에 대한 가중치를 고려하여 산출할 수 있다.The spam detection value calculator 810 may calculate the spam detection value using the frequency and the number of pieces. The spam detection value calculator 810 digitizes the frequency and the number of pieces, and may calculate the value by considering the weight of the number of pieces.

스팸 검출 비율 산출부(811)는 상기 빈도수 및 상기 가짓수를 이용하여 스팸 검출 비율을 산출할 수 있다. 스팸 검출 비율 산출부(811)는 상기 데이터에 포함된 전체 키워드를 100으로 보고 상기 빈도수와 상기 가짓수를 백분율로 환산하여 상기 빈도수와 상기 가짓수의 수량이 전체 키워드에서 얼마나 되는지 퍼센트(%)로 스팸 검출 비율을 산출할 수 있다.The spam detection rate calculator 811 may calculate a spam detection rate using the frequency and the number of pieces. The spam detection ratio calculation unit 811 detects spam as a percentage (%) of the total keywords included in the data as 100, and converts the frequency and the number of pieces into a percentage to determine how much the frequency and the number of pieces are in the total keywords. The ratio can be calculated.

스팸 데이터 판단부(805)는 상기 매칭 결과에 기초하여 상기 데이터의 스팸 여부를 판단할 수 있다. 스팸 데이터 판단부(805)는 상기 빈도수 및 상기 가짓수에 기초하여 상기 데이터의 스팸 여부를 판단할 수 있다. 또한, 스팸 데이터 판단부(805)는 상기 산출된 스팸 검출 수치 또는 상기 스팸 검출 비율에 기초하여 상기 데이터의 스팸 여부를 판단할 수도 있다.The spam data determination unit 805 may determine whether the data is spam based on the matching result. The spam data determination unit 805 may determine whether the data is spam based on the frequency and the number of pieces. In addition, the spam data determination unit 805 may determine whether the data is spam based on the calculated spam detection value or the spam detection ratio.

데이터 처리부(806)는 상기 판단 결과에 따라 상기 데이터를 처리할 수 있다. 데이터 처리부(806)는 상기 판단 결과 상기 데이터가 스팸 데이터로 판단된 경우, 키워드 기반 스팸 검출 시스템(800)의 관리자에게 상기 데이터에 대한 스팸 여부를 보고할 수 있다.The data processor 806 may process the data according to the determination result. If it is determined that the data is spam data, the data processor 806 may report whether the data is spam to the administrator of the keyword-based spam detection system 800.

이처럼, 본 발명에 따르면, 웹 페이지를 운영하는 시스템에서 자동으로 사용자로부터 등록되는 데이터에 대하여 실시간으로 스팸 여부를 판단하여 스팸 데이터로 판단된 경우 웹 페이지에서 삭제함으로써, 스팸 데이터로부터 청소년을 보호하고 건전한 인터넷 문화를 정착시켜 나가는데 큰 역할을 수행할 수 있다.As such, according to the present invention, a system operating a web page automatically determines whether spam is registered in real time with respect to data registered from a user, and deletes the web page if it is determined to be spam data, thereby protecting the youth from spam data and maintaining sound health. It can play a big role in establishing the Internet culture.

본 발명에 따른 키워드 기반 스팸 검출 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수도 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The keyword-based spam detection method according to the present invention can be implemented in the form of program instructions that can be executed by various computer means and recorded in a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. The medium may be a transmission medium such as an optical or metal wire, a waveguide, or the like including a carrier wave for transmitting a signal specifying a program command, a data structure, or the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. As described above, although the present invention has been described with reference to limited embodiments and drawings, the present invention is not limited to the above embodiments, and those skilled in the art to which the present invention pertains various modifications and variations from such descriptions. This is possible.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined not only by the claims below but also by the equivalents of the claims.

본 발명에 따른 사용자로부터 등록되는 데이터에 포함된 키워드를 추출하여 상기 키워드와 각 단어군을 매칭시켜 상기 매칭 결과에 따라 상기 데이터의 스팸 여부를 판단하고, 상기 판단 결과에 따라 상기 데이터를 적절히 처리함으로써, 종 래와 같이 시스템 관리자가 일일이 스팸 데이터를 판단하여 삭제할 필요없이 시스템이 자동으로 스팸 데이터를 판단하여 삭제 처리할 수 있도록 하여 스팸 데이터를 관리하는 인력 절감 및 그에 따른 비용을 절감할 수 있다.By extracting a keyword included in the data registered from the user according to the present invention and matching the keyword and each word group to determine whether the data is spam based on the matching result, by processing the data appropriately according to the determination result As such, the system administrator can automatically determine and delete spam data without having to judge and delete spam data, thereby reducing manpower and costs.

또한, 본 발명에 따르면, 데이터의 특정 영역을 스캔하여 상기 특정 영역에 포함된 키워드를 추출하는 윈도우를 이용하여 사용자로부터 등록되는 데이터의 특정 영역을 스캔하고, 상기 특정 영역에 포함된 키워드를 추출하여 스팸 데이터 여부를 판단함으로써, 상기 데이터의 전체적인 내용이 유해한 내용이 아니더라도 상기 데이터의 일부분에 유해 내용이 포함되어 있다면 스팸 데이터로 판단하여 처리함으로써 정확하게 스팸 데이터를 판단할 수 있다.In addition, according to the present invention, by scanning a specific region of the data to scan a specific region of the data registered from the user using a window for extracting the keyword included in the specific region, and extracting the keyword contained in the specific region By determining whether spam data is included, even if the entire contents of the data are not harmful contents, if the harmful contents are included in a part of the data, the spam data may be accurately determined by processing as spam data.

또한, 본 발명에 따르면, 데이터에 포함된 키워드를 음절 별로 분할하여 스팸 검출 키워드와 매칭시킴으로써 스팸 검출 키워드 데이터베이스에 등록되어 있지 않은 신조어 등이 도배되는 경우에도 스팸 데이터로 검출할 수 있어서 스팸 데이터 검출 확률을 높일 수 있다.In addition, according to the present invention, by dividing the keywords contained in the data by syllables and matching them with the spam detection keywords, even when new words or the like that are not registered in the spam detection keyword database are detected, the spam data detection probability can be detected. Can increase.

또한, 본 발명에 따르면, 데이터로부터 띄어쓰기나 특수 기호를 제외한 새로운 스트링을 만들어 스팸 검출 키워드와 매칭시킴으로써, 띄어쓰기에 따른 스팸 검출을 용이하게 수행할 수 있다.In addition, according to the present invention, by creating a new string excluding the spacing or special symbols from the data and matching the spam detection keyword, it is possible to easily detect the spam according to the spacing.

또한, 본 발명에 따르면, 데이터에 포함된 키워드 중 중복되는 키워드가 있는 경우 상기 중복되는 키워드와 각 단어군을 매칭시켜 스팸 데이터 유무를 판단할 수 있다.In addition, according to the present invention, if there are duplicate keywords among the keywords included in the data, the presence or absence of spam data may be determined by matching the duplicate keywords with each word group.

또한, 본 발명에 따르면, 웹 페이지를 운영하는 시스템에서 자동으로 사용자 로부터 등록되는 데이터에 대하여 실시간으로 스팸 여부를 판단하여 스팸 데이터로 판단된 경우, 웹 페이지에서 삭제함으로써, 스팸 데이터로부터 청소년을 보호하고 건전한 인터넷 문화를 정착시켜 나가는데 큰 역할을 수행할 수 있다.In addition, according to the present invention, in the system operating the web page automatically determines whether the spam in real time for the data registered from the user, if determined as spam data, by deleting from the web page, to protect the youth from spam data It can play a big role in establishing a healthy internet culture.

Claims (27)

키워드 기반 스팸 검출 방법에 있어서,In the keyword-based spam detection method, 각 단어군 별로 스팸 검출 키워드를 스팸 검출 키워드 데이터베이스에 유지하는 단계;Maintaining a spam detection keyword for each word group in a spam detection keyword database; 사용자로부터 등록되는 데이터에 포함된 키워드를 추출하는 단계;Extracting a keyword included in data registered from a user; 상기 스팸 검출 키워드 데이터베이스를 참조하여 상기 추출된 키워드에 대하여 상기 각 단어군에 매칭되는 빈도수, 및 상기 각 단어군 중 하나에 매칭되는 가짓수를 산출하는 단계;Calculating a frequency number matching each word group and a number of gadgets matching one of the word groups with respect to the extracted keyword by referring to the spam detection keyword database; 산출된 상기 빈도수 및 상기 가짓수에 기초하여 상기 데이터의 스팸 여부를 판단하는 단계; 및Determining whether the data is spam based on the calculated frequency and the number of hypotheses; And 상기 판단 결과에 따라 상기 데이터를 처리하는 단계를 포함하고,Processing the data according to the determination result, 상기 데이터의 스팸 여부를 판단하는 상기 단계는,The step of determining whether the data is spam, 상기 빈도수 및 상기 가짓수를 이용하여 산출되는 (1) 스팸 검출 수치에 기초하여 상기 스팸 여부를 판단하는 단계; 또는(1) determining whether or not the spam is based on a spam detection value calculated using the frequency and the false number; or 상기 빈도수 및 상기 가짓수를 이용하여 산출되는 (2) 스팸 검출 비율에 기초하여 상기 스팸 여부를 판단하는 단계(2) determining whether or not the spam is based on the spam detection rate calculated using the frequency and the number of hypotheses; 를 포함하는 것을 특징으로 하는 키워드 기반 스팸 검출 방법.Keyword-based spam detection method comprising a. 제1항에 있어서,The method of claim 1, 상기 단어군은 유해 광고 키워드군, 성인 광고 키워드군, URL 및 전화번호군을 포함하고,The word group includes a harmful advertising keyword group, an adult advertising keyword group, a URL, and a phone number group. 각 단어군 별로 스팸 검출 키워드를 스팸 검출 키워드 데이터베이스에 유지하는 상기 단계는,The step of maintaining the spam detection keyword for each word group in the spam detection keyword database, 상기 유해 광고 키워드군, 상기 성인 광고 키워드군, 상기 URL 및 전화번호군에 대한 스팸 검출 키워드를 상기 검출 키워드 데이터베이스에 유지하는 단계Maintaining spam detection keywords for the harmful advertising keyword group, the adult advertising keyword group, the URL, and the telephone number group in the detection keyword database; 를 포함하는 것을 특징으로 하는 키워드 기반 스팸 검출 방법.Keyword-based spam detection method comprising a. 삭제delete 삭제delete 제1항에 있어서,The method of claim 1, 스팸 여부를 판단하는 상기 단계는,The step of determining whether or not spam, 상기 (1) 스팸 검출 수치가 소정의 기준 수치 이상인 경우, 상기 데이터를 스팸 데이터로 판단하는 단계(1) if the spam detection value is equal to or greater than a predetermined reference value, determining the data as spam data 를 포함하는 것을 특징으로 하는 키워드 기반 스팸 검출 방법.Keyword-based spam detection method comprising a. 삭제delete 제1항에 있어서,The method of claim 1, 스팸 여부를 판단하는 상기 단계는,The step of determining whether or not spam, 상기 (2) 스팸 검출 비율이 소정의 기준 비율 이상인 경우, 상기 데이터를 스팸 데이터로 판단하는 단계(2) determining the data as spam data when the spam detection ratio is equal to or greater than a predetermined reference ratio; 를 포함하는 것을 특징으로 하는 키워드 기반 스팸 검출 방법.Keyword-based spam detection method comprising a. 제1항에 있어서,The method of claim 1, 상기 빈도수 및 가짓수를 산출하는 상기 단계는,Computing the frequency and the number of steps, 상기 각 단어군에 가중치를 부여하는 단계; 및Weighting each word group; And 상기 가중치를 고려하여 상기 키워드에 대하여 상기 각 단어군 중 하나에 매칭되는 가짓수를 산출하는 단계Calculating a number of gadgets matching one of the word groups for the keyword in consideration of the weights; 를 포함하는 것을 특징으로 하는 키워드 기반 스팸 검출 방법.Keyword-based spam detection method comprising a. 제8항에 있어서,The method of claim 8, 상기 단어군은 유해 광고 키워드군, 성인 광고 키워드군, URL 및 전화번호군을 포함하고,The word group includes a harmful advertising keyword group, an adult advertising keyword group, a URL, and a phone number group. 각 단어군에 가중치를 부여하는 상기 단계는,The step of weighting each word group, 상기 URL 및 전화번호군에 대하여 상기 유해 광고 키워드군 및 상기 성인 광고 키워드군보다 가중치를 높게 부여하는 단계를 포함하고,And giving weights to the URL and phone number groups higher than the harmful advertisement keyword group and the adult advertisement keyword group. 데이터의 스팸 여부를 판단하는 상기 단계는,The step of determining whether the data is spam, 상기 추출된 키워드가 상기 URL 및 전화번호군에 매칭되는 경우, 상기 데이터를 스팸 데이터로 판단하는 단계If the extracted keyword matches the URL and telephone number group, determining the data as spam data 를 포함하는 것을 특징으로 하는 키워드 기반 스팸 검출 방법.Keyword-based spam detection method comprising a. 제1항에 있어서,The method of claim 1, 상기 빈도수 및 가짓수를 산출하는 상기 단계는,Computing the frequency and the number of steps, 상기 추출된 키워드 중 동일한 키워드에 대하여 하나의 키워드로 판단하여 상기 가짓수를 산출하는 것을 특징으로 하는 키워드 기반 스팸 검출 방법.Keyword-based spam detection method, characterized in that for calculating the number of the number of judgment by determining the same keyword from the extracted keywords. 제1항에 있어서,The method of claim 1, 상기 판단 결과에 따라 상기 데이터를 처리하는 상기 단계는,The step of processing the data according to the determination result, 상기 데이터가 스팸 데이터로 판단된 경우, 소정의 키워드 기반 스팸 검출 시스템 관리자에게 상기 데이터에 대한 스팸 여부를 보고(report)하는 단계If the data is determined to be spam data, reporting whether the data is spam to a predetermined keyword-based spam detection system administrator; 를 포함하는 것을 특징으로 하는 키워드 기반 스팸 검출 방법.Keyword-based spam detection method comprising a. 제1항에 있어서,The method of claim 1, 상기 데이터의 특정 영역을 스캔하여 상기 특정 영역에 포함된 키워드를 추출하는 윈도우(window)를 설정하는 단계Setting a window for scanning a specific region of the data and extracting a keyword included in the specific region; 를 더 포함하고,More, 사용자로부터 등록되는 데이터에 포함된 키워드를 추출하는 상기 단계는,The step of extracting a keyword included in the data registered from the user, 상기 윈도우를 이용하여 상기 데이터의 특정 영역을 스캔하고, 상기 특정 영역에 포함된 키워드를 추출하는 단계Scanning a specific region of the data using the window and extracting a keyword included in the specific region 를 포함하는 것을 특징으로 하는 키워드 기반 스팸 검출 방법.Keyword-based spam detection method comprising a. 제1항에 있어서,The method of claim 1, 상기 빈도수 및 가짓수를 산출하는 상기 단계는,Computing the frequency and the number of steps, 추출된 상기 키워드를 음절 별로 분할하는 단계; 및Dividing the extracted keyword by syllables; And 상기 스팸 검출 키워드 데이터베이스를 참조하여 상기 분할된 음절과 상기 각 단어군을 매칭시키는 단계Matching the divided syllables and the respective word groups by referring to the spam detection keyword database 를 포함하는 것을 특징으로 하는 키워드 기반 스팸 검출 방법.Keyword-based spam detection method comprising a. 제1항에 있어서,The method of claim 1, 상기 빈도수 및 가짓수를 산출하는 상기 단계는,Computing the frequency and the number of steps, 상기 사용자로부터 등록되는 상기 데이터부터 띄어쓰기 또는 특수 기호를 제외한 키워드를 포함하는 스트링을 생성하는 단계; 및Generating a string including a keyword excluding a space or a special symbol from the data registered from the user; And 상기 스팸 검출 키워드 데이터베이스를 참조하여 상기 스트링에 포함된 키워드와 상기 각 단어군을 매칭시키는 단계Matching each word group with a keyword included in the string by referring to the spam detection keyword database; 를 포함하는 것을 특징으로 하는 키워드 기반 스팸 검출 방법.Keyword-based spam detection method comprising a. 제1항에 있어서,The method of claim 1, 사용자로부터 등록되는 데이터에 포함된 키워드를 추출하는 상기 단계는,The step of extracting a keyword included in the data registered from the user, 상기 데이터에 포함된 키워드 중 중복되는 키워드를 추출하는 단계를 포함하고,Extracting duplicate keywords among the keywords included in the data; 상기 빈도수 및 가짓수를 산출하는 상기 단계는,Computing the frequency and the number of steps, 상기 스팸 검출 키워드 데이터베이스를 참조하여 상기 중복되는 키워드와 상기 각 단어군을 매칭시키는 단계Matching each word group with the duplicate keyword by referring to the spam detection keyword database; 를 포함하는 것을 특징으로 하는 키워드 기반 스팸 검출 방법.Keyword-based spam detection method comprising a. 키워드 기반 스팸 검출 방법에 있어서,In the keyword-based spam detection method, 각 단어군 별로 스팸 검출 키워드를 스팸 검출 키워드 데이터베이스에 유지하는 단계;Maintaining a spam detection keyword for each word group in a spam detection keyword database; 데이터의 특정 영역을 스캔하여 상기 특정 영역에 포함된 키워드를 추출하는 윈도우(window)를 설정하는 단계;Setting a window for scanning a specific region of data and extracting a keyword included in the specific region; 상기 윈도우를 이용하여 사용자로부터 등록되는 데이터의 특정 영역을 스캔하고, 상기 특정 영역에 포함된 키워드를 추출하는 단계;Scanning a specific region of data registered from a user using the window and extracting a keyword included in the specific region; 상기 스팸 검출 키워드 데이터베이스를 참조하여 상기 추출된 키워드에 대하여 상기 각 단어군에 매칭되는 빈도수, 및 상기 각 단어군 중 하나에 매칭되는 가짓수를 산출하는 단계;Calculating a frequency number matching each word group and a number of gadgets matching one of the word groups with respect to the extracted keyword by referring to the spam detection keyword database; 산출된 상기 빈도수 및 상기 가짓수에 기초하여 상기 데이터의 스팸 여부를 판단하는 단계; 및Determining whether the data is spam based on the calculated frequency and the number of hypotheses; And 상기 판단 결과에 따라 상기 데이터를 처리하는 단계를 포함하고,Processing the data according to the determination result, 상기 데이터의 스팸 여부를 판단하는 상기 단계는,The step of determining whether the data is spam, 상기 빈도수 및 상기 가짓수를 이용하여 산출되는 (1) 스팸 검출 수치에 기초하여 상기 스팸 여부를 판단하는 단계; 또는(1) determining whether or not the spam is based on a spam detection value calculated using the frequency and the false number; or 상기 빈도수 및 상기 가짓수를 이용하여 산출되는 (2) 스팸 검출 비율에 기초하여 상기 스팸 여부를 판단하는 단계(2) determining whether or not the spam is based on the spam detection rate calculated using the frequency and the number of hypotheses; 를 포함하는 것을 특징으로 하는 키워드 기반 스팸 검출 방법.Keyword-based spam detection method comprising a. 제1항, 제2항, 제5항, 제7항 내지 제16항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.A computer-readable recording medium having recorded thereon a program for executing the method of any one of claims 1, 2, 5, and 7 to 16. 키워드 기반 스팸 검출 시스템에 있어서,In keyword-based spam detection systems, 각 단어군 별로 스팸 검출 키워드를 유지하는 스팸 검출 키워드 데이터베이스;A spam detection keyword database that maintains a spam detection keyword for each word group; 사용자로부터 등록되는 데이터에 포함된 키워드를 추출하는 키워드 추출부;A keyword extraction unit for extracting a keyword included in data registered from a user; 상기 추출된 키워드에 대하여 상기 각 단어군에 매칭되는 빈도수를 산출하는 빈도수 산출부;A frequency calculator configured to calculate a frequency matched to each word group with respect to the extracted keyword; 상기 추출된 키워드에 대하여 상기 각 단어군 중 하나에 매칭되는 가짓수를 산출하는 가짓수 산출부;A gadget number calculator configured to calculate a number of gadgets that match one of the word groups with respect to the extracted keyword; 산출된 상기 빈도수 및 상기 가짓수에 기초하여 상기 데이터의 스팸 여부를 판단하는 스팸 데이터 판단부; 및A spam data determination unit that determines whether the data is spam based on the calculated frequency and the number of hypotheses; And 상기 판단 결과에 따라 상기 데이터를 처리하는 데이터 처리부를 포함하고,A data processor configured to process the data according to the determination result; 상기 스팸 데이터 판단부는,The spam data determination unit, 상기 빈도수 및 상기 가짓수를 이용한 스팸 검출 수치 산출부에 의해 산출되는 (1) 스팸 검출 수치에 기초하여 상기 스팸 여부를 판단하거나, 또는(1) determining whether or not the spam is based on the spam detection value calculated by the spam detection value calculation unit using the frequency and the false number; or 상기 빈도수 및 상기 가짓수를 이용한 스팸 검출 비율 산출부에 의해 산출되는 (2) 스팸 검출 비율에 기초하여 상기 스팸 여부를 판단하는 것을 특징으로 하는 키워드 기반 스팸 검출 시스템.And (2) determining whether or not the spam is based on the spam detection rate calculated by the spam detection rate calculation unit using the frequency and the false number. 제18항에 있어서,The method of claim 18, 상기 검출 키워드 데이터베이스는 유해 광고 키워드군, 성인 광고 키워드군, URL 및 전화번호군에 대한 스팸 검출 키워드를 유지하는 것을 특징으로 하는 키워드 기반 스팸 검출 시스템.The detection keyword database is a keyword-based spam detection system, characterized in that to maintain the spam detection keywords for the harmful advertising keyword group, adult advertising keyword group, URL and telephone number group. 제18항에 있어서,The method of claim 18, 상기 스팸 데이터 판단부는,The spam data determination unit, 상기 (1) 스팸 검출 수치가 소정의 기준 수치 이상인 경우, 상기 데이터를 스팸 데이터로 판단하는 것을 특징으로 하는 키워드 기반 스팸 검출 시스템.And (1) if the spam detection value is equal to or greater than a predetermined reference value, determining the data as spam data. 제18항에 있어서,The method of claim 18, 상기 스팸 데이터 판단부는,The spam data determination unit, 상기 (2) 스팸 검출 비율이 소정의 기준 비율 이상인 경우, 상기 데이터를 스팸 데이터로 판단하는 것을 특징으로 하는 키워드 기반 스팸 검출 시스템.And (2) when the spam detection ratio is equal to or greater than a predetermined reference ratio, determining the data as spam data. 제18항에 있어서,The method of claim 18, 상기 각 단어군에 가중치를 부여하는 가중치 부여부를 더 포함하고,Further comprising a weighting unit for giving a weight to each word group, 상기 가짓수 산출부는 상기 가중치를 고려하여 상기 키워드에 대하여 상기 각 단어군 중 하나에 매칭되는 가짓수를 산출하는 것을 특징으로 하는 키워드 기반 스팸 검출 시스템.The number-of-the-numbers calculating unit calculates a number of the number of words matching each one of the word groups with respect to the keyword in consideration of the weight. 제22항에 있어서,The method of claim 22, 상기 단어군은 유해 광고 키워드군, 성인 광고 키워드군, URL 및 전화번호군을 포함하고,The word group includes a harmful advertising keyword group, an adult advertising keyword group, a URL, and a phone number group. 상기 가중치 부여부는,The weighting unit, 상기 URL 및 전화번호군에 대하여 상기 유해 광고 키워드군 및 상기 성인 광고 키워드군보다 가중치를 높게 부여하고,Weighting the URL and the telephone number group higher than the harmful advertising keyword group and the adult advertising keyword group, 상기 스팸 데이터 판단부는,The spam data determination unit, 상기 추출된 키워드가 상기 URL 및 전화번호군에 매칭되는 경우, 상기 데이터를 스팸 데이터로 판단하는 것을 특징으로 하는 키워드 기반 스팸 검출 시스템.And determining that the data is spam data when the extracted keyword matches the URL and telephone number group. 제18항에 있어서,The method of claim 18, 상기 데이터 처리부는 상기 판단 결과 상기 데이터가 스팸 데이터로 판단된 경우, 상기 키워드 기반 스팸 검출 시스템의 관리자에게 상기 데이터에 대한 스팸 여부를 보고(report)하는 것을 특징으로 하는 키워드 기반 스팸 검출 시스템.And if the data processor determines that the data is spam data as a result of the determination, reporting the presence or absence of spam for the data to an administrator of the keyword-based spam detection system. 제18항에 있어서,The method of claim 18, 상기 데이터의 특정 영역을 스캔하여 상기 특정 영역에 포함된 키워드를 추 출하는 윈도우(window)를 설정하는 윈도우 설정부를 더 포함하고,The apparatus may further include a window setting unit configured to scan a specific area of the data and set a window for extracting a keyword included in the specific area. 상기 키워드 추출부는 상기 윈도우를 이용하여 상기 데이터의 특정 영역을 스캔하고, 상기 특정 영역에 포함된 키워드를 추출하는 것을 특징으로 하는 키워드 기반 스팸 검출 시스템.The keyword extracting unit scans a specific region of the data using the window and extracts a keyword included in the specific region. 제18항에 있어서,The method of claim 18, 상기 추출된 키워드를 음절 별로 분할하는 키워드 음절 분할부; 및A keyword syllable dividing unit dividing the extracted keyword by syllable; And 상기 스팸 검출 키워드 데이터베이스를 참조하여 상기 분할된 음절과 상기 각 단어군을 매칭시키는 단어군 매칭부A word group matching unit matching the divided syllables and the respective word groups with reference to the spam detection keyword database 를 더 포함하는 것을 특징으로 하는 키워드 기반 스팸 검출 시스템.Keyword-based spam detection system further comprises. 제18항에 있어서,The method of claim 18, 상기 키워드 추출부에 의해 상기 데이터에 포함된 키워드 중 중복되는 키워드가 추출되는 경우, 상기 스팸 검출 키워드 데이터베이스를 참조하여 상기 중복되는 키워드와 상기 각 단어군을 매칭시키는 단어군 매칭부When a duplicate keyword is extracted from the keywords included in the data by the keyword extracting unit, a word group matching unit matching the duplicate keyword and each word group with reference to the spam detection keyword database 를 더 포함하는 것을 특징으로 하는 키워드 기반 스팸 검출 시스템.Keyword-based spam detection system further comprises.
KR1020060012510A 2006-02-09 2006-02-09 Method and system for detecting spam based on keyword KR100742130B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020060012510A KR100742130B1 (en) 2006-02-09 2006-02-09 Method and system for detecting spam based on keyword

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060012510A KR100742130B1 (en) 2006-02-09 2006-02-09 Method and system for detecting spam based on keyword

Publications (1)

Publication Number Publication Date
KR100742130B1 true KR100742130B1 (en) 2007-07-24

Family

ID=38499397

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060012510A KR100742130B1 (en) 2006-02-09 2006-02-09 Method and system for detecting spam based on keyword

Country Status (1)

Country Link
KR (1) KR100742130B1 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8473491B1 (en) * 2010-12-03 2013-06-25 Google Inc. Systems and methods of detecting keyword-stuffed business titles
CN104598460A (en) * 2013-10-30 2015-05-06 腾讯科技(深圳)有限公司 Method and device for identifying garbage anchor text
KR101826329B1 (en) * 2015-07-13 2018-03-22 시아오미 아이엔씨. Method, device and system for determining crank phone number

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030069567A (en) * 2002-02-22 2003-08-27 주식회사 네오위즈 Method and Apparatus for Filtering Spam Mails
KR20050117152A (en) * 2004-06-09 2005-12-14 주식회사 월드모닝 How to block harmful words in personal computer and computer usage management system and method
KR20050123182A (en) * 2003-05-16 2005-12-29 산요덴키가부시키가이샤 Communication device having function for automatically determining unsolicited e-mails

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030069567A (en) * 2002-02-22 2003-08-27 주식회사 네오위즈 Method and Apparatus for Filtering Spam Mails
KR20050123182A (en) * 2003-05-16 2005-12-29 산요덴키가부시키가이샤 Communication device having function for automatically determining unsolicited e-mails
KR20050117152A (en) * 2004-06-09 2005-12-14 주식회사 월드모닝 How to block harmful words in personal computer and computer usage management system and method

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8473491B1 (en) * 2010-12-03 2013-06-25 Google Inc. Systems and methods of detecting keyword-stuffed business titles
US9135625B1 (en) 2010-12-03 2015-09-15 Google Inc. Systems and methods of detecting keyword-stuffed business titles
CN104598460A (en) * 2013-10-30 2015-05-06 腾讯科技(深圳)有限公司 Method and device for identifying garbage anchor text
CN104598460B (en) * 2013-10-30 2018-11-02 腾讯科技(深圳)有限公司 The recognition methods of rubbish Anchor Text and device
KR101826329B1 (en) * 2015-07-13 2018-03-22 시아오미 아이엔씨. Method, device and system for determining crank phone number
US10291774B2 (en) 2015-07-13 2019-05-14 Xiaomi Inc. Method, device, and system for determining spam caller phone number

Similar Documents

Publication Publication Date Title
Bansal et al. On predicting elections with hybrid topic based sentiment analysis of tweets
US10567329B2 (en) Methods and apparatus for inserting content into conversations in on-line and digital environments
US10311120B2 (en) Method and apparatus for identifying webpage type
CN104156490A (en) Method and device for detecting suspicious fishing webpage based on character recognition
JP2005339545A (en) Detection of search engine spam using external data
JP5884740B2 (en) Time-series document summarization apparatus, time-series document summarization method, and time-series document summarization program
CN113779481B (en) Method, device, equipment and storage medium for identifying fraud websites
CN106383862B (en) Illegal short message detection method and system
CN110147839A (en) The method that algorithm based on XGBoost generates domain name detection model
WO2015062377A1 (en) Device and method for detecting similar text, and application
KR100742130B1 (en) Method and system for detecting spam based on keyword
CN114357335A (en) Information acquisition method, medium, device and computing equipment
US8121991B1 (en) Identifying transient paths within websites
Park et al. Towards text-based phishing detection
Pereira et al. Sentiment retrieval on web reviews using spontaneous natural speech
US11647046B2 (en) Fuzzy inclusion based impersonation detection
Liu et al. An improved topic detection method for chinese microblog based on incremental clustering.
CN111563276B (en) Webpage tampering detection method, detection system and related equipment
KR100770163B1 (en) Method and system for computing spam index
JP6279354B2 (en) Topic identification device and topic identification method
Xie et al. A topic detection method for Chinese microblog
Vo et al. Adremover: the improved machine learning approach for blocking ads
KR101218575B1 (en) Trackback spam detection system and method thereof
Dhiman et al. Fake News Detection Datasets: A Review and Research Opportunities
JP2008071040A (en) Method and program for extracting company name

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20120629

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130626

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150701

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160701

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20170704

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20190701

Year of fee payment: 13