KR100902475B1 - Method and System for Deciding Spam Document - Google Patents

Method and System for Deciding Spam Document Download PDF

Info

Publication number
KR100902475B1
KR100902475B1 KR1020070050744A KR20070050744A KR100902475B1 KR 100902475 B1 KR100902475 B1 KR 100902475B1 KR 1020070050744 A KR1020070050744 A KR 1020070050744A KR 20070050744 A KR20070050744 A KR 20070050744A KR 100902475 B1 KR100902475 B1 KR 100902475B1
Authority
KR
South Korea
Prior art keywords
spam
document
word
index
technique
Prior art date
Application number
KR1020070050744A
Other languages
Korean (ko)
Other versions
KR20080104425A (en
Inventor
김회록
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020070050744A priority Critical patent/KR100902475B1/en
Publication of KR20080104425A publication Critical patent/KR20080104425A/en
Application granted granted Critical
Publication of KR100902475B1 publication Critical patent/KR100902475B1/en

Links

Images

Classifications

    • G06Q50/60
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • G06V30/2268Character recognition characterised by the type of writing of cursive writing using stroke segmentation
    • G06V30/2272Character recognition characterised by the type of writing of cursive writing using stroke segmentation with lexical matching
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Abstract

스팸문서 판단 시스템의 재현율 및 정확율을 함께 증가시키기 위해 복수개의 스팸탐지 기법을 적용할 수 있는 본 발명의 일 실시예에 따른 스팸문서 평가방법은, 소정 문서로부터 소정 정보를 추출하는 단계; 및 상기 추출된 정보에 대해 복수개의 스팸 탐지 기법을 적용함으로써 상기 문서의 스팸 여부를 판단하는 단계를 포함하는 것을 특징으로 한다.Spam document evaluation method according to an embodiment of the present invention that can be applied to a plurality of spam detection techniques to increase the reproducibility and accuracy of the spam document determination system, extracting predetermined information from a predetermined document; And determining whether the document is spam by applying a plurality of spam detection techniques to the extracted information.

여기서, 상기 스팸 여부 판단 단계는, 상기 추출된 정보에 상기 복수개의 탐지기법을 적용하여 상기 문서의 스팸 여부를 탐지하는 단계; 상기 각각의 스팸탐지 기법에 의해 상기 문서가 스팸인 것으로 탐지될 때마다 상기 각각의 스팸탐지 기법에 부여된 소정의 스팸지수를 상기 문서에 할당하는 단계; 및 상기 스팸지수의 합이 기준치 이상인 경우 상기 문서를 스팸으로 결정하는 단계를 포함하는 것을 특징으로 한다.The determining whether or not the spam may include: detecting whether the document is spam by applying the plurality of detection techniques to the extracted information; Assigning each document a predetermined spam index assigned to each spam detection technique whenever the document is detected as spam by the respective spam detection technique; And determining that the document is spam when the sum of the spam indices is equal to or greater than a reference value.

스팸, 필터링, 문서, 베이지안, 재현율, 정확율 Spam, Filtering, Documents, Bayesian, Recall, Accuracy

Description

스팸문서 판단 시스템 및 방법 {Method and System for Deciding Spam Document}Spam Document Determination System and Method {Method and System for Deciding Spam Document}

도 1 은 본 발명의 일 실시예에 따른 스팸문서 판단 시스템의 개략적인 블록도.1 is a schematic block diagram of a spam document determination system according to an embodiment of the present invention.

도 2 는 도 1 에 도시된 스팸문서 판단 시스템을 이용하여 소정 문서의 스팸여부를 결정하는 방법을 보여주는 플로우차트.FIG. 2 is a flowchart showing a method of determining whether a predetermined document is spam by using the spam document determination system shown in FIG. 1.

도 3 은 도 1 의 스팸문서 탐지부에 의해 사용된 스팸탐지 기법들을 적용하여 산출된 각 스팸탐지 기법들의 정확율 및 재현율을 보여주는 그래프.3 is a graph showing the accuracy and reproducibility of each spam detection technique calculated by applying the spam detection techniques used by the spam document detection unit of FIG.

도 4 는 도 1 에 도시된 스팸문서 판단 시스템이 스팸으로 오판한 문서 중 각 스팸탐지 기법들이 스팸으로 판단한 문서가 차지하는 비율을 보여주는 도표.FIG. 4 is a diagram showing a proportion of documents that are determined to be spam by spam detection techniques among documents that the spam document determination system shown in FIG. 1 is mistaken for spam.

<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

10: 스팸문서 판단 시스템 12: 정보 추출부10: spam document determination system 12: information extraction unit

14: 스팸 판단부 16: 단어 재조립부14: spam judgment 16: word reassembly

18: 색인어 추출부 20: 스팸문서 탐지부18: index word extraction unit 20: spam document detection unit

22: 스팸문서 결정부 24: 평가부22: spam document determination unit 24: evaluation unit

26: 스팸지수 재조정부26: spam index readjustment unit

본 발명은 스팸문서 판단 시스템에 관한 것으로서, 보다 구체적으로, 스팸문서 판단 시스템의 재현율 및 정확율을 함께 증가시킬 수 있는 스팸문서 판단 시스템 및 그 방법에 관한 것이다.The present invention relates to a spam document determination system, and more particularly, to a spam document determination system and method that can increase the reproducibility and accuracy of the spam document determination system.

최근 인터넷 서비스와 검색 서비스의 발달로 인해 검색 포탈을 통한 검색요청이 급격하게 증가하고 있으며, 이로 인해 검색 요청에 상응하는 검색 결과의 제공이 수익으로 직결되는 경우 또한 급증하고 있다. 최근에는 이러한 점을 악용하여 광고와 같은 스팸 문서를 검색 결과의 상위에 올리려는 시도들이 증가하고 있고, 이에 따라 이런 검색 결과에 포함된 문서가 스팸문서인지를 판단할 수 있는 스팸문서 판단 시스템에 대한 연구가 활발히 진행되고 있다.Recently, due to the development of the Internet service and the search service, the search request through the search portal is rapidly increasing, and as a result, the provision of search results corresponding to the search request is directly increasing. Recently, there has been an increase in attempts to exploit spam, such as advertisements, on top of search results, and as a result, a spam document determination system that can determine whether a document included in such a search result is a spam document. Research is actively underway.

이러한 스팸문서 판단 시스템의 성능은 정확율(Precision)과 재현율(Recall)로 측정된다. 여기서, 정확율이란 스팸필터링 결과 스팸으로 판단된 문서가 실제 스팸문서일 확률을 의미하고, 재현율이란 스팸문서로 판단되어야 할 문서 중 실제 스팸으로 판단된 문서에 대한 확률을 의미한다.The performance of such a spam document determination system is measured by precision and recall. Here, the accuracy rate means the probability that the document determined to be spam as a result of spam filtering is the actual spam document, and the reproducibility rate means the probability of the document determined as the actual spam among the documents to be determined as the spam document.

시스템이 가능한 한 많은 스팸문서를 찾아야 재현율이 좋아지고, 스팸으로 판단된 문서들이 대부분 스팸이어야 정확률이 좋아진다. 그러나, 이러한 두 척도는 동일 시스템에서 서로 배타적인 관계를 지니기 때문에 동일 시스템에서 정확율을 높이게 되면 재현율이 낮아지고, 재현율을 높이게 되면 정확율이 낮아지게 되는 문제점이 있다.If the system finds as many spam documents as possible, the reproducibility improves, and most of the documents judged as spam improve the accuracy. However, since these two measures have an exclusive relationship with each other in the same system, when the accuracy is increased in the same system, the reproducibility is lowered, and when the reproducibility is increased, the accuracy is lowered.

한편, 상술한 스팸문서 판단 시스템을 이용하여 소정 문서가 스팸문서인지를 판단함에 있어서, 소정 문서로부터 단어들을 추출하고, 추출된 단어들을 이용하여 스팸여부를 결정하였는데, 스팸문서 제작자들은 이러한 점을 악용하여 스팸문서로 결정될 수 있는 단어에 특수문자들을 삽입하거나 이러한 단어들 몇 개를 이어 붙여 사용하고 있어, 이러한 방법에 의해 제작된 문서는 스팸문서로 판단되지 못한다는 문제점이 있다.Meanwhile, in determining whether a predetermined document is a spam document by using the above-described spam document determination system, words were extracted from the predetermined document and spam was determined using the extracted words, and spam document producers exploited this point. Therefore, special characters are inserted into words that can be determined as spam documents, or some of these words are connected to each other. Thus, a document produced by such a method cannot be judged as a spam document.

본 발명은 상술한 문제점을 해결하기 위한 것으로서, 스팸문서 판단 시스템의 재현율을 증가시키기 위해 복수개의 스팸탐지 기법을 적용할 수 있는 스팸문서 평가 시스템 및 그 방법을 제공하는 것을 기술적 과제로 한다.SUMMARY OF THE INVENTION The present invention has been made in view of the above-described problem, and it is a technical object of the present invention to provide a spam document evaluation system and a method for applying a plurality of spam detection techniques to increase the reproducibility of the spam document determination system.

또한, 본 발명에 따르면 스팸문서 판단 시스템의 재현율 및 정확율을 모두 증가시키기 위해 스팸문서 판단 결과를 지속적으로 모니터링 함으로써 각 스팸탐지 기법에 부여되는 스팸지수를 재조정할 수 있는 스팸문서 평가 시스템 및 그 방법을 제공하는 것을 다른 기술적 과제로 한다.In addition, according to the present invention, a spam document evaluation system and method capable of re-adjusting the spam index given to each spam detection technique by continuously monitoring the spam document determination result in order to increase both the reproducibility and the accuracy rate of the spam document determination system. It is another technical problem to provide.

또한, 본 발명은 상술한 다른 문제점을 해결하기 위한 것으로서, 소정 문서로부터 단어를 추출하는 과정에 있어서 단어 재조립이나 색인어 추출을 추가로 수행할 수 있는 스팸문서 판단 시스템 및 방법을 제공하는 것을 다른 기술적 과제로 한다.In addition, the present invention is to solve the above-mentioned other problems, to provide a spam document determination system and method that can further perform word reassembly or index word extraction in the process of extracting a word from a predetermined document another technical It is a task.

상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 스팸문서 판단방법 은 소정 문서로부터 소정 정보를 추출하는 단계; 및 상기 추출된 정보에 대해 복수개의 스팸 탐지 기법을 적용함으로써 상기 문서의 스팸 여부를 판단하는 단계를 포함하는 것을 특징으로 한다.Spam document determination method according to an aspect of the present invention for achieving the above object comprises the steps of: extracting predetermined information from a predetermined document; And determining whether the document is spam by applying a plurality of spam detection techniques to the extracted information.

여기서, 상기 스팸 여부 판단 단계는, 상기 추출된 정보에 상기 복수개의 탐지기법을 적용하여 상기 문서의 스팸 여부를 탐지하는 단계; 상기 각각의 스팸탐지기법에 의해 상기 문서가 스팸인 것으로 탐지될 때마다 상기 각각의 스팸탐지 기법에 부여된 소정의 스팸지수를 상기 문서에 할당하는 단계; 및 상기 스팸지수의 합이 기준치 이상인 경우 상기 문서를 스팸으로 결정하는 단계를 포함하는 것을 특징으로 한다.The determining whether or not the spam may include: detecting whether the document is spam by applying the plurality of detection techniques to the extracted information; Assigning each document a predetermined spam index assigned to each spam detection technique each time the document is detected as spam by the respective spam detection method; And determining that the document is spam when the sum of the spam indices is equal to or greater than a reference value.

일 실시예에 있어서, 상기 소정 정보 추출단계에서 상기 문서로부터 추출되는 상기 정보는 단어 또는 링크 정보인데, 상기 추출된 단어에 특수문자가 포함되어 있는 경우 상기 단어로부터 특수문자를 제거한 후 상기 단어를 재조립하거나, 상기 추출된 단어가 기준치 이상으로 긴 경우 색인어 추출을 수행하여 상기 단어를 복수개의 단어로 분리할 수 있다.In one embodiment, the information extracted from the document in the predetermined information extraction step is a word or link information. If the extracted word includes a special character, the word is removed after the special character is removed from the word. When the word is assembled or the extracted word is longer than a reference value, index word extraction may be performed to separate the word into a plurality of words.

한편, 상기 스팸문서 판단 방법은, 상기 스팸 여부 결정 결과를 기초로 하여 상기 각 스팸탐지 기법들의 정확율을 산출하는 단계; 및 상기 각 스팸탐지 기법의 정확율에 따라 상기 스팸 탐지 기법들의 상기 스팸지수를 재조정하는 단계를 더 포함할 수 있다.On the other hand, the spam document determination method, the step of calculating the correct rate of the respective spam detection techniques based on the spam determination result; And adjusting the spam indexes of the spam detection techniques according to the accuracy rate of each spam detection technique.

상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 스팸문서 판단시스템은 소정 문서로부터 소정 정보를 추출하는 정보 추출부; 및 상기 추출된 정보 에 대해 복수개의 스팸 탐지 기법을 적용함으로써 상기 문서의 스팸 여부를 판단하는 스팸 판단부를 포함하는 것을 특징으로 한다.Spam document determination system according to another aspect of the present invention for achieving the above object is an information extraction unit for extracting predetermined information from a predetermined document; And a spam determination unit that determines whether the document is spam by applying a plurality of spam detection techniques to the extracted information.

여기서, 상기 스팸 판단부는, 상기 추출된 정보에 대해 상기 복수개의 스팸 탐지 기법을 적용함으로써 상기 문서의 스팸 여부를 탐지하고, 상기 문서가 스팸으로 탐지되는 경우 상기 각각의 스팸 탐지기법에 부여된 소정의 스팸지수를 상기 문서에 할당하는 스팸문서 탐지부; 및 상기 문서에 할당된 상기 스팸지수의 합을 산출하고 상기 스팸지수의 합이 기준치 이상인 경우 상기 문서를 스팸으로 결정하는 스팸문서 결정부를 포함하는 것을 특징으로 한다.Here, the spam determination unit detects whether or not the document is spam by applying the plurality of spam detection techniques to the extracted information, and when the document is detected as spam, a predetermined number assigned to each spam detection technique. Spam document detection unit for assigning a spam index to the document; And a spam document determination unit for calculating a sum of the spam indexes assigned to the document and determining the document as spam when the sum of the spam indexes is equal to or greater than a reference value.

이하 첨부되는 도면을 참고하여, 본 발명의 바람직한 실시예를 상세하게 설명한다.Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1 은 본 발명의 일 실시예에 따른 스팸문서 판단 시스템의 개략적인 블록도이다. 도시된 바와 같이 스팸문서 판단 시스템은 정보추출부(12) 및 스팸 판단부(14)를 포함한다.1 is a schematic block diagram of a spam document determination system according to an embodiment of the present invention. As illustrated, the spam document determination system includes an information extraction unit 12 and a spam determination unit 14.

정보 추출부(12)는 문서로부터 소정 정보를 추출하는 것으로서, 여기서 문서란 일반적인 웹페이지를 의미하는 것이나 이에 한정되지 않고 컴퓨터 상에서 디스플레이될 수 있는 모든 형태의 문서가 이에 해당된다 할 것이다. 정보추출부(12)는 이러한 문서들로부터 스팸 여부를 판단할 수 있는 소정의 정보들을 추출해 내는데, 일 실시예에 있어서 문서들로부터 추출되는 정보로는 특정 단어 또는 특정 웹페이지의 URL 을 포함하는 링크정보가 해당된다.The information extracting unit 12 extracts predetermined information from a document. Here, the document means a general web page, but is not limited thereto, and any type of document that can be displayed on a computer will correspond to this. The information extracting unit 12 extracts predetermined information that can determine whether or not spam from such documents. In one embodiment, the information extracted from the documents includes a link including a specific word or a URL of a specific web page. Information is applicable.

이러한 정보 추출부(12)는 도시된 바와 같이 단어 추출부(16), 단어 재조립 부(18), 및 색인어 추출부(20)를 포함한다. 단어 추출부(16)는 문서로부터 스팸여부 탐지에 이용될 단어 또는 링크정보를 추출하는데, 문서로부터 단어를 추출함에 있어서는 문서의 공백 단위를 기준으로 하여 추출하는 것이 바람직하다.The information extracting unit 12 includes a word extracting unit 16, a word reassembling unit 18, and an index word extracting unit 20 as shown. The word extractor 16 extracts a word or link information to be used for spam detection from the document. When extracting a word from the document, the word extractor 16 extracts the word based on a space unit of the document.

단어 재조립부(18)는 단어 추출부(16)에 의해 추출된 단어에 특수문자가 포함되어 있는 경우, 추출된 단어로부터 특수문자를 제거한 후 추출된 단어를 재조립한다. 예컨대, 단어 추출부(16)에 의해 "학/자/금/대/출"과 같이 특수문자가 포함된 단어가 추출된 경우, 추출된 단어로부터 특수문자인 "/"를 제거하고 추출된 단어를 재조립하여 "학자금대출"과 같은 단어로 만드는 것이다.When the word extracted by the word extracting unit 16 includes the special characters, the word reassembly unit 18 reassembles the extracted words after removing the special characters from the extracted words. For example, when the word extracting unit 16 extracts a word containing a special character such as "study / child / gold / loan / export", the special word "/" is removed from the extracted word and the extracted word is extracted. Will be reassembled into words like "student loans".

색인어 추출부(20)는 단어 추출부(16)에 의해 추출된 단어의 길이가 기준치 이상으로 긴 경우 추출된 단어에 대해 색인어 추출을 수행함으로써 추출된 단어를 복수개의 단어로 분리한다. 예컨대, 단어 추출부(16)에 의해 "학자금대출신용대출주택대출"과 같은 단어가 추출된 경우, 추출된 단어에 대해 색인어 추출을 수행하여 "학자금", "대출", "신용", "주택" 등과 같은 복수개의 단어로 분리해 내는 것이다.The index word extracting unit 20 separates the extracted word into a plurality of words by performing index word extraction on the extracted word when the length of the word extracted by the word extracting unit 16 is longer than a reference value. For example, when a word such as "student loan" is extracted by the word extracting unit 16, index words are extracted for the extracted word to "student money", "loan", "credit", "housing" "Into multiple words, such as".

상술한 단어 재조립부(18) 및 색인어 추출부(20)는 특정문서가 스팸으로 판단되도록 하는 단어에 특수문자를 포함시키거나 해당 단어를 이어 붙여 사용함으로써 특정문서가 스팸으로 분류되지 않도록 하는 것을 방지하기 위한 구성요소이므로, 단어 재조립부(18) 및 색인어 추출부(20)의 포함여부는 선택적일 수 있다. 또한, 단어 재조립부(18)에 의해 재조립된 단어의 길이가 기준치 이상으로 긴 경우에는 재조립된 단어에 대해 다시 색인어 추출을 수행할 수도 있을 것이다.The word reassembly unit 18 and the index word extracting unit 20 may include a special character in a word that allows a specific document to be determined to be spam, or may include a special character in the word so that the specific document is not classified as spam. Since it is a component for preventing, inclusion of the word reassembly 18 and the index word extraction unit 20 may be optional. In addition, when the length of the word reassembled by the word reassembly unit 18 is longer than the reference value, the index word extraction may be performed again on the reassembled word.

스팸 판단부(14)는 정보 추출부(12)에 의해 추출된 단어 또는 링크정보에 대해 복수개의 스팸 탐지 기법을 적용함으로써 해당 문서가 스팸 문서인지를 판단하는 것으로서, 도시된 바와 같이 스팸문서 탐지부(22) 및 스팸문서 결정부(24)를 포함한다.The spam determination unit 14 determines whether the corresponding document is a spam document by applying a plurality of spam detection techniques to the word or link information extracted by the information extraction unit 12. As illustrated, the spam document detection unit (22) and the spam document determination unit 24.

스팸문서 탐지부(22)는 추출된 단어 또는 링크정보에 복수개의 스팸 탐지 기법들을 적용하여 해당 문서의 스팸 여부를 탐지하고, 각각의 스팸 탐지기법이 해당 문서를 스팸으로 탐지할 때마다 각 스팸탐지 기법에 부여된 스팸지수를 해당 문서에 할당한다.The spam document detector 22 detects whether a document is spam by applying a plurality of spam detection techniques to the extracted word or link information, and each spam detection technique detects each document as spam. The spam index assigned to the technique is assigned to the document.

일 실시예에 있어서, 스팸문서 탐지부(22)가 사용하는 복수개의 탐지기법으로는, 통계 기반 기법, 패턴 매칭 기법, 또는 베이지안(Bayesian) 기법 등이 있다.In one embodiment, a plurality of detection techniques used by the spam document detection unit 22 may be a statistic based technique, a pattern matching technique, a Bayesian technique, or the like.

통계 기반 기법은 추출되는 단어 또는 링크와 같은 소정 정보들로부터 통계 정보를 산출하고, 산출된 통계 정보를 분석하여 해당 문서의 스팸여부를 탐지한다. 여기서, 통계정보란 추출되는 정보의 반복횟수, 추출되는 정보의 중복비율, 추출되는 정보의 길이나 실제 문서의 작성 빈도 등이 있다. 실제 문서 작성 빈도는 실제 글을 작성한 시각을 알 수 있을 때 이용할 수 있는 통계 정보로써 짧은 시간 동안에 대량의 문서가 게재되는 경우 이러한 통계정보를 이용하여 해당 문서의 스팸여부를 탐지할 수 있는 것이다.The statistics-based technique calculates statistical information from predetermined information such as extracted words or links, and analyzes the calculated statistical information to detect whether a corresponding document is spam. Here, the statistical information includes the repetition frequency of the extracted information, the overlapping ratio of the extracted information, the length of the extracted information, the frequency of creating the actual document, and the like. The actual document writing frequency is statistical information that can be used when the actual writing time is known. When a large amount of documents are published for a short time, the statistical information can be used to detect whether the document is spam.

패턴 매칭 기법은 소정 패턴의 단어가 포함되어 있는 문서를 스팸문서로 분류하는 기법으로서 학습이 요구되지 않는 것이므로 긴급이 요구되는 경우에도 패턴만 결정되면 문서의 스팸여부를 결정할 수 있다. 예컨대, 악성코드를 포함하고 있 는 웹페이지나 광고를 목적으로 하는 특정 웹페이지에 대한 링크를 패턴으로 인식하거나, "카드지노"와 같이 정상적이지 않은 특정단어를 패턴으로 인식하고 이러한 패턴이 문서로부터 추출되는 경우 해당 문서를 스팸문서로 탐지하는 것이다.The pattern matching technique is a technique for classifying a document containing a word of a predetermined pattern as a spam document. Since learning is not required, even if an emergency is required, the pattern matching technique may determine whether the document is spammed. For example, a link to a web page containing malicious code or a specific web page for advertising purposes is recognized as a pattern, or a non-normal word such as "card geno" is recognized as a pattern and the pattern is extracted from the document. If extracted, the document is detected as a spam document.

베이지안(Bayesian) 기법은 베이즈 정리(Bayes' Theorem)에서 유래된 기법으로서, 확률모형을 이용한 학습을 통해 스팸문서를 탐지한다. 이러한 베이지안 분류기법은 크게 나이브 베이지안(Naive-Bayesian)과 파울 그라함의 베이지안(Paul Graham's Bayesian)으로 구분된다.The Bayesian technique is derived from Bayes' Theorem and detects spam documents through learning using probability models. These Bayesian classification techniques are largely divided into Naive-Bayesian and Paul Graham's Bayesian.

먼저, 나이브 베이지안 분류기법은 해당 문서가 스팸일 확률 P(S|D)가 해당 문서가 정상일 확률 P(N|D)보다 클 때, 즉, P(S|D)>P(N|D)인 경우 해당 문서를 스팸으로 탐지하게 된다. 여기서, 해당 문서가 스팸일 확률 P(S|D)와 정상일 확률 P(N|D)는 다음의 수학식 1 및 2 에 의해 산출된다.First, the naive Bayesian classification technique is used when the probability that the document is spam P (S | D) is greater than the probability that the document is normal, P (N | D), that is, P (S | D)> P (N | D). Is detected as spam. Here, the probability that the document is spam P (S | D) and the probability P (N | D) that is normal is calculated by the following equations (1) and (2).

Figure 112007038218520-pat00001
Figure 112007038218520-pat00001

Figure 112007038218520-pat00002
Figure 112007038218520-pat00002

수학식 1 및 수학식 2에 의할 때, 아래의 수학식 3을 만족하는 경우 해당 문서가 스팸으로 분류됨을 알 수 있다.According to Equations 1 and 2, if the following Equation 3 is satisfied, the document is classified as spam.

Figure 112007038218520-pat00003
Figure 112007038218520-pat00003

여기서, 해당 문서는 문서에 포함된 단어들의 집합(w=w1, w2, …, wn)으로 간주할 수 있고, 베이즈의 정리에 의할 때 각 속성들은 모두 독립적이므로 P(D|S)는 다음의 수학식 4와 같이 표현할 수 있다.Here, the document can be regarded as a set of words (w = w1, w2, ..., wn) included in the document, and P (D | S) It can be expressed as Equation 4 below.

Figure 112007038218520-pat00004
Figure 112007038218520-pat00004

즉, 나이브 베이지안 기법은 상기와 같은 수학식 1 내지 4를 이용하여 해당문서의 스팸 여부를 탐지하게 된다.That is, the naive Bayesian technique detects whether the document is spam by using Equations 1 to 4 as described above.

다음으로, 파울 그라함의 베이지안 분류기법은 상술한 나이브 베이지안 기법을 개선한 것으로서, 먼저, 수학식 5에 기재된 것과 같이 문서에 특정단어 w 가 존재할 때 그 문서가 스팸일 확률값 P(S|w)를 산출한다.Next, Paul Graham's Bayesian classification technique is an improvement on the Naive Bayesian technique described above. First, when a specific word w exists in a document as described in Equation 5, the probability value P (S | w) of the document is spam. Calculate.

Figure 112007038218520-pat00005
Figure 112007038218520-pat00005

이후, 수학식 6 에 기재된 바와 같이 산출된 확률값과 소정 기준치와의 차이(d)를 산출하고, 산출된 확률값들 중 d 의 값이 큰 n 개의 확률값들에 대해서만 수학식 7 을 이용하여 조합확률(Combinational Probability)을 계산하며, 계산된 조합확률의 값이 문턱값(Threshold) 이상인 경우 해당 문서를 스팸으로 탐지하게 된다.Then, the difference d between the probability value calculated as described in Equation 6 and the predetermined reference value is calculated, and the combined probability (7) is used for only n probability values having a large value d among the calculated probability values. Combinational Probability is calculated and the document is detected as spam if the calculated Combination Probability is equal to or greater than the threshold.

Figure 112007038218520-pat00006
Figure 112007038218520-pat00006

Figure 112007038218520-pat00007
Figure 112007038218520-pat00007

여기서,

Figure 112007038218520-pat00008
은 n 번째 단어가 스팸일 확률값을 나타낸다.here,
Figure 112007038218520-pat00008
Denotes the probability that the nth word is spam.

일 실시예에 있어서, 산출된 확률값은 0 부터 1 사이의 값을 가지게 되므로, 기준치의 값은 그 중간값인 0.5 로 결정하고, 산출된 확률값들 중 d 의 값이 큰 15 개(즉 n=15)의 확률값만을 이용하여 조합확률을 계산할 수 있다.In one embodiment, since the calculated probability values have a value between 0 and 1, the reference value is determined as 0.5, which is the median value, and 15 of the calculated probability values are larger than d (that is, n = 15). The combined probability can be calculated using only the probability value of.

즉, 문서에 출현되는 모든 단어를 기준으로 확률을 계산한다면 문서 내에 정상단어가 많이 포함될수록 스팸 탐지능력이 떨어질 수 있기 때문에, 파울 그라함의 베이지안 기법은 문서에 포함된 단어 중 d 의 값이 큰 일부 단어에 대해서만 스팸여부를 판단함으로써 문서의 스팸여부를 탐지하는 것이다.In other words, if the probability is calculated based on all words appearing in the document, the more the normal words are included in the document, the lower the spam detection ability. Detecting whether or not the document is spam by determining whether the word is spam only.

스팸문서 탐지부(22)는 상술한 복수개의 스팸 탐지 기법들을 추출된 단어 또는 링크정보에 적용하고, 각각의 스팸 탐지기법이 해당 문서를 스팸으로 탐지할 때마다 각 스팸탐지 기법에 부여된 스팸 지수를 해당 문서에 할당하게 된다. 예컨대, 통계 기반 기법에 부여된 스팸지수가 5 이고, 패턴 매칭 기법에 부여된 스팸지수가 10 이며, 베이지안 기법에 부여된 스팸지수가 20 으로 정의되어 있는 경우, 해당문서가 통계 기반 기법에 의해 스팸으로 탐지되는 경우 해당 문서에 5 를 할당하고, 해당문서가 패턴 매칭 기법에 의해서도 스팸으로 탐지되는 경우 해당문서에 다시 10 을 할당하고, 해당문서가 베이지안 기법에 의해서도 스팸으로 탐지되는 경우 해당문서에 다시 20 을 할당하는 것이다.The spam document detection unit 22 applies the plurality of spam detection techniques described above to extracted words or link information, and each spam detection technique detects the document as spam, and the spam index given to each spam detection technique. Will be assigned to the document. For example, if the spam index assigned to the statistics-based method is 5, the spam index assigned to the pattern matching method is 10, and the spam index assigned to the Bayesian method is defined as 20, the document is spammed by the statistics-based method. If it is detected as, assign 5 to the document, if the document is detected as spam also by pattern matching method, then assign 10 to the document again, and if the document is detected as spam also by Bayesian method 20 is allocated.

여기서, 스팸지수는 각 스팸탐지 기법별로 사전에 정해져 있는 것으로서, 스팸지수의 값은 모든 스팸탐지 기법별로 동일하게 정의될 수도 있지만, 각 스팸탐지 기법의 성능에 따라 다르게 정의될 수도 있다.Here, the spam index is defined in advance for each spam detection technique, and the value of the spam index may be defined equally for all spam detection techniques, but may be defined differently according to the performance of each spam detection technique.

스팸문서 결정부(24)는 스팸문서 탐지부(22)에 의해 해당 문서에 할당되는 스팸지수의 합을 산출하고 할당된 스팸지수의 합이 기준치 이상인 경우 해당 문서를 스팸으로 결정하게 된다. 예컨대, 상술한 예에서, 해당문서가 3 가지 기법 모두에 의해 스팸으로 탐지되는 경우 해당문서의 스팸지수의 합은 35 가 되고, 패턴 매칭 기법과 베이지안 기법에 의해서만 스팸으로 탐지되는 경우 해당문서의 스팸지수의 합은 30 이 되며, 베이지안 기법에 의해서만 스팸으로 탐지되는 경우 해당문서의 스팸지수의 합은 20 이 된다. 이렇게 합산된 스팸지수의 합이 기준치 이상인 경우 스팸문서 결정부(20)는 해당문서를 스팸으로 결정하게 되는 것이다.The spam document determination unit 24 calculates the sum of spam indices assigned to the document by the spam document detection unit 22, and determines that the document is spam when the sum of the assigned spam indices is equal to or greater than a reference value. For example, in the above example, if the document is detected as spam by all three techniques, the sum of spam indexes of the document is 35, and if the document is detected as spam only by pattern matching and Bayesian techniques, the spam of the document is detected. The sum of the indexes is 30, and if the spam is detected only by Bayesian techniques, the spam index of the document is 20. If the sum of the summed spam index is more than the reference value spam document determination unit 20 is to determine the document as spam.

일 실시예에 있어서, 스팸문서 판단 시스템(10)은 스팸문서 판단시스템(10)의 성능을 향상시키기 위하여, 평가부(26) 및 스팸지수 재조정부(28)를 더 포함함으로써 스팸 판단부(20)에 의한 판단결과를 토대로 피드백을 수행할 수 있다.In one embodiment, the spam document determination system 10 further includes an evaluation unit 26 and a spam index readjustment unit 28 to improve the performance of the spam document determination system 10. Feedback can be performed based on the judgment result by

평가부(26)는 스팸 판단부(20)에 의해 생성된 판단결과를 기초로 하여 스팸문서 탐지부(22)가 사용한 각 스팸탐지 기법들의 정확율을 산출한다. 일 실시예에 있어서, 정확율이란 해당 스팸 탐지 기법이 스팸으로 탐지한 문서가 실제 스팸문서 로 결정되는 확률을 통해 산출된다.The evaluation unit 26 calculates the accuracy rate of each spam detection technique used by the spam document detection unit 22 based on the determination result generated by the spam determination unit 20. In one embodiment, the accuracy rate is calculated through the probability that the document detected as spam by the spam detection technique is determined as the actual spam document.

스팸지수 재조정부(28)는 평가부(26)에 의해 산출된 각 스팸탐지 기법의 정확율에 따라 스팸 탐지 기법들의 스팸지수를 재조정한다. 구체적으로, 정확율이 높은 순서대로 각 스팸탐지 기법에 대해 가중치를 부여함으로써 스팸지수를 재조정하는 것이다.The spam index readjustment unit 28 readjusts the spam indexes of the spam detection methods according to the accuracy rate of each spam detection method calculated by the evaluator 26. Specifically, the spam index is readjusted by weighting each spam detection technique in the order of high accuracy.

상술한 실시예에 있어서는 각 스팸탐지 기법들의 정확율에 따라 스팸지수를 재조정하는 것으로 기재하였지만, 변형된 실시예에 있어서는 각 스팸탐지 기법들의 재현율 또는 오류율을 평가함으로써 스팸지수를 재조정할 수도 있다.In the above-described embodiment, the spam index is readjusted according to the accuracy rate of each spam detection technique. In the modified embodiment, the spam index may be readjusted by evaluating the reproducibility or error rate of each spam detection technique.

상술한 스팸문서 탐지 시스템을 사용하여 해당 문서가 스팸문서 인지를 판단하는 방법을 도 2 를 참조하여 구체적으로 설명한다.A method of determining whether a corresponding document is a spam document using the above-described spam document detection system will be described in detail with reference to FIG. 2.

먼저, 문서로부터 스팸탐지에 사용될 소정 정보를 추출한다(제 100 단계). 여기서, 소정 정보란 상술한 바와 같이 문서에 포함된 단어 또는 링크정보를 의미한다. 일 실시예에 있어서, 추출된 단어에 특수문자가 포함되어 있는 경우에는(제 102 단계) 해당 단어로부터 특수문자를 제거한 후 단어를 재조립하는 과정을 수행하고(제 104 단계), 추출된 단어의 길이가 기준치 이상으로 긴 경우에는(제 106 단계) 해당 단어에 색인어 추출을 수행하여 해당 단어를 복수개의 단어로 분리할 수도 있다(제 108 단계). 이러한 단어 재조립 단계나 색인어 추출 단계가 선택적으로 수행될 수 과정이라는 것과 단어 재조립 과정을 거친 단어의 길이가 기준치 이상인 경우 색인어 추출과정을 다시 거칠 수 있다는 것은 이미 앞서 설명한 바 있다.First, predetermined information to be used for spam detection is extracted from the document (step 100). Here, the predetermined information means a word or link information included in the document as described above. In one embodiment, when the extracted word includes the special character (step 102), a process of reassembling the word after removing the special character from the word is performed (step 104). When the length is longer than the reference value (step 106), the index word may be extracted to the word to separate the word into a plurality of words (step 108). It has already been described above that the word reassembly step or the index word extraction step may be selectively performed, and that the index word extraction process may be performed again when the length of the word reassembled is greater than or equal to the reference value.

이후, 추출된 정보에 복수개의 스팸탐지 기법을 적용함으로써 해당문서의 스 팸여부를 탐지하고, 해당 문서가 스팸문서로 탐지될 때마다 각각의 스팸탐지 기법에 부여된 스팸지수를 해당 문서에 할당한다(제 110 단계). 즉, 스팸탐지 기법 중 어느 하나에 의해서만 해당 문서가 스팸문서로 탐지되는 경우에는 해당문서에 해당 스팸탐지 기법의 스팸지수만을 할당하고, 모든 스팸탐지 기법에 의해 해당 문서가 스팸문서로 탐지되는 경우에는 해당문서에 각각의 스팸탐지 기법의 스팸지수를 모두 할당하는 것이다.Subsequently, by applying a plurality of spam detection techniques to the extracted information, the system detects whether the document is spam and assigns the spam index assigned to each spam detection technique to the document whenever the document is detected as a spam document. (Step 110). That is, if the document is detected as a spam document only by one of the spam detection techniques, only the spam index of the spam detection technique is assigned to the document, and if the document is detected as a spam document by all the spam detection techniques, The spam index of each spam detection technique is assigned to the document.

일 실시예에 있어서, 문서의 스팸여부를 탐지하기 위해 사용되는 스팸탐지 기법으로는 통계 기반 기법, 패턴 매칭 기법, 베이지안 기법 등이 있으며 이러한 방법들에 대한 상세한 설명은 스팸문서 탐지부(20)의 설명부분에서 이미 기재하였으므로 상세한 설명은 생략하기로 한다.In one embodiment, a spam detection technique used to detect whether a document is spam is a statistical based technique, a pattern matching technique, a Bayesian technique, and the like. A detailed description of these methods is provided in the spam document detection unit 20. Since it has already been described in the description, a detailed description thereof will be omitted.

이후, 해당문서에 할당된 스팸지수의 합을 산출하여 해당 문서의 스팸여부를 결정한다(제 120 단계). 구체적으로, 스팸지수의 합이 기준치 이상인 경우에는 해당문서를 스팸문서로 결정하고, 그렇지 않은 경우에는 스팸으로 결정하지 아니한다.Thereafter, the sum of spam indexes assigned to the document is calculated to determine whether the document is spam (step 120). Specifically, if the sum of spam indices is greater than or equal to the reference value, the document is determined as a spam document, otherwise it is not determined as spam.

일 실시예에 있어서, 스팸문서 판단방법은 피드백과정을 더 포함하여 시스템의 성능을 향상시킬 수 있는데, 이러한 피드백 과정은 다음과 같다.In one embodiment, the spam document determination method may further include a feedback process to improve the performance of the system, which is as follows.

스팸문서 결정결과를 기초로 하여 각 스팸탐지 기법별로 정확율을 산출한 후(제 130 단계), 산출된 정확율이 높은 순서대로 각 스팸탐지 기법에 가중치를 부여함으로써 스팸탐지 기법의 스팸지수를 재조정한다(제 140 단계). 이러한 피드백 과정의 수행을 통해 성능이 뛰어난 스팸탐지 기법의 스팸지수는 상향조정되고, 성 능이 낮은 스팸탐지의 스팸지수는 상대적으로 하향조정되어 시스템의 성능을 개선시킬 수 있게 된다. 변형된 실시예에 있어서는, 각 스팸탐지 기법들의 정확율 뿐만 아니라 각 스팸탐지 기법들의 재현율 또는 오류율을 평가함으로써 스팸지수를 재조정할 수도 있을 것이다.After calculating the accuracy rate for each spam detection technique based on the spam document determination result (step 130), the spam index of the spam detection technique is readjusted by assigning a weight to each spam detection technique in the order of high accuracy. Step 140). Through this feedback process, the spam index of high-performance spam detection technique is raised and the spam index of low-performance spam detection is relatively lowered to improve the system performance. In a modified embodiment, the spam index may be readjusted by evaluating not only the accuracy of each spam detection technique but also the recall or error rate of each spam detection technique.

도 3 은 소정 블로그에 게재된 문서들을 대상으로 상술한 스팸탐지 기법들을 적용하여 산출된 각 스팸탐지 기법들의 정확율 및 재현율을 보여주는 도면이고 도 4 는 본 발명의 스팸문서 판단 시스템이 스팸으로 오판한 문서 중 각 스팸탐지 기법들이 스팸으로 판단한 문서가 차지하는 비율을 보여주는 도면이다. 도 3 에 도시된 바와 같이, 추출된 정보의 출현빈도에 근거한 통계기반 기법의 경우 정확율과 재현율은 높은 편에 속하였지만, 전체 오판 문서 중 출현빈도에 근거하여 스팸으로 판단된 문서의 비율이 88.7%로 그 비율이 너무 높게 나타났음을 알 수 있고, 중복비율에 근거한 통계 기반 기법의 경우 정확율은 출현빈도에 근거한 방식과 비슷하지만 전체 오판 문서 중 중복비율에 근거하여 스팸으로 판단된 문서의 비율은 출현빈도보다 다소 낮음을 알 수 있다.3 is a view showing the accuracy and reproducibility of each spam detection techniques calculated by applying the above-described spam detection techniques to the documents posted on a predetermined blog, Figure 4 is a document misjudged by spam spam determination system of the present invention Each spam detection technique shows the proportion of documents that are determined to be spam. As shown in FIG. 3, in the case of the statistical-based method based on the appearance frequency of the extracted information, the accuracy rate and the reproducibility rate were high, but 88.7% of the documents judged to be spam based on the frequency of appearance of the total misjudged documents were 88.7%. It can be seen that the log ratio is too high.In the case of the statistics-based method based on the overlapping rate, the accuracy rate is similar to that based on the frequency of occurrence, but the percentage of documents judged to be spam based on the overlapping rate among all the miscalculated documents is the frequency of occurrence. It can be seen that it is somewhat lower.

패턴 매칭 기법의 경우 정확율과 재현율 모두 90%대를 나타내고 있고 전체 오판 문서 중 패턴 매칭 기법이 스팸으로 판단한 문서의 비율도 38%대로 비교적 양호한 스팸탐지 기법임을 알 수 있다. 베이지안 기법의 경우 정확율은 패턴 매칭 기법보다 좀 더 높게 나타났지만 재현율은 55% 정도로 패턴 매칭 기법보다 현저히 낮음을 알 수 있다. 이러한 이유로는 첫째, 광고와 같은 스팸문서의 경우 스팸문서 작성자가 매번 새롭게 나타나고 스팸문서에 사용된 단어들도 자주 바뀌기 때문에 최신 데이터들을 이용하여 지속적으로 학습을 시켜주는 것이 중요한데 이 실험에 사용된 학습 데이터는 최신의 학습 데이터가 아닌 기존의 블로그에 게재된 문서만을 바탕으로 한 것이기 때문이다.In the case of the pattern matching technique, both accuracy and recall rate is 90%, and the ratio of the document mismatched by the pattern matching technique is 38%. In the Bayesian technique, the accuracy rate is higher than that of the pattern matching method, but the recall is about 55%, which is significantly lower than the pattern matching method. For this reason, first, in case of spam documents such as advertisements, it is important that the spam authors newly appear each time and the words used in the spam documents change frequently, so that they continuously learn using the latest data. This is because it is based only on the documents posted on existing blogs, not the latest training data.

둘째, 기존의 스팸문서들은 대부분 텍스트로만 작성되었으나, 최근의 스팸문서는 스팸으로 인식되지 않도록 하기 위해 이미지를 삽입하거나, 정상적인 문서에 링크만을 걸어두는 방법 등으로 작성되기 때문에 단순히 단어 통계만으로 스팸문서를 탐지하는 베이지안 기법으로는 탐지해 내기 어려운 문서들이 많이 있다. 이러한 베이지안 기법의 경우 전체 오판 문서 중 베이지안 기법이 스팸으로 판단한 문서의 비율은 9%대로 상당히 낮아 지속적으로 학습이 수행된다면 강력한 스팸탐지 기법이 될 수 있음을 알 수 있다.Second, most existing spam documents are written only in text, but recent spam documents are created by inserting images or linking to normal documents to prevent them from being recognized as spam. There are many documents that are difficult to detect with Bayesian techniques for detection. In the case of Bayesian technique, the percentage of documents which Bayesian technique judged as spam among all misjudged documents is quite low as 9%, and it can be seen that it can be a powerful spam detection technique if continuous learning is performed.

상술한 바와 같이 스팸여부 결정결과를 토대로 생성되는 각 스팸탐지 기법들의 정확율 등과 같은 성능지표를 이용하여 각 스팸탐지 기법들의 스팸지수를 지속적으로 재조정함으로써 스팸문서 판단 시스템의 성능을 개선시키게 되는 것이다.As described above, the performance of the spam document determination system is improved by continuously adjusting the spam index of each spam detection technique by using performance indicators such as the accuracy rate of each spam detection technique generated based on the spam determination result.

상술한 스팸문서 판단 방법은 다양한 컴퓨터 수단을 이용하여 수행될 수 있는 프로그램 형태로도 구현될 수 있는데, 이때 스팸문서 판단 방법을 수행하기 위한 프로그램은 하드 디스크, CD-ROM, DVD, 롬(ROM), 램, 또는 플래시 메모리와 같은 컴퓨터로 판독할 수 있는 기록 매체에 저장된다.The above-mentioned spam document determination method may be implemented in a program form that can be executed using various computer means. In this case, a program for performing the spam document determination method may be a hard disk, a CD-ROM, a DVD, a ROM. Data is stored in a computer-readable recording medium, such as, RAM, or flash memory.

본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 예컨대, 상술한 실시예에 있어서는 스팸탐지 기법으로서 통계 기 반 기법, 패턴 매칭 기법, 또는 Bayesian 기법이 포함되는 것으로 기재하였지만, 이러한 방법 이외에 스팸여부를 탐지할 수 있는 어떠한 방법도 적용이 가능할 수 있다. 일 예로, 평가문서와 유사한 문서를 찾아 해당 문서의 분류를 평가문서의 분류로 채택하는 방법인 K-Nearest Neighbor 기법이나, 어떠한 조건을 나타내는 분기점으로써 Tree Node 를 정의하고 각 조건을 따라 Leaf Node 에 이르면 문서의 분류가 결정되게 하는 Decision Tree 기법 등이 있을 수 있고, 이 외에도 Neural Network 기법이나 SVM(Support Vector Machines)을 이용한 기법 등이 더 포함될 수도 있다.Those skilled in the art to which the present invention pertains will understand that the present invention can be implemented in other specific forms without changing the technical spirit or essential features. For example, in the above-described embodiment, it has been described that the spam detection technique includes a statistics-based technique, a pattern matching technique, or a Bayesian technique. However, any method capable of detecting spam may be applied. For example, the K-Nearest Neighbor technique, which finds documents similar to the evaluation document and adopts the classification of the document as the classification of the evaluation document, or defines a tree node as a branching point indicating a condition, and reaches the leaf node along each condition. There may be a decision tree technique that allows the classification of documents to be determined. In addition, a neural network technique or a technique using support vector machines (SVMs) may be included.

그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.Therefore, it is to be understood that the embodiments described above are exemplary in all respects and not restrictive. The scope of the present invention is shown by the following claims rather than the detailed description, and all changes or modifications derived from the meaning and scope of the claims and their equivalent concepts should be construed as being included in the scope of the present invention. do.

상술한 바와 같이, 본 발명에 따르면, 소정 문서의 스팸여부를 탐지하기 위해 복수개의 스팸탐지 기법을 적용함으로써 스팸문서 평가 시스템의 재현율을 증가시킬 수 있다는 효과가 있다.As described above, according to the present invention, it is possible to increase the reproducibility of the spam document evaluation system by applying a plurality of spam detection techniques to detect spam of a predetermined document.

또한, 본 발명에 따르면 스팸문서 판단 결과를 지속적으로 모니터링 하여 복수개의 스팸탐지 기법의 정확율에 따라 각 스팸탐지 기법의 스팸지수를 다르게 부여할 수 있어 스팸문서 판단 시스템의 재현율과 함께 정확율도 증가시킬 수 있으 며, 각 스팸탐지 기법별로 스팸지수가 부여되기 때문에 새로운 스팸탐지 기법이 등장하더라도 해당 스팸탐지 기법에 스팸지수만을 부여하여 시스템에 바로 적용할 수 있어 시스템의 확장 가능성을 높일 수 있다는 효과도 있다.In addition, according to the present invention, the spam index of each spam detection technique can be assigned differently according to the accuracy rate of the plurality of spam detection techniques by continuously monitoring the spam document determination result, thereby increasing the accuracy rate together with the reproducibility of the spam document determination system. Also, since each spam detection technique is given a spam index, even if a new spam detection technique appears, it can be applied directly to the system by applying only the spam index to the spam detection technique, thereby increasing the expandability of the system.

또한, 본 발명에 따르면 소정 문서로부터 단어를 추출하는 과정에 있어서 단어 재조립이나 색인어 추출을 추가로 수행함으로써 스팸문서로 분류되는 것을 회피하기 위한 스팸문서 제작자들의 의도를 원천적으로 봉쇄할 수 있다는 효과도 있다.In addition, according to the present invention, in the process of extracting a word from a predetermined document, word reassembly or index word extraction is additionally performed, thereby effectively blocking the intention of spam document producers to avoid being classified as spam documents. have.

Claims (19)

문서의 스팸 여부를 판단하는 시스템을 이용하여 스팸문서를 판단하는 방법으로서,As a method of determining spam documents using a system for determining whether a document is spam, 상기 문서로부터 단어 또는 링크 정보를 추출하는 단계;Extracting word or link information from the document; 상기 추출된 단어에 특수문자가 포함되어 있는 경우 상기 단어로부터 특수문자를 제거한 후 상기 단어를 재조립하거나 상기 추출된 단어가 기준치 이상으로 긴 경우 색인어 추출을 수행하여 상기 단어를 복수개의 단어로 분리하는 단계;When the extracted word contains a special character, after removing the special character from the word and reassembling the word, or if the extracted word is longer than the reference value index index extraction to separate the word into a plurality of words step; 상기 추출된 정보에 대해 복수개의 스팸 탐지 기법들을 적용함으로써 상기 문서의 스팸 여부를 판단하는 단계;Determining whether the document is spam by applying a plurality of spam detection techniques to the extracted information; 상기 추출된 정보에 상기 복수개의 스팸 탐지 기법들을 적용하여 상기 문서의 스팸 여부를 판단하는 단계;Determining whether the document is spam by applying the plurality of spam detection techniques to the extracted information; 상기 복수개의 스팸 탐지 기법들 중 각각의 스팸 탐지 기법에 의해 상기 문서가 스팸인 것으로 판단될 때마다 상기 각각의 스팸 탐지 기법에 부여된 소정의 스팸지수를 상기 문서에 할당하는 단계;Assigning the document a predetermined spam index assigned to each spam detection technique whenever the document is determined to be spam by each spam detection technique of the plurality of spam detection techniques; 상기 스팸지수의 합이 기준치 이상인 경우 상기 문서를 스팸으로 결정하는 단계;Determining the document as spam when the sum of the spam indexes is equal to or greater than a reference value; 상기 스팸 여부 결정 결과를 기초로 하여 상기 각각의 스팸 탐지 기법의 정확율을 산출하는 단계; 및Calculating an accuracy rate of each spam detection technique based on the spam determination result; And 상기 각각의 스팸 탐지 기법의 정확율에 따라 상기 각각의 스팸 탐지 기법의 상기 스팸지수를 재조정하는 단계Readjusting the spam index of each spam detection scheme according to the accuracy rate of each spam detection technique 를 포함하는 것을 특징으로 하는 스팸문서 판단 방법.Spam document determination method comprising a. 삭제delete 삭제delete 제 1 항에 있어서, 상기 스팸지수를 재조정하는 단계는,The method of claim 1, wherein the readjustment of the spam index, 상기 산출된 정확율이 높은 순서대로 상기 각각의 스팸 탐지 기법에 가중치를 부여하는 것을 특징으로 하는 스팸문서 판단 방법.Spam document determination method characterized in that the weighting of the respective spam detection techniques in the order of the calculated accuracy is high. 삭제delete 삭제delete 삭제delete 제 1 항에 있어서, 상기 복수개의 스팸 탐지 기법들은 통계 기반 기법, 패턴 매칭 기법, 또는 베이지안(Bayesian) 기법을 포함하는 것을 특징으로 하는 스팸문서 판단 방법.The method of claim 1, wherein the plurality of spam detection techniques include a statistics based technique, a pattern matching technique, or a Bayesian technique. 제 8 항에 있어서, 상기 통계 기반 기법은 상기 추출된 정보의 반복 횟수, 상기 추출된 정보의 중복 비율, 상기 추출된 정보의 길이, 또는 상기 문서의 실제 작성 빈도를 이용하여 상기 문서의 스팸 여부를 판단하는 것을 특징으로 하는 스팸문서 판단 방법.The method of claim 8, wherein the statistics-based technique determines whether the document is spam by using the number of repetitions of the extracted information, the overlapping ratio of the extracted information, the length of the extracted information, or the frequency of actual writing of the document. Spam document determination method, characterized in that judging. 제 8 항에 있어서, 상기 베이지안 기법은 나이브 베이지안(Naive-Bayesian) 기법 또는 파울 그라함의 베이지안(Paul Graham's Bayesian) 기법 중 어느 하나를 이용하는 것을 특징으로 하는 스팸문서 판단 방법.10. The method of claim 8, wherein the Bayesian technique uses one of a Naive-Bayesian technique and a Paul Graham's Bayesian technique. 제 1 항에 있어서, 상기 문서의 스팸여부를 판단하는 단계는,The method of claim 1, wherein the determining of the spam of the document comprises: 상기 추출된 정보를 포함하는 문서가 스팸문서일 확률값들을 산출하는 단계;Calculating probability values that the document including the extracted information is a spam document; 상기 확률값들과 소정 기준치와의 차이값들을 산출하는 단계; 및Calculating difference values between the probability values and a predetermined reference value; And 상기 산출된 차이값들을 이용하여 상기 문서의 스팸 여부를 결정하는 단계Determining whether or not the document is spam using the calculated difference values 를 포함하는 것을 특징으로 하는 스팸문서 판단 방법.Spam document determination method comprising a. 제 11 항에 있어서,The method of claim 11, 상기 확률값들 중 상기 차이값들의 크기 순에 따른 n 개의 확률값들을 이용하여 조합확률값을 산출하는 단계를 더 포함하고,Calculating a combined probability value using n probability values according to the order of the difference values among the probability values; 상기 조합확률값이 문턱값 이상인 경우 상기 문서를 스팸으로 결정하는 것을 특징으로 하는 스팸문서 판단 방법.And determining that the document is spam when the combination probability is greater than or equal to a threshold. 제 1 항, 제 4 항 및 제 8 항 내지 제 12 항 중 어느 하나의 항에 기재된 방법을 수행하기 위한 컴퓨터로 판독 가능한 프로그램이 기록된 기록매체.13. A recording medium having recorded thereon a computer readable program for performing the method according to any one of claims 1, 4 and 8-12. 문서의 스팸 여부를 판단하는 시스템으로서,A system for determining whether a document is spam. 상기 문서로부터 단어 또는 링크 정보를 추출하는 단어 추출부;A word extracting unit which extracts word or link information from the document; 상기 단어 추출부에 의해 추출된 단어에 특수문자가 포함되어 있는 경우 상기 특수문자를 제거한 후 상기 추출된 단어를 재조립하는 단어 재조립부;A word reassembling unit for reassembling the extracted word after removing the special character when the word extracted by the word extracting unit includes the special character; 상기 단어 추출부에 의해 추출된 단어의 길이가 기준치 이상으로 긴 경우 색인어 추출을 통해 상기 단어를 복수개의 단어로 분리하는 색인어 추출부;An index word extracting unit for dividing the word into a plurality of words through index word extraction when the length of the word extracted by the word extracting unit is longer than a reference value; 상기 추출된 정보에 대해 상기 복수개의 스팸 탐지 기법들을 적용함으로써 상기 문서의 스팸 여부를 판단하고, 상기 문서가 스팸으로 판단되는 경우 상기 복수개의 스팸 탐지 기법들 중 각각의 스팸 탐지 기법에 부여된 소정의 스팸지수를 상기 문서에 할당하는 스팸문서 탐지부;It is determined whether or not the document is spam by applying the plurality of spam detection techniques to the extracted information. Spam document detection unit for assigning a spam index to the document; 상기 문서에 할당된 상기 스팸지수의 합을 산출하고 상기 스팸지수의 합이 기준치 이상인 경우 상기 문서를 스팸으로 결정하는 스팸문서 결정부;A spam document determination unit for calculating a sum of the spam indices assigned to the document and determining the document as spam when the sum of the spam indices is equal to or greater than a reference value; 상기 스팸문서 결정부에 의해 결정된 스팸 여부 결정 결과를 기초로 하여 상기 각각의 스팸 탐지 기법의 정확율을 산출하는 평가부; 및An evaluator configured to calculate an accuracy rate of each spam detection technique based on a spam determination result determined by the spam document determiner; And 상기 평가부에 의해 산출된 상기 각각의 스팸 탐지 기법의 정확율에 따라 상기 각각의 스팸 탐지 기법의 상기 스팸지수를 재조정하는 스팸지수 재조정부A spam index readjustment unit which readjusts the spam index of each spam detection method according to the accuracy rate of each spam detection method calculated by the evaluator; 를 포함하는 것을 특징으로 하는 스팸문서 판단 시스템.Spam document determination system comprising a. 삭제delete 삭제delete 삭제delete 삭제delete 삭제delete
KR1020070050744A 2007-05-25 2007-05-25 Method and System for Deciding Spam Document KR100902475B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070050744A KR100902475B1 (en) 2007-05-25 2007-05-25 Method and System for Deciding Spam Document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070050744A KR100902475B1 (en) 2007-05-25 2007-05-25 Method and System for Deciding Spam Document

Publications (2)

Publication Number Publication Date
KR20080104425A KR20080104425A (en) 2008-12-03
KR100902475B1 true KR100902475B1 (en) 2009-06-11

Family

ID=40366042

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070050744A KR100902475B1 (en) 2007-05-25 2007-05-25 Method and System for Deciding Spam Document

Country Status (1)

Country Link
KR (1) KR100902475B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016088954A1 (en) * 2014-12-04 2016-06-09 숭실대학교산학협력단 Spam classifying method, recording medium for implementing same, and spam classifying device
KR20190107830A (en) 2018-03-13 2019-09-23 국민대학교산학협력단 Spam-tag based blog spam detection apparatus and method, storage media storing the same

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101291076B1 (en) * 2011-08-24 2013-08-23 숭실대학교산학협력단 Method and apparatus for determining spam document

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030069567A (en) * 2002-02-22 2003-08-27 주식회사 네오위즈 Method and Apparatus for Filtering Spam Mails
KR20040064232A (en) * 2003-01-09 2004-07-16 마이크로소프트 코포레이션 Framework to enable integration of anti-spam technologies

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030069567A (en) * 2002-02-22 2003-08-27 주식회사 네오위즈 Method and Apparatus for Filtering Spam Mails
KR20040064232A (en) * 2003-01-09 2004-07-16 마이크로소프트 코포레이션 Framework to enable integration of anti-spam technologies

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016088954A1 (en) * 2014-12-04 2016-06-09 숭실대학교산학협력단 Spam classifying method, recording medium for implementing same, and spam classifying device
KR20160067473A (en) 2014-12-04 2016-06-14 숭실대학교산학협력단 Method for spam classfication, recording medium and device for performing the method
KR20190107830A (en) 2018-03-13 2019-09-23 국민대학교산학협력단 Spam-tag based blog spam detection apparatus and method, storage media storing the same

Also Published As

Publication number Publication date
KR20080104425A (en) 2008-12-03

Similar Documents

Publication Publication Date Title
CN109302410B (en) Method and system for detecting abnormal behavior of internal user and computer storage medium
CN111198995B (en) Malicious webpage identification method
Howedi et al. Text classification for authorship attribution using Naive Bayes classifier with limited training data
CN109582833B (en) Abnormal text detection method and device
US20120221602A1 (en) Method and apparatus for word quality mining and evaluating
KR101697875B1 (en) Method for analying document based on graph model and system thereof
KR20080075501A (en) Information classification paradigm
CN106376002B (en) Management method and device and spam monitoring system
EP3703329B1 (en) Webpage request identification
CN112541476B (en) Malicious webpage identification method based on semantic feature extraction
KR20180077846A (en) Apparatus and method for detecting debatable document
CN111753290A (en) Software type detection method and related equipment
JP6070501B2 (en) Information processing apparatus and information processing program
CN114746859A (en) Evaluation method, evaluation program, and information processing device
KR100902475B1 (en) Method and System for Deciding Spam Document
CN111221960A (en) Text detection method, similarity calculation method, model training method and device
Sintaha et al. An empirical study and analysis of the machine learning algorithms used in detecting cyberbullying in social media
CN112948725A (en) Phishing website URL detection method and system based on machine learning
CN111612284B (en) Data processing method, device and equipment
CN110287314A (en) Long text credibility evaluation method and system based on Unsupervised clustering
CN112464297A (en) Hardware Trojan horse detection method and device and storage medium
KR102246405B1 (en) TF-IDF-based Vector Conversion and Data Analysis Apparatus and Method
VanDam et al. You have been caute! early detection of compromised accounts on social media
KR101692244B1 (en) Method for spam classfication, recording medium and device for performing the method
CN110855635A (en) URL (Uniform resource locator) identification method and device and data processing equipment

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
J201 Request for trial against refusal decision
AMND Amendment
E902 Notification of reason for refusal
B701 Decision to grant
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120329

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160329

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170328

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 11