KR101692244B1 - Method for spam classfication, recording medium and device for performing the method - Google Patents

Method for spam classfication, recording medium and device for performing the method Download PDF

Info

Publication number
KR101692244B1
KR101692244B1 KR1020140172921A KR20140172921A KR101692244B1 KR 101692244 B1 KR101692244 B1 KR 101692244B1 KR 1020140172921 A KR1020140172921 A KR 1020140172921A KR 20140172921 A KR20140172921 A KR 20140172921A KR 101692244 B1 KR101692244 B1 KR 101692244B1
Authority
KR
South Korea
Prior art keywords
document
spam
classification
feature
length
Prior art date
Application number
KR1020140172921A
Other languages
Korean (ko)
Other versions
KR20160067473A (en
Inventor
이수원
심상권
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Priority to KR1020140172921A priority Critical patent/KR101692244B1/en
Priority to PCT/KR2015/004529 priority patent/WO2016088954A1/en
Publication of KR20160067473A publication Critical patent/KR20160067473A/en
Application granted granted Critical
Publication of KR101692244B1 publication Critical patent/KR101692244B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

스팸 분류 방법은, 정상 문서와 스팸 문서로부터, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 단계; 추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여 문서 분류 모델을 생성하는 단계; 분류 대상 문서로부터 단일 문서의 특징을 추출하는 단계; 및 상기 분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 단계를 포함한다. 이에 따라, 효율적이고 경제적인 스팸 차단을 수행할 수 있다.A spam classification method includes extracting, from a normal document and a spam document, a characteristic of a single document including a structural characteristic of the document; Generating a document classification model using a feature of the extracted single document as learning data; Extracting features of a single document from the classification target document; And applying the feature of the classification object document to the classification model to determine whether the classification object document is a spam document. Thus, efficient and economical spam blocking can be performed.

Description

스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치{METHOD FOR SPAM CLASSFICATION, RECORDING MEDIUM AND DEVICE FOR PERFORMING THE METHOD}TECHNICAL FIELD [0001] The present invention relates to a spam classification method, a recording medium for performing the spam classification method, and a spam classification apparatus,

본 발명은 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 단일 문서의 특징 분석을 이용한 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것이다.BACKGROUND OF THE INVENTION 1. Field of the Invention The present invention relates to a spam classification method, a recording medium and an apparatus for performing the spam classification method, and more particularly, to a spam classification method using characteristic analysis of a single document, and a recording medium and apparatus for performing the spam classification method.

블로그는 개인의 생각이나 기록을 남기는 미디어로서 인터넷과 웹의 발전으로 다양한 분야의 컨텐츠를 생산하고 운영되며, 포털 사이트는 블로그 게시물을 포함한 검색 서비스를 제공하거나 다양한 형태의 블로그 서비스를 제공하고 있다. 그러나 이러한 블로그는 개인이 작성한 게시물과 스패머가 기계적으로 만든 스팸 게시물이 혼재하고 있어, 사용자들은 유용한 정보를 얻기 어려워지고 검색 엔진의 검색 성능을 저하시키는 요인으로 나타난다.A blog is a medium that leaves a personal thought or a record. It develops and operates contents of various fields through the development of the Internet and the web. The portal site provides a search service including a blog post or various types of blog services. However, these blogs are mixed with spammers' posts made by individuals and spammers made by the spammers, making it difficult for users to obtain useful information and deteriorating the search performance of search engines.

스팸의 유형으로 특정 사이트의 검색 순위를 높이기 위한 링크스팸(Link spam)과 뉴스나 다른 블로그 컨텐츠를 도용하여 스팸 키워드를 삽입하는 컨텐츠 스팸(Content spam)이 있다. 링크스팸을 분석하는 방법으로는 페이지랭크(PageRank) 기법을 활용하여 신뢰 문서 또는 스팸 문서로부터 연결망을 구성해 문서를 분류한다. 컨텐츠 스팸 분석 방법은, 일반적으로 텍스트 문서의 문장을 분해하여 단어에 관한 빈도 정보를 사용하거나 문서의 특징을 추출하여 정상 문서와 스팸 문서의 차이점을 찾아내는 것으로 문서를 분류한다.Link Spam is a type of spam that is used to increase the search ranking of a specific site, and content spam that inserts spam keywords by stealing news or other blog contents. Link spam can be analyzed using a PageRank technique to classify documents by constructing a link from a trust document or a spam document. Content spam analysis methods classify documents by decomposing sentences of text documents and using frequency information about words or extracting characteristics of documents to find differences between normal documents and spam documents.

종래 기술들은 일반적으로 문서에 등장하는 단어의 등장 빈도를 특징으로 사용한다. 단어의 등장 빈도는 문서 내에서 얼마나 자주 등장하는지와 전체 문서에서 흔하게 등장하는지를 파악하게 되는데, 전체 문서에서 단어의 등장 빈도를 얻으려면 단어가 포함된 문서를 찾아서 빈도를 계산하게 된다. 따라서, 학습 데이터의 모든 단어의 등장 빈도를 계산하기 위해서는 메모리 사용량과 빈도 계산 시간이 추가적으로 소요된다. Conventional techniques typically use the frequency of occurrence of words appearing in a document. The frequency of occurrence of a word is determined by how often it appears in the document and whether it appears frequently in the entire document. To obtain the frequency of occurrence of the word in the entire document, the document containing the word is found and the frequency is calculated. Therefore, in order to calculate the frequency of appearance of all the words of the learning data, the memory usage and frequency calculation time are additionally required.

또한, 학습 데이터가 많은 경우 메모리 사용량도 증가하게 되는데 메모리 사용량이 하드웨어 임계치를 넘어선다면 다른 문서를 참조하기 어려워진다. 메모리 사용량 문제를 해결하기 위해 분산처리를 적용한 방법들은 계산복잡도가 증가하는 단점이 있다.In addition, if there is a lot of learning data, the memory usage also increases. If the memory usage exceeds the hardware threshold, it becomes difficult to refer to other documents. Methods using distributed processing to solve the memory usage problem have a disadvantage that computational complexity increases.

또한, 기존의 스팸 문서 분류 방법은, 학습을 위해 자질어를 사용하거나 DF(Document Frequency)와 같이 단어가 등장하는 문서의 빈도를 특징으로 사용한다. 가장 기본적인 방법 중 하나인 DF는 ‘단어가 등장한 문서 수’로서 단어가 등장한 모든 문서를 참조해야 하는데, 많은 양의 문서 집합을 사용해 특징을 추출하면 단어가 등장한 모든 문서의 크기가 사용 가능한 메모리 제한을 넘어가므로 계산이 어렵다는 단점이 있다.In addition, the existing spam document classification method uses characteristic words such as DF (Document Frequency) or the like for learning. One of the most basic methods, DF, is to refer to all the documents in which the word appears as a "number of documents with words." Extracting features using a large set of documents means that the size of every document in which the word appears will limit the available memory It is difficult to calculate.

KRKR 10-090247510-0902475 B1B1 KRKR 10-061475110-0614751 B1B1

Sahami, M., Dumais, S., Heckerman, D., Horvitz, E. "A Bayesian approach to filtering junk e-mail." Learning for Text Categorization: Papers from the 1998 workshop. Vol. 62. 1998. Pp. 98-105.  Sahami, M., Dumais, S., Heckerman, D., Horvitz, E. "A Bayesian approach to filtering junk e-mail." Learning for Text Categorization: Papers from the 1998 workshop. Vol. 62. 1998. Pp. 98-105. 이성진, 백종범, 한정석, 이수원. “특수 문자 및 단어 빈도 비율을 이용한 스팸 필터링 방법.” 한국정보과학회 학술발표논문집 38.1C 2011. pp. 280-283. Lee,. "A Spam Filtering Method Using Special Character and Word Frequency Ratios." Proceedings of the Korean Information Science Society Conference 38.1C 2011. pp. 280-283.

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 단일 문서에서 특징을 추출하여 스팸 필터링에 소요되는 시간과 비용을 절감할 수 있는 스팸 분류 방법을 제공하는 것이다.SUMMARY OF THE INVENTION Accordingly, the present invention has been made in view of the above problems, and it is an object of the present invention to provide a spam classification method that extracts features from a single document and saves time and cost for spam filtering.

본 발명의 다른 목적은 상기 스팸 분류 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.Another object of the present invention is to provide a recording medium on which a computer program for performing the spam classification method is recorded.

본 발명의 또 다른 목적은 상기 스팸 분류 방법을 수행하기 위한 장치를 제공하는 것이다.It is still another object of the present invention to provide an apparatus for performing the spam classification method.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 스팸 분류 방법은, 정상 문서와 스팸 문서로부터, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 단계; 추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여 문서 분류 모델을 생성하는 단계; 분류 대상 문서로부터 단일 문서의 특징을 추출하는 단계; 및 상기 분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 단계를 포함한다.According to another aspect of the present invention, there is provided a spam classification method comprising: extracting a characteristic of a single document including a structural characteristic of a document from a normal document and a spam document; Generating a document classification model using a feature of the extracted single document as learning data; Extracting features of a single document from the classification target document; And applying the feature of the classification object document to the classification model to determine whether the classification object document is a spam document.

본 발명의 실시예에서, 상기 단일 문서의 특징은, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도 중 적어도 하나의 특징을 포함할 수 있다.In an embodiment of the present invention, the characteristics of the single document include at least one of a document length, a document length ratio, the number of images, the number of HTML tags, the ratio of blank characters, the number of new line characters, The number of the anchor tags, and the similarity of the title and the first sentence of the body.

본 발명의 실시예에서, 상기 단일 문서의 특징은, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도를 모두 포함할 수 있다.In an embodiment of the present invention, the characteristics of the single document include at least one of a document length, a document length ratio, the number of images, the number of HTML tags, the ratio of blank characters, the number of new line characters, The number of anchor tags, and the similarity between the title and the first sentence of the text.

본 발명의 실시예에서, 상기 단일 문서의 특징은, 각 특징마다 정해진 수식을 통해 특징값으로 계산될 수 있다.In an embodiment of the present invention, the characteristic of the single document can be calculated as a characteristic value through a predetermined formula for each characteristic.

본 발명의 실시예에서, 상기 문서 분류 모델을 생성하는 단계는, 정상 문서의 각 특징값과 태깅값 및 스팸 문서의 각 특징값과 태깅값을 저장하는 단계를 포함할 수 있다.In an embodiment of the present invention, the step of generating the document classification model may include storing each feature value and a tagging value of a normal document, and each feature value and a tagging value of the spam document.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 스팸 분류 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다. According to another embodiment of the present invention, a computer program for performing a spam classification method is recorded in a computer-readable storage medium.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 스팸 분류 장치는, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 특징 추출부; 정상 문서와 스팸 문서로부터 추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여, 정상 문서와 스팸 문서를 판별하기 위한 문서 분류 모델을 생성하는 모델 생성부; 및 분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 스팸 판별부를 포함한다.According to another aspect of the present invention, there is provided a spam classification apparatus comprising: a feature extraction unit for extracting a feature of a single document including structural features of a document; A model generating unit for generating a document classification model for discriminating a normal document and a spam document by using a characteristic of the single document extracted from the normal document and the spam document as learning data; And a spam determination unit for determining whether the classification target document is a spam document by applying a characteristic of the classification object document to the classification model.

본 발명의 실시예에서, 상기 추출부는, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도 중 적어도 하나의 특징을 추출할 수 있다.In the embodiment of the present invention, the extracting unit extracts the length of the document, the length ratio of the document, the number of images, the number of HTML tags, the ratio of blank characters, the number of new line characters, The number and the similarity of the title and the first sentence of the text can be extracted.

본 발명의 실시예에서, 상기 추출부는, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도의 특징을 모두 추출할 수 있다.In the embodiment of the present invention, the extracting unit extracts the length of the document, the length ratio of the document, the number of images, the number of HTML tags, the ratio of blank characters, the number of new line characters, It is possible to extract both the number and the characteristics of the title and the similarity of the first sentence of the text.

본 발명의 실시예에서, 상기 단일 문서의 특징은, 각 특징마다 정해진 수식을 통해 계산된 특징값일 수 있다.In an embodiment of the present invention, the feature of the single document may be a feature value calculated through a formula determined for each feature.

본 발명의 실시예에서, 상기 문서 분류 모델은, 정상 문서의 각 특징값과 태깅값 및 스팸 문서의 각 특징값과 태깅값을 저장할 수 있다.In an embodiment of the present invention, the document classification model may store each feature value of a normal document, a tagging value, and each feature value and a tagging value of a spam document.

이와 같은 스팸 분류 방법에 따르면, 단일 문서의 특징만을 활용하므로 스팸 분류를 위한 특징 추출 시간의 단축 및 메모리 효율성을 향상시키는 효과가 있다. 특히, 사전 및 다른 문서를 참조하지 않으므로 스팸 단어 사전 구축에 필요한 시간과 비용을 절감할 있다. 또한, 본 발명에서 제안하는 방법은 단어에 의존적이지 않은 문서의 특징만을 추출하여 학습 문서에 대해 영향을 덜 받으므로, 스팸 구별의 정확도를 향상시킬 수 있다.According to such a spam classification method, since only the characteristics of a single document are utilized, the feature extraction time and memory efficiency for spam classification are improved. In particular, it does not refer to dictionaries and other documents, thus reducing the time and cost of spam word dictionary construction. In addition, the method proposed by the present invention extracts only the features of the document that are not dependent on words, and receives less influence on the learning document, thereby improving the accuracy of the spam discrimination.

도 1은 본 발명의 일 실시예에 따른 스팸 분류 장치의 블록도이다.
도 2는 도 1의 특징 추출부의 상세한 블록도이다.
도 3은 스팸 문서와 정상 문서의 특징별 분포도이다.
도 4는 본 발명의 효과를 검증하기 위해 종래 기술과 정확도 등을 비교한 결과의 그래프이다.
도 5는 본 발명의 일 실시예에 따른 스팸 분류 방법의 흐름도이다.
1 is a block diagram of a spam classification apparatus according to an embodiment of the present invention.
2 is a detailed block diagram of the feature extraction unit of FIG.
FIG. 3 is a distribution map of spam documents and normal documents.
FIG. 4 is a graph showing a result of comparing the accuracy and the like with the conventional technique in order to verify the effect of the present invention.
5 is a flowchart of a spam classification method according to an embodiment of the present invention.

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.The following detailed description of the invention refers to the accompanying drawings, which illustrate, by way of illustration, specific embodiments in which the invention may be practiced. These embodiments are described in sufficient detail to enable those skilled in the art to practice the invention. It should be understood that the various embodiments of the present invention are different, but need not be mutually exclusive. For example, certain features, structures, and characteristics described herein may be implemented in other embodiments without departing from the spirit and scope of the invention in connection with an embodiment. It is also to be understood that the position or arrangement of the individual components within each disclosed embodiment may be varied without departing from the spirit and scope of the invention. The following detailed description is, therefore, not to be taken in a limiting sense, and the scope of the present invention is to be limited only by the appended claims, along with the full scope of equivalents to which such claims are entitled, if properly explained. In the drawings, like reference numerals refer to the same or similar functions throughout the several views.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다. Hereinafter, preferred embodiments of the present invention will be described in more detail with reference to the drawings.

도 1은 본 발명의 일 실시예에 따른 스팸 분류 장치의 블록도이다. 도 2는 도 1의 특징 추출부의 상세한 블록도이다.1 is a block diagram of a spam classification apparatus according to an embodiment of the present invention. 2 is a detailed block diagram of the feature extraction unit of FIG.

본 발명에 따른 스팸 분류는 단일 문서의 특징 분석을 이용하는 것으로, 단일 문서의 특징이란, 다른 문서를 참조하지 않고 계산될 수 있는 특징들을 말한다. 예를 들어, TF(Term Frequency)는 하나의 문서에서 등장하는 단어의 빈도를 나타내지만 DF(Document Frequency)는 단어가 등장하는 문서의 빈도로 전체 문서를 참조해야 얻을 수 있는 특징이다. 즉, 본 발명은 단어에 의존적이지 않은 문서의 특징만을 추출하여 학습 문서에 따라 영향을 덜 받을 수 있다. The spam classification according to the present invention uses a characteristic analysis of a single document. A characteristic of a single document refers to features that can be calculated without referring to other documents. For example, TF (Term Frequency) indicates the frequency of words appearing in one document, but DF (Document Frequency) is a characteristic that can be obtained by referencing the entire document with the frequency of the document in which the word appears. That is, the present invention extracts only the features of the document that are not dependent on the word, and is less affected by the learning document.

도 1을 참조하면, 본 발명에 따른 스팸 분류 장치(10)는 특징 추출부(110), 모델 생성부(130) 및 스팸 판별부(150)를 포함한다.Referring to FIG. 1, the spam classification apparatus 10 according to the present invention includes a feature extraction unit 110, a model generation unit 130, and a spam classification unit 150.

본 발명의 상기 스팸 분류 장치(10)는 스팸 분류를 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 특징 추출부(110) 등의 구성은 상기 스팸 분류 장치(10)에서 실행되는 상기 스팸 분류를 수행하기 위한 소프트웨어에 의해 제어될 수 있다. The spam classification apparatus 10 according to the present invention may be installed with software (application) for performing spam classification, and the configuration of the feature extraction unit 110 and the like may be implemented by the spam classification apparatus 10, And may be controlled by software for performing spam classification.

상기 스팸 분류 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 특징 추출부(110) 등의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.The spam classification device 10 may be a separate terminal or a module of a terminal. In addition, the configuration of the feature extracting unit 110 and the like may be formed of an integrated module or one or more modules. However, conversely, each configuration may be a separate module.

상기 스팸 분류 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다. The spam classification device 10 may be mobile or fixed. The device 10 may be in the form of a server or an engine and may be a device, an apparatus, a terminal, a user equipment (UE), a mobile station (MS) a wireless device, a handheld device, and the like.

예를 들어, 상기 스팸 분류 장치(10)는 사용자의 이동통신 단말기나 컴퓨터 등의 정보 단말기에 구비될 수도 있고, 메일 서버나 문자 메시지 서버에 구비될 수도 있다. 또는, 상기 단말기나 서버와 통신하는 독립적인 장치이거나 서버의 형태일 수도 있다.For example, the spam classification apparatus 10 may be provided in an information terminal such as a user's mobile communication terminal or a computer, or may be provided in a mail server or a text message server. Or it may be an independent device that communicates with the terminal or server, or it may be in the form of a server.

상기 스팸 분류 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.The spam classification apparatus 10 can execute or produce various software based on an operating system (OS), i.e., a system. The operating system is a system program for allowing software to use the hardware of a device. The operating system includes a mobile computer operating system such as Android OS, iOS, Windows Mobile OS, Sea OS, Symbian OS, Blackberry OS, MAC, AIX, and HP-UX.

상기 특징 추출부(110)는 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출한다. 단일 문서의 특징이란, 다른 문서를 참조하지 않고 계산될 수 있는 특징들을 말한다. 여기서 문서란, 일반적인 블로그 등의 웹 페이지를 의미하는 것이나 이에 한정되지 않고 컴퓨터 상에서 디스플레이될 수 있는 모든 형태의 문서가 이에 해당된다 할 것이다.The feature extraction unit 110 extracts features of a single document including structural features of the document. A feature of a single document refers to features that can be calculated without reference to other documents. Here, the document refers to a web page such as a general blog, but not limited thereto, and all types of documents that can be displayed on a computer correspond to the web page.

본 발명에서는, 단일 문서의 특징으로서, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도를 이용할 수 있다. In the present invention, the characteristics of a single document include a document length, a document length ratio, the number of images, the number of HTML tags, the ratio of blank characters, the number of new line characters, the number of words appearing in the main text, And the similarity between the title and the first sentence of the text.

이들 상기 단일 문서의 특징은 종래기술과 다르게 단어에 의존적이지 않은 문서의 특징들이다. 그러나, 상기 예시한 단일 문서의 특징은 일 예에 불과하고, 필요에 따라 특징을 추가, 변경, 삭제할 수 있다.These features of the single document are features of the document that are not word-dependent, unlike the prior art. However, the feature of the single document exemplified above is merely an example, and the feature can be added, changed or deleted as necessary.

상기 특징 추출부(110)는 상기 9개의 단일 문서의 특징을 적어도 하나를 추출한다. 예를 들어, 상기 특징 추출부(110)는 상기 9개의 단일 문서의 특징을 모두 추출할 수 있다. 또는, 상기 9개의 단일 문서의 특징 중 일부만 추출할 수도 있다.The feature extraction unit 110 extracts at least one feature of the nine single documents. For example, the feature extraction unit 110 may extract all the features of the nine single documents. Alternatively, only a part of the features of the nine single documents may be extracted.

상기 특징 추출부(110)는 각 특징마다 정해진 수식을 통해 특징값을 계산하여 정량화할 수 있다. 도 2를 참조하면, 상기 특징 추출부(110)는 각 특징을 추출하기 위한 모듈을 각각 포함하고 있다. 그러나, 다른 실시예로서 하나의 모듈에서 각 특징을 순차적으로 또는 임의의 순서로 또는 동시에 추출할 수도 있다.The feature extracting unit 110 can calculate and quantify the feature value through a predetermined formula for each feature. Referring to FIG. 2, the feature extraction unit 110 includes modules for extracting features. However, as an alternative embodiment, each feature may be extracted sequentially, or in any order, or concurrently, in one module.

이하에서는, 도 3을 참조하여 상기 특징 추출부(110)에서 추출되는 단일 문서의 특징을 자세히 설명한다.Hereinafter, the characteristics of a single document extracted by the feature extraction unit 110 will be described in detail with reference to FIG.

문서의 길이Length of document

HTML 태그를 포함한 문서의 길이는 정상적인 경우 스팸 문서에 비해 긴 경우가 많다. 스팸 문서는 일반적으로 몇 개의 짧은 문장을 이어 붙인 형태로 자동 생성되기 때문에 일정한 문서 길이에 집중되어 있는 것이 특징이다(도 3(a)). 문서의 길이(Di)는 다음의 수학식 1에 의해 계산될 수 있다.Documents containing HTML tags are often longer than spam documents in normal cases. Spam documents are usually created by automatically joining several short sentences, so they are concentrated in a certain document length (Fig. 3 (a)). The length D i of the document can be calculated by the following equation (1).

[수학식 1][Equation 1]

Figure 112014118145278-pat00001
Figure 112014118145278-pat00001

문서의 길이 비율Document length ratio

스팸 문서는 HTML 태그를 많이 사용하지 않고 검색 랭크를 올리기 위한 이슈 키워드나 의미 없는 텍스트를 나열하는 점이 특징이다. 따라서, 문서 길이에 비해서 HTML 태그가 많은 부분을 차지하는 문서들은 정상적인 문서의 비율이 높다(도 3(b)). 문서의 길이 비율은 태그를 제외한 문서의 길이와 태그를 포함한 문서의 길이의 비율로서 아래의 수학식 2와 같이 계산될 수 있다.Spam documents are characterized by the fact that they do not use HTML tags much and list issue keywords or meaningless text to raise search rank. Therefore, documents occupying a large portion of the HTML tag as compared to the document length have a high ratio of normal documents (Fig. 3 (b)). The length ratio of the document is a ratio of the length of the document excluding the tag to the length of the document including the tag, and can be calculated as shown in Equation 2 below.

[수학식 2]&Quot; (2) "

Figure 112014118145278-pat00002
Figure 112014118145278-pat00002

이미지의 개수Number of images

일반적인 검색 환경에서는 검색 키워드를 포함하고 있는 문서를 검색결과로 보여주게 된다. 키워드 검색의 결과로 노출되어야 하는 스팸 문서의 특성상 검색이 되지 않는 이미지보다 키워드를 더 중요시하기 때문에 정상적인 문서에 비해서 문서에 포함된 이미지의 수가 적다(도 3(c)). 이미지의 개수는 다음의 수학식 3에 의해 계산될 수 있다.In a typical search environment, documents containing search keywords are displayed as search results. The number of images included in a document is smaller than that of a normal document (Fig. 3 (c)) because a keyword is more important than an image that is not searched due to the characteristics of a spam document to be exposed as a result of keyword search. The number of images can be calculated by the following equation (3).

[수학식 3]&Quot; (3) "

Figure 112014118145278-pat00003
Figure 112014118145278-pat00003

HTMLHTML 태그의 개수 Number of tags

자동으로 생성되는 스팸 문서의 특성상 글의 내용만 다르고 같은 형식의 HTML 태그를 취하고 있기 때문에 정상 문서에 비해 태그의 수가 적거나 매우 많은 태그를 포함하고 있는 경우가 많다(도 3(d)). 따라서, HTML 태그의 개수는 자동으로 생성되는 스팸 문서를 분류하는데 중요한 척도가 될 수 있을 것이다. HTML 태그의 개수는 다음의 수학식 4에 의해 계산될 수 있다.The nature of the automatically generated spam document is different from that of the spam document and takes the same format of HTML tags, so that the number of tags is often smaller or contains much more tags than the normal document (Fig. 3 (d)). Thus, the number of HTML tags can be an important measure to classify automatically generated spam documents. The number of HTML tags can be calculated by the following equation (4).

[수학식 4]&Quot; (4) "

Figure 112014118145278-pat00004
Figure 112014118145278-pat00004

공백 문자의 비율Percentage of white space

정상적인 문서는 본문에 글의 양이 많아질수록 공백의 개수 또한 증가한다. 반면, 스팸 문서에서는 스팸 키워드를 강조하거나 스팸 키워드로 인식되지 않도록 하기 위해 띄어쓰기를 하지 않거나 띄어쓰기 대신 특수 문자를 사용하는 등 단어를 조작한다. 따라서, 스팸 문서의 경우 공백 문자의 개수가 본문 길이에 비해 비정상적으로 적게 나오게 된다(도 3(e)). 공백 문자의 비율은 다음의 수학식 5에 의해 계산될 수 있다.In normal documents, the larger the amount of text in the text, the greater the number of spaces. On the other hand, spam documents do not use spacing to emphasize spam keywords or to be recognized as spam keywords, or to manipulate words, such as using special characters instead of spacing. Therefore, in the case of a spam document, the number of blank characters is abnormally smaller than the length of the text (Fig. 3 (e)). The ratio of blank characters can be calculated by the following equation (5).

[수학식 5]&Quot; (5) "

Figure 112014118145278-pat00005
Figure 112014118145278-pat00005

새줄New line 문자의 개수 Number of characters

새줄 문자(newline)의 개수도 자동으로 생성되는 스팸 문서의 특징으로, 스팸 문서는 일반적으로 여러 문장들을 이어 붙이면서 새줄 문자를 추가하지 않고 문서를 만들기 때문에 일반 문서에 비해서 적게 나온다(도 3(f)). 새줄 문자의 개수는 다음의 수학식 6에 의해 계산될 수 있다.Spam documents are generally less frequent than regular documents because they create documents without adding newline characters, typically by concatenating multiple sentences (see Figure 3 (f)). ). The number of new line characters can be calculated by the following equation (6).

[수학식 6]&Quot; (6) "

Figure 112014118145278-pat00006
Figure 112014118145278-pat00006

본문에 등장하는 단어의 개수Number of words appearing in the text

스팸 문서 본문의 상단에는 정상적으로 보이는 문장으로 구성하고 아래쪽의 보이지 않는 영역에 내용과는 관련 없는 수많은 이슈 키워드를 삽입하여 해당 키워드로 검색되도록 하는데, 이슈 키워드가 많이 삽입되면 일반적인 문서보다 많은 양의 단어가 포함되어 있어서 스팸일 확률이 높다(도 3(g)). 본문에 등장하는 단어의 개수는 다음의 수학식 7에 의해 계산될 수 있다.It is composed of sentence which is normally visible at the upper part of the body of the spam document, and a large number of issue keywords not related to the contents are arranged in the invisible area at the bottom. Thus, when a large number of issue keywords are inserted, And is highly likely to be spam (Fig. 3 (g)). The number of words appearing in the main text can be calculated by the following equation (7).

[수학식 7]&Quot; (7) "

Figure 112014118145278-pat00007
Figure 112014118145278-pat00007

앵커 태그의 개수Number of anchor tags

앵커 태그(Anchor tag)는 웹 문서의 특징으로 문서 내부에서 다른 문서로 이동할 수 있는 링크를 의미한다. 스팸 문서에서는 앵커 태그를 이용하여 다른 문서의 랭크를 높이거나 원하는 스팸 사이트로 연결할 수 있기 때문에 하나의 문서에서 다수의 앵커 태그를 포함하고 있는 경우가 많다(도 3(h)). 따라서, 앵커 태그의 수 역시 스팸 여부를 판별할 수 있는 하나의 척도가 된다. 앵커 태그의 개수는 다음의 수학식 8에 의해 계산될 수 있다.Anchor tags are the characteristics of a Web document, meaning links that can move from one document to another. In an SPAM document, anchor tags can be used to increase the rank of another document or to link to a desired spam site, so that a document often includes a plurality of anchor tags (Fig. 3 (h)). Therefore, the number of anchor tags is also a measure of whether or not spam is detected. The number of anchor tags can be calculated by the following equation (8).

[수학식 8]&Quot; (8) "

Figure 112014118145278-pat00008
Figure 112014118145278-pat00008

제목과 본문 첫 번째 문장의 유사도Similarity between the title and the first sentence of the text

일반적인 웹 페이지와는 달리 제목과 본문이 명확히 구분되어 있는 블로그를 사용한 스팸 문서는 정상적인 검색 결과처럼 보이기 위해 제목과 같은 문장을 본문의 앞쪽에 위치시킴으로써 검색 결과에 제목과 본문이 같은 내용을 가진 정상적인 문서처럼 나타나게 된다(도 3(i)). 따라서, 첫 문장만 제목과 매우 유사하고 이후의 내용은 제목과 연관이 없는 내용으로 이루어진 문서는 스팸문서로 분류된다. Unlike a typical web page, a spam document that clearly distinguishes between a title and a text is placed in front of the text in order to make it look like a normal search result, so that the search result includes a normal document (Fig. 3 (i)). Therefore, only the first sentence is very similar to the title, and the subsequent contents are classified as spam documents.

문서의 제목과 본문 첫 문장이 유사한 패턴의 스팸문서에 대해서는 Jaccard similarity를 통해 제목과 첫 문장의 유사도를 측정한다. 유사도 계산을 위해 공백(space) 기반으로 단어를 나눌 경우 두 문장이 띄어쓰기 또는 조사, 어미가 다른 경우 같은 단어를 다른 단어로 인식하여 유사도를 계산하기 때문에 정확한 유사도를 측정하기 어렵다. 따라서, 각 문장에 Bi-gram을 적용하여 띄어쓰기 및 단어의 변형 문제를 해결하였다. 제목과 본문 첫 번째 문장의 유사도는 다음의 수학식 9에 의해 계산될 수 있다.For spam documents with a similar pattern to the first sentence of the title of the document, Jaccard similarity measures similarity between the first sentence and the title. In case of dividing a word based on a space for calculation of similarity, it is difficult to measure the similarity because the similarity is calculated by recognizing the same word as another word when two sentences have a space or an irradiation and the ending is different. Therefore, Bi-gram is applied to each sentence to solve the problem of spacing and word variation. The similarity of the first sentence of the title and the body can be calculated by the following equation (9).

[수학식 9]&Quot; (9) "

Figure 112014118145278-pat00009
Figure 112014118145278-pat00009

여기서,

Figure 112014118145278-pat00010
는 문서의 제목이며,
Figure 112014118145278-pat00011
는 본문의 처음 문장이다(단,
Figure 112014118145278-pat00012
).here,
Figure 112014118145278-pat00010
Is the title of the document,
Figure 112014118145278-pat00011
Is the first sentence of the text (note,
Figure 112014118145278-pat00012
).

상기 특징 추출부(110)는 추출된 단일 문서의 특징값을 상기 모델 생성부(130)에 제공하고, 상기 모델 생성부(130)는 상기 특징값을 학습 데이터로 사용하여 학습하고, 정상 문서와 스팸 문서를 판별하기 위한 문서 분류 모델을 생성한다.The feature extraction unit 110 provides the feature value of the extracted single document to the model generation unit 130. The model generation unit 130 learns the feature value using the feature value as learning data, Create a document classification model to identify spam documents.

이를 위해 학습 데이터로서 정상 문서와 스팸 문서로 태깅된 문서들의 특징값을 이용할 수 있다. 예를 들어, 먼저 블로그 문서를 수집하여 수동으로 스팸 문서와 정상 문서를 분류하여 데이터 베이스(20)에 저장할 수 있다. For this purpose, feature values of documents tagged as normal documents and spam documents can be used as learning data. For example, a blog document may be collected first, and a spam document and a normal document may be manually classified and stored in the database 20.

상기 특징 추출부(110)는 상기 데이터 베이스(20)에 저장된 정상 문서와 스팸 문서의 특징값을 추출하고, 상기 모델 생성부(130)는 상기 특징값을 학습하여 각 특징값과 정상 문서와 스팸 문서의 태깅값을 포함하는 문서 분류 모델을 생성한다.The feature extraction unit 110 extracts feature values of a normal document and a spam document stored in the database 20, and the model generation unit 130 learns the feature values, And generates a document classification model including the tagging value of the document.

이후, 스팸 문서인지 판별하기 위한 분류 대상 문서가 입력되면 상기 특징 추출부(110)는 상기 분류 대상 문서로부터 단일 문서의 특징값을 추출하고, 상기 스팸 판별부(150)에 전달한다. 분류 대상 문서는 웹 페이지일 수 있으나, 이에 한정되지 않고 컴퓨터 상에서 디스플레이될 수 있는 모든 형태의 문서가 될 수 있으며, 상기 스팸 분류 장치(10)에 의해 자동으로 수집될 수 있다.Thereafter, when a classification target document for identifying a spam document is input, the feature extraction unit 110 extracts a characteristic value of a single document from the classification target document, and transmits the characteristic value to the spam determination unit 150. The classification target document may be a web page, but is not limited thereto. It may be any type of document that can be displayed on a computer, and may be automatically collected by the spam classification device 10.

상기 스팸 판별부(150)는 상기 분류 대상 문서의 특징값을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하여 출력한다. 본 발명은 단일 문서에서만 추출할 수 있는 특징들만을 사용하여 학습하므로, 특징 추출시간을 단축하고, 메모리 효율성 측면에서 우수하다. 따라서, 효율적으로 스팸을 감지하고 차단할 수 있다.The spam determining unit 150 determines whether the classification target document is a spam document by applying the feature value of the classification target document to the classification model, and outputs the result. Since the present invention learns only features that can be extracted from only a single document, it shortens the feature extraction time and is excellent in memory efficiency. Therefore, it is possible to efficiently detect and block spam.

본 발명의 타당성을 검증하기 위해 같은 데이터 및 학습 알고리즘을 사용하여 종래기술과의 비교 실험을 진행하였다. 종래기술로는 문서에서 단어의 등장확률을 기반으로 스팸을 분류하는 연구(이성진, 백종범, 한정석, 이수원. “특수 문자 및 단어 빈도 비율을 이용한 스팸 필터링 방법.” 한국정보과학회 학술발표논문집 38.1C 2011. pp. 280-283.)를 비교대상으로 하였다. 종래기술은 단어의 등장확률을 계산하기 위해서는 다른 문서를 참조하나, 본 발명은 단일 문서만을 참조한다.In order to verify the feasibility of the present invention, a comparative experiment with the prior art was conducted using the same data and learning algorithm. A method for classifying spam based on probability of occurrence of words in a document (Lee, Seong-jin, Jongbaek, Jae-seok, and Suwon Lee, "Spam Filtering Method Using Special Character and Word Frequency Ratios"). pp. 280-283). The prior art refers to another document to calculate the appearance probability of a word, but the present invention refers to only a single document.

실험을 위해, 인터넷 포털에서 API를 사용하여 94,224건의 블로그 데이터를 수집하여, 스팸 데이터 10,983 건과 정상적인 데이터 83,241 건을 사용하였다. 정상적인 데이터 수가 많아 약 61 %의 데이터만 샘플링하여 사용하여 앞서 제시한 9가지 단일 문서의 특징을 추출하였다. For the experiment, we collected 94,224 blog data using API on internet portal, and used 10,983 spam data and 83,241 normal data. Since the number of normal data is large, only about 61% of the data are sampled and used to extract the characteristics of the nine single documents.

실험 방법으로 10-묶음 교차 검증법(10-fold cross vaidation)을 사용하고 스팸 문서와 정상적인 문서로 이진 분류를 시행하여 정확률(precision)과 재현률(recall)로 평가를 수행하였다. 정확률이란, 스팸 필터링 결과 스팸으로 판단된 문서가 실제 스팸 문서일 확률을 의미하고, 재현률이란 스팸 문서로 판단되어야 할 문서 중 실제 스팸으로 판단된 문서에 대한 확률을 의미한다. 시스템이 가능한 한 많은 스팸 문서를 찾아야 재현률이 좋아지고, 스팸으로 판단된 문서들이 대부분 스팸이어야 정확률이 좋아진다.As a test method, 10-fold cross vaidation was used, and binarization with spam documents and normal documents was performed to evaluate the accuracy and recall. The accuracy rate means a probability that a document judged to be spam as a result of spam filtering is an actual spam document and a recall rate means a probability of a document judged to be spam as a true spam document. As long as the system finds as many spam documents as possible, the recall is improved, and most of the documents judged to be spam are spam, which improves the accuracy.

또한, 스팸 문서 분류에서는 정상 문서를 스팸 문서로 분류하는 경우의 위험도가 반대의 경우보다 훨씬 크다고 할 수 있다. 따라서, FP-Rate에 대한 비교평가도 반드시 필요하며, 이는 아래의 수학식 10에 의해 수행될 수 있다.In addition, in the spam document classification, the risk of classifying normal documents as spam documents is far greater than in the opposite case. Therefore, a comparative evaluation for the FP-Rate is also necessary, which can be performed by Equation (10) below.

[수학식 10]&Quot; (10) "

Figure 112014118145278-pat00013
Figure 112014118145278-pat00013

데이터 마이닝 분야에서 오픈소스로 공개되어 많이 활용되고 있는 Weka를 활용하여 분류 알고리즘인 의사결정트리(Decision tree) 분류 알고리즘으로 실험하였다. 아래의 표 1은 스팸 문서 분류의 혼동 행렬(confusion matrix)을 나타낸다.In the field of data mining, we have been experimenting with a decision tree classification algorithm, which is a classification algorithm, using Weka, which is open to the public and widely used. Table 1 below shows the confusion matrix of the spam document classification.


실험Experiment
스팸spam 정상normal 실제real 스팸spam 10,55210,552 431431 정상normal 344344 82,89782,897

표 1을 참조하면, 정확률(precision)과 재현률(recall)은 각각 0.992와 0.992로 계산되어 F-Measure는 99.2 %를 보였고, FP-Rate는 0.035로 나타났다. 특수문자와 단어의 등장 확률을 기반으로 스팸 여부를 판별한 종래 기술과의 비교 실험을 통한 알고리즘 및 데이터 셋을 사용하여 진행한 비교 실험 결과는 도 4(a)와 같다. Referring to Table 1, the precision and recall were calculated as 0.992 and 0.992, respectively, and the F-measure was 99.2% and the FP-rate was 0.035. 4 (a) shows the result of a comparative experiment conducted using an algorithm and a data set based on a comparison experiment with a conventional technique for determining whether or not spam is based on the probability of occurrence of a special character and a word.

도 4(a)를 참조하면, 비교 실험 결과 본 발명의 정확도가 종래 기술에 비해 0.002 % 우수하였다. 또한, 도 4(b)를 참조하면, 본 발명은 종래 기술에 대비하여 특징 추출 시간이 평균 52 % 단축되었고, 메모리 사용량은 33 % 향상되었다.
Referring to FIG. 4 (a), as a result of a comparative experiment, the accuracy of the present invention was 0.002% higher than that of the prior art. Referring to FIG. 4 (b), the feature extraction time is reduced by 52% on average and the memory usage is improved by 33% in comparison with the prior art.

도 5는 본 발명의 일 실시예에 따른 스팸 분류 방법의 흐름도이다.5 is a flowchart of a spam classification method according to an embodiment of the present invention.

본 실시예에 따른 스팸 분류 방법은, 도 1의 스팸 분류 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 스팸 분류 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다. 또한, 본 실시예에 따른 스팸 분류 방법은 스팸 분류를 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.The spam classification method according to the present embodiment can be performed in substantially the same configuration as the spam classification apparatus 10 of FIG. Therefore, the same components as those of the spam classification device 10 of FIG. 1 are denoted by the same reference numerals, and repeated descriptions are omitted. In addition, the spam classification method according to the present embodiment can be executed by software (application) for performing spam classification.

도 5를 참조하면, 본 실시예에 따른 스팸 분류 방법은, 먼저 문서 분류 모델을 형성하기 위해 학습 데이터 셋을 학습한다. 이를 위해, 정상 문서와 스팸 문서를 수집하여 저장하여 둘 수 있다.Referring to FIG. 5, the spam classification method according to the present embodiment first learns a learning data set to form a document classification model. For this purpose, normal documents and spam documents can be collected and stored.

저장된 정상 문서와 스팸 문서로부터, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출한다(단계 S10). 단일 문서의 특징이란, 다른 문서를 참조하지 않고 계산될 수 있는 특징들을 말한다. 여기서 문서란, 일반적인 블로그 등의 웹 페이지를 의미하는 것이나 이에 한정되지 않고 컴퓨터 상에서 디스플레이될 수 있는 모든 형태의 문서가 이에 해당된다 할 것이다.From the stored normal documents and spam documents, features of a single document including the structural features of the document are extracted (step S10). A feature of a single document refers to features that can be calculated without reference to other documents. Here, the document refers to a web page such as a general blog, but not limited thereto, and all types of documents that can be displayed on a computer correspond to the web page.

상기 단일 문서의 특징은, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도 중 적어도 하나의 특징을 포함하거나 모두를 이용할 수 있다.The characteristics of the single document include a document length, a document length ratio, the number of images, the number of HTML tags, the ratio of blank characters, the number of new line characters, the number of words appearing in the main text, Or at least one of the similarities in the first sentence of the text, or both.

이들 상기 단일 문서의 특징은 종래기술과 다르게 단어에 의존적이지 않은 문서의 특징들이다. 그러나, 상기 예시한 단일 문서의 특징은 일 예에 불과하고, 필요에 따라 특징을 추가, 변경, 삭제할 수 있다.These features of the single document are features of the document that are not word-dependent, unlike the prior art. However, the feature of the single document exemplified above is merely an example, and the feature can be added, changed or deleted as necessary.

상기 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 단계(단계 S10)는, 각 특징마다 정해진 수식을 통해 특징값을 계산하여 정량화할 수 있다. 단일 문서의 각 특징값은 아래의 표 2의 수식들에 의해 계산될 수 있다.The step of extracting features of a single document including the structural features of the document (step S10) can calculate and quantify feature values through a predetermined formula for each feature. Each feature value of a single document can be calculated by the formulas in Table 2 below.

단일 문서의 특징Features of a single document 수학식Equation 문서의 길이Length of document

Figure 112014118145278-pat00014
Figure 112014118145278-pat00014
문서의 길이 비율Document length ratio
Figure 112014118145278-pat00015
Figure 112014118145278-pat00015
이미지의 개수Number of images
Figure 112014118145278-pat00016
Figure 112014118145278-pat00016
HTML 태그의 개수Number of HTML tags
Figure 112014118145278-pat00017
Figure 112014118145278-pat00017
공백 문자의 비율Percentage of white space
Figure 112014118145278-pat00018
Figure 112014118145278-pat00018
새줄 문자의 개수Number of newline characters
Figure 112014118145278-pat00019
Figure 112014118145278-pat00019
본문에 등장하는 단어의 개수Number of words appearing in the text
Figure 112014118145278-pat00020
Figure 112014118145278-pat00020
앵커 태그의 개수Number of anchor tags
Figure 112014118145278-pat00021
Figure 112014118145278-pat00021
제목과 본문 첫 번째 문장의 유사도Similarity between the title and the first sentence of the text
Figure 112014118145278-pat00022
Figure 112014118145278-pat00022

정상 문서와 스팸 문서의 특징을 추출하면, 특징값을 학습 데이터로 사용하여 학습하고, 정상 문서와 스팸 문서를 판별하기 위한 문서 분류 모델을 생성한다(단계 S30). 정상 문서와 스팸 문서의 특징별 분포도는 도 3에 나타난 바와 같다.When the features of the normal document and the spam document are extracted, the feature value is used as learning data, and a document classification model for distinguishing the normal document and the spam document is generated (step S30). The distributions of the normal document and the spam document are shown in Fig.

상기 문서 분류 모델을 생성하는 단계(단계 S30)는, 정상 문서와 스팸 문서의 특징값을 학습하여, 각 특징값과 정상 문서와 스팸 문서의 태깅값을 포함하는 문서 분류 모델을 생성한다.The step of generating the document classification model (step S30) includes learning the feature values of the normal document and the spam document, and creating a document classification model including the feature values, the normal document, and the tagging value of the spam document.

이후, 스팸 문서인지 판별하기 위한 분류 대상 문서가 입력되면 상기 분류 대상 문서로부터 단일 문서의 특징을 추출한다(단계 S50). 분류 대상 문서는 웹 페이지일 수 있으나, 이에 한정되지 않고 컴퓨터 상에서 디스플레이될 수 있는 모든 형태의 문서가 될 수 있으며 상기 스팸 분류 장치(10)에 의해 자동으로 수집될 수 있다.Thereafter, if a classification target document to be a spam document is inputted, the characteristic of a single document is extracted from the classification target document (step S50). The classification target document may be a web page, but is not limited thereto. The classification target document may be any type of document that can be displayed on a computer, and may be automatically collected by the spam classification apparatus 10.

상기 분류 대상 문서의 특징값이 추출되면, 상기 분류 대상 문서의 특징값을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별한다(단계 S70).If the feature value of the classification target document is extracted, the feature value of the classification target document is applied to the classification model to determine whether the classification target document is a spam document (step S70).

본 발명은 단일 문서에서만 추출할 수 있는 특징들만을 사용하여 학습하므로, 특징 추출시간을 단축하고, 메모리 효율성 측면에서 우수하다. 따라서, 효율적으로 스팸을 감지하고 차단할 수 있다.Since the present invention learns only features that can be extracted from only a single document, it shortens the feature extraction time and is excellent in memory efficiency. Therefore, it is possible to efficiently detect and block spam.

이와 같은, 스팸 분류 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. Such a spam classification method may be implemented in an application or may be implemented in the form of program instructions that may be executed through various computer components and recorded on a computer readable recording medium. The computer-readable recording medium may include program commands, data files, data structures, and the like, alone or in combination.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다. The program instructions recorded on the computer-readable recording medium may be ones that are specially designed and configured for the present invention and are known and available to those skilled in the art of computer software.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs and DVDs, magneto-optical media such as floptical disks, media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Examples of program instructions include machine language code such as those generated by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware device may be configured to operate as one or more software modules for performing the processing according to the present invention, and vice versa.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.It will be apparent to those skilled in the art that various modifications and variations can be made in the present invention without departing from the spirit or scope of the present invention as defined by the following claims. You will understand.

본 발명은 단일 문서의 특징만을 활용하므로 스팸 분류를 위한 특징 추출 시간의 단축 및 메모리 효율성을 향상시키므로 자동 분류기 설계 및 구현에 유용하게 활용될 수 있다. 또한, 자료가 방대해지는 현재 및 미래에 문서 분류, 블로그 스팸, 컨텐츠 스팸, 스팸 감지 및 스팸 필터링 분야에서 널리 활용될 수 있을 것이다.Since the present invention utilizes only the characteristics of a single document, it shortens the feature extraction time and improves the memory efficiency for spam classification, and thus can be effectively utilized in the design and implementation of the automatic classifier. In addition, it will be widely used in the field of document classification, blog spam, content spam, spam detection and spam filtering, both now and in the future.

10: 스팸 분류 장치 20: 데이터 베이스
110: 특징 추출부 130: 모델 생성부
150: 스팸 판별부
10: Spam classification device 20: Database
110: Feature extraction unit 130: Model generation unit
150: Spam discrimination unit

Claims (11)

정상 문서와 스팸 문서로부터, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 단계;
추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여 문서 분류 모델을 생성하는 단계;
분류 대상 문서로부터 단일 문서의 특징을 추출하는 단계; 및
상기 분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 단계를 포함하며,
상기 단일 문서의 특징은 문서의 길이, 문서의 길이 비율, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도를 모두 포함하며,
상기 단일 문서의 특징이 문서의 길이 비율이면 태그를 제외한 문서의 길이와 태그를 포함한 문서의 길이의 비율을 계산하여 단일 문서가 스팸 문서인지 판별하고,
상기 단일 문서의 특징이 공백 문자의 비율이면 태그를 제외한 문서의 길이와 공백 문자의 개수의 비율을 계산하여 단일 문서가 스팸 문서인지 판별하는, 스팸 분류 방법.
Extracting from the normal document and the spam document a feature of a single document including structural features of the document;
Generating a document classification model using a feature of the extracted single document as learning data;
Extracting features of a single document from the classification target document; And
Applying a feature of the classification object document to the classification model to determine whether the classification object document is a spam document,
The characteristics of the single document include the length of the document, the length ratio of the document, the number of HTML tags, the ratio of blank characters, the number of new line characters, the number of words appearing in the main text, the number of anchor tags, The degree of similarity,
If the characteristic of the single document is the length ratio of the document, the ratio of the length of the document excluding the tag and the length of the document including the tag is calculated to determine whether a single document is a spam document,
Wherein if the characteristic of the single document is a ratio of the blank character, the ratio of the length of the document excluding the tag and the number of blank characters is calculated to determine whether the single document is a spam document.
제1항에 있어서,
상기 단일 문서의 특징이 새줄 문자의 개수이면 다음 수식 1에 의해 새줄 문자의 개수를 추출하고, 추출된 새줄 문자의 개수가 미리 학습된 스팸 문서의 새줄 문자의 개수보다 많으면 분류 대상 문서를 일반 문서로 인식하며,
수식 1
Figure 112015125640840-pat00037

(여기서,
Figure 112015125640840-pat00038
:문서,
Figure 112015125640840-pat00039
:새줄 문자)
상기 단일 문서의 특징이 앵커 태그의 개수이면 다음 수식 2에 의해 앵커 태그의 개수를 추출하고, 추출된 앵커 태그의 개수가 미리 학습된 스팸 문서의 앵커 태그의 개수보다 적으면 분류 대상 문서를 일반 문서로 인식하는 것을 더 포함하는, 스팸 분류 방법.
수식 2
Figure 112015125640840-pat00040

(여기서,
Figure 112015125640840-pat00041
:문서,
Figure 112015125640840-pat00042
:앵커 태그)
The method according to claim 1,
If the characteristic of the single document is the number of new line characters, the number of new line characters is extracted according to the following equation 1, and if the number of extracted new line characters is larger than the number of new line characters of the learned spam document, Recognize,
Equation 1
Figure 112015125640840-pat00037

(here,
Figure 112015125640840-pat00038
:document,
Figure 112015125640840-pat00039
: Newline character)
If the number of the anchor tags is smaller than the number of the anchor tags of the learned spam document, the classification target document is divided into a general document Further comprising recognizing the spam as a spam.
Equation 2
Figure 112015125640840-pat00040

(here,
Figure 112015125640840-pat00041
:document,
Figure 112015125640840-pat00042
: Anchor tag)
삭제delete 제1항에 있어서, 상기 단일 문서의 특징은,
각 특징마다 정해진 수식을 통해 특징값으로 계산되는, 스팸 분류 방법.
The method of claim 1,
Wherein the feature value is calculated by a formula determined for each feature.
제4항에 있어서, 상기 문서 분류 모델을 생성하는 단계는,
정상 문서의 각 특징값과 태깅값 및 스팸 문서의 각 특징값과 태깅값을 저장하는 단계를 포함하는, 스팸 분류 방법.
5. The method of claim 4, wherein generating the document classification model comprises:
Storing each feature value and a tagging value of each normal document and each feature value and a tagging value of the spam document.
제1, 2, 4, 5항 중 어느 하나의 항에 따른 스팸 분류 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
A computer-readable recording medium storing a computer program for performing the spam classification method according to any one of claims 1, 2, 4, and 5.
문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 특징 추출부;
정상 문서와 스팸 문서로부터 추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여, 정상 문서와 스팸 문서를 판별하기 위한 문서 분류 모델을 생성하는 모델 생성부; 및
분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 스팸 판별부를 포함하며,
상기 특징 추출부는 HTML 태그를 제외한 문서와 HTML 태그를 포함한 문서의 특징을 별도로 추출하고,
상기 스팸 판별부는 HTML 태그를 제외한 문서와 HTML 태그를 포함한 문서의 특징을 이용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 것인, 스팸 분류 장치.
A feature extraction unit that extracts features of a single document including structural features of the document;
A model generating unit for generating a document classification model for discriminating a normal document and a spam document by using a characteristic of the single document extracted from the normal document and the spam document as learning data; And
And a spam judgment unit for applying the characteristic of the classification object document to the classification model to determine whether the classification object document is a spam document,
Wherein the feature extracting unit extracts features of a document excluding an HTML tag and a document including an HTML tag separately,
Wherein the spam determining unit determines whether the classification target document is a spam document by using a characteristic of the document including the HTML tag and the document excluding the HTML tag.
제7항에 있어서,
상기 스팸 판별부는,
상기 단일 문서의 특징이 문서의 길이 비율이면 HTML 태그를 제외한 문서의 길이와 HTML 태그를 포함한 문서의 길이의 비율을 계산하여 단일 문서가 스팸 문서인지 판별하는 것인, 스팸 분류 장치.
8. The method of claim 7,
The spam-
Wherein if the characteristic of the single document is a length ratio of the document, the ratio of the length of the document excluding the HTML tag to the length of the document including the HTML tag is calculated to determine whether the single document is a spam document.
제7항에 있어서,
상기 스팸 판별부는,
상기 단일 문서의 특징이 공백 문자의 비율이면 HTML 태그를 제외한 문서의 길이와 공백 문자의 개수의 비율을 계산하여 단일 문서가 스팸 문서인지 판별하는 것인, 스팸 분류 장치.
8. The method of claim 7,
The spam-
Wherein when the characteristic of the single document is a ratio of blank characters, the ratio of the length of the document excluding the HTML tags and the number of blank characters is calculated to determine whether the single document is a spam document.
제 7 항에 있어서, 상기 특징 추출부는
다음 수식에 의해 새줄 문자의 개수를 추출하고, 상기 스팸 판별부는 추출된 새줄 문자의 개수가 미리 학습된 스팸 문서의 새줄 문자의 개수보다 많으면 분류 대상 문서를 일반 문서로 인식하는 것을 더 포함하는 스팸 분류 장치.
수식
Figure 112015125640840-pat00043

(여기서,
Figure 112015125640840-pat00044
:문서,
Figure 112015125640840-pat00045
:새줄 문자)
8. The apparatus of claim 7, wherein the feature extraction unit
Further comprising: extracting the number of new line characters by the following formula, and if the number of extracted new line characters is larger than the number of new line characters of the learned spam document, the spam discrimination unit recognizes the classification target document as a general document Device.
Equation
Figure 112015125640840-pat00043

(here,
Figure 112015125640840-pat00044
:document,
Figure 112015125640840-pat00045
: Newline character)
제 7 항에 있어서,
상기 특징 추출부는 다음 수식에 의해 앵커 태그의 수를 판별하고, 상기 스팸 판별부는 앵커 태그의 수가 미리 학습된 스팸 문서의 앵커 태그의 수보다 적으면 일반 문서로 인식하는 것을 더 포함하는 스팸 분류 장치.
수식
Figure 112015125640840-pat00046

(여기서,
Figure 112015125640840-pat00047
:문서,
Figure 112015125640840-pat00048
:앵커 태그)
8. The method of claim 7,
Wherein the feature extracting unit determines the number of anchor tags by the following formula and the spam determining unit recognizes the number of anchor tags as a general document if the number of anchor tags is less than the number of anchor tags of the learned spam document.
Equation
Figure 112015125640840-pat00046

(here,
Figure 112015125640840-pat00047
:document,
Figure 112015125640840-pat00048
: Anchor tag)
KR1020140172921A 2014-12-04 2014-12-04 Method for spam classfication, recording medium and device for performing the method KR101692244B1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140172921A KR101692244B1 (en) 2014-12-04 2014-12-04 Method for spam classfication, recording medium and device for performing the method
PCT/KR2015/004529 WO2016088954A1 (en) 2014-12-04 2015-05-07 Spam classifying method, recording medium for implementing same, and spam classifying device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140172921A KR101692244B1 (en) 2014-12-04 2014-12-04 Method for spam classfication, recording medium and device for performing the method

Publications (2)

Publication Number Publication Date
KR20160067473A KR20160067473A (en) 2016-06-14
KR101692244B1 true KR101692244B1 (en) 2017-01-03

Family

ID=56091878

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140172921A KR101692244B1 (en) 2014-12-04 2014-12-04 Method for spam classfication, recording medium and device for performing the method

Country Status (2)

Country Link
KR (1) KR101692244B1 (en)
WO (1) WO2016088954A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240006314A (en) 2022-07-06 2024-01-15 국민대학교산학협력단 Multi-modal based spam review detection device and method using text and images

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239447B (en) * 2017-06-05 2020-12-18 厦门美柚股份有限公司 Junk information identification method, device and system
CN110598211B (en) * 2019-09-02 2023-09-26 腾讯科技(深圳)有限公司 Article identification method and device, storage medium and electronic device

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100614751B1 (en) 2004-08-20 2006-08-21 주식회사 팬택 Method for generating spam message blocking rule
KR100670789B1 (en) * 2004-12-03 2007-01-17 한국전자통신연구원 Method for multi-level text filtering for blocking harmful web-sites
KR100848319B1 (en) * 2006-12-07 2008-07-24 한국전자통신연구원 Harmful web site filtering method and apparatus using web structural information
KR100902475B1 (en) 2007-05-25 2009-06-11 엔에이치엔(주) Method and System for Deciding Spam Document
KR101291076B1 (en) * 2011-08-24 2013-08-23 숭실대학교산학협력단 Method and apparatus for determining spam document

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240006314A (en) 2022-07-06 2024-01-15 국민대학교산학협력단 Multi-modal based spam review detection device and method using text and images

Also Published As

Publication number Publication date
WO2016088954A1 (en) 2016-06-09
KR20160067473A (en) 2016-06-14

Similar Documents

Publication Publication Date Title
CN108614898B (en) Document analysis method and device
CN107291723B (en) Method and device for classifying webpage texts and method and device for identifying webpage texts
US7937338B2 (en) System and method for identifying document structure and associated metainformation
Howedi et al. Text classification for authorship attribution using Naive Bayes classifier with limited training data
US8285713B2 (en) Image search using face detection
CN107437038B (en) Webpage tampering detection method and device
US9519718B2 (en) Webpage information detection method and system
US10762192B2 (en) Cleartext password detection using machine learning
CN110019792A (en) File classification method and device and sorter model training method
CN112307364B (en) Character representation-oriented news text place extraction method
KR102379674B1 (en) Method and Apparatus for Analyzing Tables in Document
CN107562843B (en) News hot phrase extraction method based on title high-frequency segmentation
CN108052630B (en) Method for extracting expansion words based on Chinese education videos
Chen et al. Information extraction from resume documents in pdf format
CN110298039B (en) Event place identification method, system, equipment and computer readable storage medium
KR102373884B1 (en) Image data processing method for searching images by text
Tan et al. Authorship identification for online text
CN107515849A (en) It is a kind of into word judgment model generating method, new word discovery method and device
CN109033212A (en) A kind of file classification method based on similarity mode
US10970489B2 (en) System for real-time expression of semantic mind map, and operation method therefor
KR101692244B1 (en) Method for spam classfication, recording medium and device for performing the method
CN113468339A (en) Label extraction method, system, electronic device and medium based on knowledge graph
CN109918648A (en) A kind of rumour depth detection method based on the scoring of dynamic sliding window feature
US9811726B2 (en) Chinese, Japanese, or Korean language detection
CN112487306B (en) Automatic event marking and classifying method based on knowledge graph

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20191112

Year of fee payment: 4