WO2016088954A1 - 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치 - Google Patents

스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치 Download PDF

Info

Publication number
WO2016088954A1
WO2016088954A1 PCT/KR2015/004529 KR2015004529W WO2016088954A1 WO 2016088954 A1 WO2016088954 A1 WO 2016088954A1 KR 2015004529 W KR2015004529 W KR 2015004529W WO 2016088954 A1 WO2016088954 A1 WO 2016088954A1
Authority
WO
WIPO (PCT)
Prior art keywords
document
spam
feature
classification
documents
Prior art date
Application number
PCT/KR2015/004529
Other languages
English (en)
French (fr)
Inventor
이수원
심상권
Original Assignee
숭실대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 숭실대학교산학협력단 filed Critical 숭실대학교산학협력단
Publication of WO2016088954A1 publication Critical patent/WO2016088954A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing

Definitions

  • the present invention relates to a method for classifying spam, a recording medium and apparatus for performing the same, and more particularly, to a method for classifying spam using a feature analysis of a single document, and a recording medium and apparatus for performing the same.
  • Blogs are media that leave personal thoughts and records, and produce and operate contents in various fields through the development of the Internet and the web.
  • Portal sites provide various search services including blog posts or provide various types of blog services.
  • these blogs are a mixture of personal posts and spammers' mechanically-generated spam posts, making it difficult for users to obtain useful information and degrading search engine search performance.
  • link spam which improves search rankings for specific sites
  • content spam which inserts spam keywords by stealing news or other blog content.
  • link spam As a method of analyzing link spam, a page network is used to classify documents by forming a network from a trusted document or a spam document.
  • a content spam analysis method classifies documents by decomposing text documents and using frequency information on words or extracting document features to find differences between normal documents and spam documents.
  • the existing spam document classification method uses a qualitative language for learning or uses the frequency of a document in which a word appears, such as DF (Document Frequency).
  • DF Document Frequency
  • One of the most basic methods, DF is the number of documents in which a word appears and must refer to all documents in which the word appeared.
  • you extract a feature using a large set of documents the size of all documents in which the word appears exceeds the available memory limit. The disadvantage is that the calculation is difficult.
  • an object of the present invention is to provide a spam classification method that can reduce the time and cost required for spam filtering by extracting features from a single document.
  • Another object of the present invention is to provide a recording medium having a computer program recorded thereon for performing the spam classification method.
  • Another object of the present invention is to provide an apparatus for performing the spam classification method.
  • Spam classification method comprises the steps of: extracting a feature of a single document including the structural features of the document from the normal document and the spam document; Generating a document classification model using the extracted features of the single document as training data; Extracting features of a single document from the document to be classified; And determining whether the classified document is a spam document by applying a feature of the classified document to the classification model.
  • the feature of the single document is the length of the document, the length ratio of the document, the number of images, the number of HTML tags, the ratio of space characters, the number of newline characters, the number of words appearing in the text,
  • the number of anchor tags and the similarity of the title and the first sentence of the main body may include at least one feature.
  • the feature of the single document is the length of the document, the length ratio of the document, the number of images, the number of HTML tags, the ratio of space characters, the number of newline characters, the number of words appearing in the text, The number of anchor tags and the similarity between the title and the first sentence of the body may be included.
  • the feature of the single document may be calculated as a feature value through a formula determined for each feature.
  • generating the document classification model may include storing each feature value and tagging value of a normal document and each feature value and tagging value of a spam document.
  • a computer program for performing a spam classification method is recorded.
  • a spam classification device including: a feature extraction unit for extracting a feature of a single document including structural features of a document; A model generation unit for generating a document classification model for discriminating between normal documents and spam documents by using features of the single document extracted from normal documents and spam documents as learning data; And a spam determination unit for determining whether the classification target document is a spam document by applying a feature of a classification target document to the classification model.
  • the extracting unit At least one feature of the number and the similarity between the title and the first sentence of the text may be extracted.
  • the extracting unit the length of the document, the length ratio of the document, the number of images, the number of HTML tags, the ratio of white space characters, the number of newline characters, the number of words appearing in the body, the anchor tag Both the number and the similarity of the title and the first sentence of the text can be extracted.
  • the feature of the single document may be a feature value calculated through a formula determined for each feature.
  • the document classification model may store each feature value and tagging value of a normal document and each feature value and tagging value of a spam document.
  • the spam classification method since only the characteristics of a single document are utilized, the feature extraction time for classifying spam can be shortened and memory efficiency can be improved. In particular, it does not refer to dictionaries and other documents, thereby reducing the time and cost required to build a spam word dictionary.
  • the method proposed in the present invention can improve the accuracy of spam discrimination because it is less affected by the learning document by extracting only features of documents that are not word dependent.
  • FIG. 1 is a block diagram of a spam classification apparatus according to an embodiment of the present invention.
  • FIG. 2 is a detailed block diagram of the feature extraction unit of FIG. 1.
  • 3 is a distribution chart of features of spam documents and normal documents.
  • Figure 4 is a graph of the result of comparing the prior art and accuracy to verify the effect of the present invention.
  • FIG. 5 is a flowchart illustrating a spam classification method according to an embodiment of the present invention.
  • FIG. 1 is a block diagram of a spam classification apparatus according to an embodiment of the present invention.
  • 2 is a detailed block diagram of the feature extraction unit of FIG. 1.
  • Spam classification uses the feature analysis of a single document, and the feature of a single document refers to features that can be calculated without referring to other documents.
  • TF Term Frequency
  • DF Document Frequency
  • Spam classification uses the feature analysis of a single document, and the feature of a single document refers to features that can be calculated without referring to other documents.
  • TF Term Frequency
  • DF Document Frequency
  • the spam classification apparatus 10 includes a feature extractor 110, a model generator 130, and a spam discriminator 150.
  • the spam classification apparatus 10 of the present invention may be installed and executed by software (application) for performing spam classification, and the configuration of the feature extraction unit 110 or the like is executed by the spam classification apparatus 10. Controlled by software for performing spam classification.
  • the spam classification apparatus 10 may be a separate terminal or some module of the terminal.
  • the configuration of the feature extraction unit 110 and the like may be formed as an integrated module, or may be made of one or more modules. However, on the contrary, each component may be formed as a separate module.
  • the spam classification device 10 may be mobile or fixed.
  • the apparatus 10 may be in the form of a server or an engine, and may include a device, an apparatus, a terminal, a user equipment (UE), a mobile station (MS), and a wireless device. (wireless device, handheld device) may be called in other terms.
  • UE user equipment
  • MS mobile station
  • wireless device wireless device, handheld device
  • the spam classification apparatus 10 may be provided in an information terminal such as a mobile communication terminal or a computer of the user, or may be provided in a mail server or a text message server. Alternatively, it may be an independent device that communicates with the terminal or server or in the form of a server.
  • the spam classification apparatus 10 may execute or produce various software based on an operating system (OS), that is, a system.
  • OS operating system
  • the operating system is a system program for enabling the software to use the hardware of the device, and the mobile computer operating system such as Android OS, iOS, Windows Mobile OS, Sea OS, Symbian OS, Blackberry OS, Windows, Linux, Unix, It can include any computer operating system, such as MAC, AIX, or HP-UX.
  • the feature extractor 110 extracts a feature of a single document including structural features of the document.
  • Features of a single document refer to features that can be calculated without reference to other documents.
  • the document refers to a web page such as a general blog, but is not limited thereto.
  • the document may be any type of document that can be displayed on a computer.
  • the length of the document As a feature of a single document, the length of the document, the length ratio of the document, the number of images, the number of HTML tags, the ratio of white space characters, the number of newline characters, the number of words appearing in the body, the number of anchor tags And similarity between the title and the first sentence of the text.
  • the feature extractor 110 extracts at least one feature of the nine single documents.
  • the feature extractor 110 may extract all of the features of the nine single documents. Alternatively, only some of the features of the nine single documents may be extracted.
  • the feature extractor 110 may calculate and quantify a feature value through a formula determined for each feature.
  • the feature extractor 110 includes a module for extracting each feature.
  • each feature may be extracted sequentially or in any order or simultaneously in one module.
  • the length ratio of the document is a ratio of the length of the document excluding the tag to the length of the document including the tag, and can be calculated by Equation 2 below.
  • a document containing a search keyword is displayed as a search result.
  • the number of images included in the document is smaller than that of the normal document because the keyword is more important than the image that cannot be searched due to the characteristics of the spam document to be exposed as a result of the keyword search (Fig. 3 (c)).
  • the number of images can be calculated by the following equation (3).
  • the number of HTML tags may be an important measure in classifying spam documents that are automatically generated.
  • the number of HTML tags may be calculated by Equation 4 below.
  • the number of newlines is also a feature of spam documents that are automatically generated. Spam documents generally produce fewer documents without adding new lines while concatenating multiple sentences ( Figure 3 (f)). ). The number of newline characters can be calculated by the following equation (6).
  • Anchor tag is a characteristic of a web document. It is a link to another document within a document. In spam documents, the anchor tag can be used to increase the rank of another document or to link to a desired spam site, so that many anchor tags are included in one document (FIG. 3 (h)). Thus, the number of anchor tags is also a measure of whether spam can be determined. The number of anchor tags can be calculated by the following equation (8).
  • spam documents that use blogs that have a distinct title and body are placed in front of the body by placing sentences such as the title in front of the body to look like normal search results. Will appear as shown in FIG. 3 (i). Therefore, a document composed of only the first sentence very similar to the title and the content of the subsequent content not related to the title is classified as a spam document.
  • Jaccard similarity measures the similarity between the title and the first sentence.
  • a word is divided based on a space to calculate the similarity, it is difficult to measure the exact similarity because two sentences are spaced or examined, and when the words are different, the same word is recognized as another word and the similarity is calculated. Therefore, the problem of spacing and word transformation was solved by applying Bi-gram to each sentence.
  • the similarity between the title and the first sentence of the body can be calculated by the following equation (9).
  • the feature extractor 110 provides a feature value of the extracted single document to the model generator 130, and the model generator 130 learns using the feature value as training data, Create a document classification model for identifying spam documents.
  • feature values of documents tagged as normal and spam documents can be used as training data.
  • the blog document may be collected first, and the spam document and the normal document may be classified and stored in the database 20.
  • the feature extractor 110 extracts feature values of a normal document and a spam document stored in the database 20, and the model generator 130 learns the feature values to learn each feature value and the normal document and spam document. Create a document classification model that includes the tagging values for the document.
  • the feature extraction unit 110 extracts a feature value of a single document from the classification target document and transmits the feature value to the spam determination unit 150.
  • the document to be classified may be a web page, but is not limited thereto, and may be any type of document that can be displayed on a computer, and may be automatically collected by the spam classification device 10.
  • the spam determination unit 150 determines whether the classification target document is a spam document by applying a feature value of the classification target document to the classification model and outputs the classified document. Since the present invention learns using only features that can be extracted from a single document, the feature extraction time can be shortened and memory efficiency is excellent. Thus, spam can be detected and blocked efficiently.
  • the accuracy rate means a probability that a document determined to be spam as a result of spam filtering is an actual spam document
  • the reproducibility rate refers to a probability of a document that is determined to be spam as a document to be judged as a spam document. If the system finds as many spam documents as possible, the reproducibility improves, and most of the documents judged to be spam improve the accuracy.
  • FIG. 5 is a flowchart illustrating a spam classification method according to an embodiment of the present invention.
  • the spam classification method according to the present embodiment may proceed in substantially the same configuration as the spam classification apparatus 10 of FIG. 1. Therefore, the same components as those of the spam classification apparatus 10 of FIG. 1 are given the same reference numerals, and repeated descriptions are omitted.
  • the spam classification method according to the present embodiment can be executed by software (application) for performing spam classification.
  • the spam classification method first learns a training data set to form a document classification model. To this end, normal documents and spam documents may be collected and stored.
  • features of a single document including structural features of the document are extracted (step S10).
  • Features of a single document refer to features that can be calculated without reference to other documents.
  • the document refers to a web page such as a general blog, but is not limited thereto.
  • the document may be any type of document that can be displayed on a computer.
  • Characteristic of the single document the length of the document, the length ratio of the document, the number of images, the number of HTML tags, the ratio of space characters, the number of newline characters, the number of words in the body, the number of anchor tags and titles
  • At least one feature of the similarity of the first sentence of the main text may be used or all may be used.
  • Extracting a feature of a single document including structural features of the document may calculate and quantify a feature value through a formula determined for each feature.
  • Each feature value of a single document can be calculated by the equations in Table 2 below.
  • the feature values are used as the training data for learning, and a document classification model for discriminating the normal document and the spam document is generated (step S30). Distribution of the normal document and the spam document by characteristics is as shown in FIG.
  • step S30 the feature values of the normal document and the spam document are learned to generate a document classification model including each feature value and the tagging values of the normal document and the spam document.
  • the document to be classified may be a web page, but is not limited thereto, and may be any type of document that can be displayed on a computer, and may be automatically collected by the spam classification device 10.
  • the feature value of the document to be classified is applied to the classification model to determine whether the document to be classified is a spam document (step S70).
  • the present invention learns using only features that can be extracted from a single document, the feature extraction time can be shortened and memory efficiency is excellent. Thus, spam can be detected and blocked efficiently.
  • Such a spam classification method may be implemented in the form of program instructions that may be implemented as an application or executed through various computer components, and recorded in a computer-readable recording medium.
  • the computer-readable recording medium may include program instructions, data files, data structures, etc. alone or in combination.
  • the program instructions recorded on the computer-readable recording medium are those specially designed and configured for the present invention, and may be known and available to those skilled in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks and magnetic tape, optical recording media such as CD-ROMs, DVDs, and magneto-optical media such as floptical disks. media), and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device may be configured to operate as one or more software modules to perform the process according to the invention, and vice versa.
  • the present invention utilizes only the features of a single document, the feature extraction time for spam classification can be shortened and memory efficiency can be improved. It will also be widely used in document classification, blog spam, content spam, spam detection, and spam filtering in the current and future periods when data is massive.

Abstract

스팸 분류 방법은, 정상 문서와 스팸 문서로부터, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 단계; 추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여 문서 분류 모델을 생성하는 단계; 분류 대상 문서로부터 단일 문서의 특징을 추출하는 단계; 및 상기 분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 단계를 포함한다. 이에 따라, 효율적이고 경제적인 스팸 차단을 수행할 수 있다.

Description

스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치
본 발명은 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 단일 문서의 특징 분석을 이용한 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것이다.
블로그는 개인의 생각이나 기록을 남기는 미디어로서 인터넷과 웹의 발전으로 다양한 분야의 컨텐츠를 생산하고 운영되며, 포털 사이트는 블로그 게시물을 포함한 검색 서비스를 제공하거나 다양한 형태의 블로그 서비스를 제공하고 있다. 그러나 이러한 블로그는 개인이 작성한 게시물과 스패머가 기계적으로 만든 스팸 게시물이 혼재하고 있어, 사용자들은 유용한 정보를 얻기 어려워지고 검색 엔진의 검색 성능을 저하시키는 요인으로 나타난다.
스팸의 유형으로 특정 사이트의 검색 순위를 높이기 위한 링크스팸(Link spam)과 뉴스나 다른 블로그 컨텐츠를 도용하여 스팸 키워드를 삽입하는 컨텐츠 스팸(Content spam)이 있다. 링크스팸을 분석하는 방법으로는 페이지랭크(PageRank) 기법을 활용하여 신뢰 문서 또는 스팸 문서로부터 연결망을 구성해 문서를 분류한다. 컨텐츠 스팸 분석 방법은, 일반적으로 텍스트 문서의 문장을 분해하여 단어에 관한 빈도 정보를 사용하거나 문서의 특징을 추출하여 정상 문서와 스팸 문서의 차이점을 찾아내는 것으로 문서를 분류한다.
종래 기술들은 일반적으로 문서에 등장하는 단어의 등장 빈도를 특징으로 사용한다. 단어의 등장 빈도는 문서 내에서 얼마나 자주 등장하는지와 전체 문서에서 흔하게 등장하는지를 파악하게 되는데, 전체 문서에서 단어의 등장 빈도를 얻으려면 단어가 포함된 문서를 찾아서 빈도를 계산하게 된다. 따라서, 학습 데이터의 모든 단어의 등장 빈도를 계산하기 위해서는 메모리 사용량과 빈도 계산 시간이 추가적으로 소요된다.
또한, 학습 데이터가 많은 경우 메모리 사용량도 증가하게 되는데 메모리 사용량이 하드웨어 임계치를 넘어선다면 다른 문서를 참조하기 어려워진다. 메모리 사용량 문제를 해결하기 위해 분산처리를 적용한 방법들은 계산복잡도가 증가하는 단점이 있다.
또한, 기존의 스팸 문서 분류 방법은, 학습을 위해 자질어를 사용하거나 DF(Document Frequency)와 같이 단어가 등장하는 문서의 빈도를 특징으로 사용한다. 가장 기본적인 방법 중 하나인 DF는 단어가 등장한 문서 수로서 단어가 등장한 모든 문서를 참조해야 하는데, 많은 양의 문서 집합을 사용해 특징을 추출하면 단어가 등장한 모든 문서의 크기가 사용 가능한 메모리 제한을 넘어가므로 계산이 어렵다는 단점이 있다.
이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 단일 문서에서 특징을 추출하여 스팸 필터링에 소요되는 시간과 비용을 절감할 수 있는 스팸 분류 방법을 제공하는 것이다.
본 발명의 다른 목적은 상기 스팸 분류 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.
본 발명의 또 다른 목적은 상기 스팸 분류 방법을 수행하기 위한 장치를 제공하는 것이다.
상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 스팸 분류 방법은, 정상 문서와 스팸 문서로부터, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 단계; 추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여 문서 분류 모델을 생성하는 단계; 분류 대상 문서로부터 단일 문서의 특징을 추출하는 단계; 및 상기 분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 단계를 포함한다.
본 발명의 실시예에서, 상기 단일 문서의 특징은, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도 중 적어도 하나의 특징을 포함할 수 있다.
본 발명의 실시예에서, 상기 단일 문서의 특징은, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도를 모두 포함할 수 있다.
본 발명의 실시예에서, 상기 단일 문서의 특징은, 각 특징마다 정해진 수식을 통해 특징값으로 계산될 수 있다.
본 발명의 실시예에서, 상기 문서 분류 모델을 생성하는 단계는, 정상 문서의 각 특징값과 태깅값 및 스팸 문서의 각 특징값과 태깅값을 저장하는 단계를 포함할 수 있다.
상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 스팸 분류 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.
상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 스팸 분류 장치는, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 특징 추출부; 정상 문서와 스팸 문서로부터 추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여, 정상 문서와 스팸 문서를 판별하기 위한 문서 분류 모델을 생성하는 모델 생성부; 및 분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 스팸 판별부를 포함한다.
본 발명의 실시예에서, 상기 추출부는, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도 중 적어도 하나의 특징을 추출할 수 있다.
본 발명의 실시예에서, 상기 추출부는, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도의 특징을 모두 추출할 수 있다.
본 발명의 실시예에서, 상기 단일 문서의 특징은, 각 특징마다 정해진 수식을 통해 계산된 특징값일 수 있다.
본 발명의 실시예에서, 상기 문서 분류 모델은, 정상 문서의 각 특징값과 태깅값 및 스팸 문서의 각 특징값과 태깅값을 저장할 수 있다.
이와 같은 스팸 분류 방법에 따르면, 단일 문서의 특징만을 활용하므로 스팸 분류를 위한 특징 추출 시간의 단축 및 메모리 효율성을 향상시키는 효과가 있다. 특히, 사전 및 다른 문서를 참조하지 않으므로 스팸 단어 사전 구축에 필요한 시간과 비용을 절감할 있다. 또한, 본 발명에서 제안하는 방법은 단어에 의존적이지 않은 문서의 특징만을 추출하여 학습 문서에 대해 영향을 덜 받으므로, 스팸 구별의 정확도를 향상시킬 수 있다.
도 1은 본 발명의 일 실시예에 따른 스팸 분류 장치의 블록도이다.
도 2는 도 1의 특징 추출부의 상세한 블록도이다.
도 3은 스팸 문서와 정상 문서의 특징별 분포도이다.
도 4는 본 발명의 효과를 검증하기 위해 종래 기술과 정확도 등을 비교한 결과의 그래프이다.
도 5는 본 발명의 일 실시예에 따른 스팸 분류 방법의 흐름도이다.
<부호의 설명>
10: 스팸 분류 장치 20: 데이터 베이스
110: 특징 추출부 130: 모델 생성부
150: 스팸 판별부
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 스팸 분류 장치의 블록도이다. 도 2는 도 1의 특징 추출부의 상세한 블록도이다.
본 발명에 따른 스팸 분류는 단일 문서의 특징 분석을 이용하는 것으로, 단일 문서의 특징이란, 다른 문서를 참조하지 않고 계산될 수 있는 특징들을 말한다. 예를 들어, TF(Term Frequency)는 하나의 문서에서 등장하는 단어의 빈도를 나타내지만 DF(Document Frequency)는 단어가 등장하는 문서의 빈도로 전체 문서를 참조해야 얻을 수 있는 특징이다. 즉, 본 발명은 단어에 의존적이지 않은 문서의 특징만을 추출하여 학습 문서에 따라 영향을 덜 받을 수 있다.
도 1을 참조하면, 본 발명에 따른 스팸 분류 장치(10)는 특징 추출부(110), 모델 생성부(130) 및 스팸 판별부(150)를 포함한다.
본 발명의 상기 스팸 분류 장치(10)는 스팸 분류를 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 특징 추출부(110) 등의 구성은 상기 스팸 분류 장치(10)에서 실행되는 상기 스팸 분류를 수행하기 위한 소프트웨어에 의해 제어될 수 있다.
상기 스팸 분류 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 특징 추출부(110) 등의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.
상기 스팸 분류 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.
예를 들어, 상기 스팸 분류 장치(10)는 사용자의 이동통신 단말기나 컴퓨터 등의 정보 단말기에 구비될 수도 있고, 메일 서버나 문자 메시지 서버에 구비될 수도 있다. 또는, 상기 단말기나 서버와 통신하는 독립적인 장치이거나 서버의 형태일 수도 있다.
상기 스팸 분류 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.
상기 특징 추출부(110)는 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출한다. 단일 문서의 특징이란, 다른 문서를 참조하지 않고 계산될 수 있는 특징들을 말한다. 여기서 문서란, 일반적인 블로그 등의 웹 페이지를 의미하는 것이나 이에 한정되지 않고 컴퓨터 상에서 디스플레이될 수 있는 모든 형태의 문서가 이에 해당된다 할 것이다.
본 발명에서는, 단일 문서의 특징으로서, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도를 이용할 수 있다.
이들 상기 단일 문서의 특징은 종래기술과 다르게 단어에 의존적이지 않은 문서의 특징들이다. 그러나, 상기 예시한 단일 문서의 특징은 일 예에 불과하고, 필요에 따라 특징을 추가, 변경, 삭제할 수 있다.
상기 특징 추출부(110)는 상기 9개의 단일 문서의 특징을 적어도 하나를 추출한다. 예를 들어, 상기 특징 추출부(110)는 상기 9개의 단일 문서의 특징을 모두 추출할 수 있다. 또는, 상기 9개의 단일 문서의 특징 중 일부만 추출할 수도 있다.
상기 특징 추출부(110)는 각 특징마다 정해진 수식을 통해 특징값을 계산하여 정량화할 수 있다. 도 2를 참조하면, 상기 특징 추출부(110)는 각 특징을 추출하기 위한 모듈을 각각 포함하고 있다. 그러나, 다른 실시예로서 하나의 모듈에서 각 특징을 순차적으로 또는 임의의 순서로 또는 동시에 추출할 수도 있다.
이하에서는, 도 3을 참조하여 상기 특징 추출부(110)에서 추출되는 단일 문서의 특징을 자세히 설명한다.
문서의 길이
HTML 태그를 포함한 문서의 길이는 정상적인 경우 스팸 문서에 비해 긴 경우가 많다. 스팸 문서는 일반적으로 몇 개의 짧은 문장을 이어 붙인 형태로 자동 생성되기 때문에 일정한 문서 길이에 집중되어 있는 것이 특징이다(도 3(a)). 문서의 길이(Di)는 다음의 수학식 1에 의해 계산될 수 있다.
[수학식 1]
Figure PCTKR2015004529-appb-I000001
문서의 길이 비율
스팸 문서는 HTML 태그를 많이 사용하지 않고 검색 랭크를 올리기 위한 이슈 키워드나 의미 없는 텍스트를 나열하는 점이 특징이다. 따라서, 문서 길이에 비해서 HTML 태그가 많은 부분을 차지하는 문서들은 정상적인 문서의 비율이 높다(도 3(b)). 문서의 길이 비율은 태그를 제외한 문서의 길이와 태그를 포함한 문서의 길이의 비율로서 아래의 수학식 2와 같이 계산될 수 있다.
[수학식 2]
Figure PCTKR2015004529-appb-I000002
이미지의 개수
일반적인 검색 환경에서는 검색 키워드를 포함하고 있는 문서를 검색결과로 보여주게 된다. 키워드 검색의 결과로 노출되어야 하는 스팸 문서의 특성상 검색이 되지 않는 이미지보다 키워드를 더 중요시하기 때문에 정상적인 문서에 비해서 문서에 포함된 이미지의 수가 적다(도 3(c)). 이미지의 개수는 다음의 수학식 3에 의해 계산될 수 있다.
[수학식 3]
Figure PCTKR2015004529-appb-I000003
HTML 태그의 개수
자동으로 생성되는 스팸 문서의 특성상 글의 내용만 다르고 같은 형식의 HTML 태그를 취하고 있기 때문에 정상 문서에 비해 태그의 수가 적거나 매우 많은 태그를 포함하고 있는 경우가 많다(도 3(d)). 따라서, HTML 태그의 개수는 자동으로 생성되는 스팸 문서를 분류하는데 중요한 척도가 될 수 있을 것이다. HTML 태그의 개수는 다음의 수학식 4에 의해 계산될 수 있다.
[수학식 4]
Figure PCTKR2015004529-appb-I000004
공백 문자의 비율
정상적인 문서는 본문에 글의 양이 많아질수록 공백의 개수 또한 증가한다. 반면, 스팸 문서에서는 스팸 키워드를 강조하거나 스팸 키워드로 인식되지 않도록 하기 위해 띄어쓰기를 하지 않거나 띄어쓰기 대신 특수 문자를 사용하는 등 단어를 조작한다. 따라서, 스팸 문서의 경우 공백 문자의 개수가 본문 길이에 비해 비정상적으로 적게 나오게 된다(도 3(e)). 공백 문자의 비율은 다음의 수학식 5에 의해 계산될 수 있다.
[수학식 5]
Figure PCTKR2015004529-appb-I000005
새줄 문자의 개수
새줄 문자(newline)의 개수도 자동으로 생성되는 스팸 문서의 특징으로, 스팸 문서는 일반적으로 여러 문장들을 이어 붙이면서 새줄 문자를 추가하지 않고 문서를 만들기 때문에 일반 문서에 비해서 적게 나온다(도 3(f)). 새줄 문자의 개수는 다음의 수학식 6에 의해 계산될 수 있다.
[수학식 6]
Figure PCTKR2015004529-appb-I000006
본문에 등장하는 단어의 개수
스팸 문서 본문의 상단에는 정상적으로 보이는 문장으로 구성하고 아래쪽의 보이지 않는 영역에 내용과는 관련 없는 수많은 이슈 키워드를 삽입하여 해당 키워드로 검색되도록 하는데, 이슈 키워드가 많이 삽입되면 일반적인 문서보다 많은 양의 단어가 포함되어 있어서 스팸일 확률이 높다(도 3(g)). 본문에 등장하는 단어의 개수는 다음의 수학식 7에 의해 계산될 수 있다.
[수학식 7]
Figure PCTKR2015004529-appb-I000007
앵커 태그의 개수
앵커 태그(Anchor tag)는 웹 문서의 특징으로 문서 내부에서 다른 문서로 이동할 수 있는 링크를 의미한다. 스팸 문서에서는 앵커 태그를 이용하여 다른 문서의 랭크를 높이거나 원하는 스팸 사이트로 연결할 수 있기 때문에 하나의 문서에서 다수의 앵커 태그를 포함하고 있는 경우가 많다(도 3(h)). 따라서, 앵커 태그의 수 역시 스팸 여부를 판별할 수 있는 하나의 척도가 된다. 앵커 태그의 개수는 다음의 수학식 8에 의해 계산될 수 있다.
[수학식 8]
Figure PCTKR2015004529-appb-I000008
제목과 본문 첫 번째 문장의 유사도
일반적인 웹 페이지와는 달리 제목과 본문이 명확히 구분되어 있는 블로그를 사용한 스팸 문서는 정상적인 검색 결과처럼 보이기 위해 제목과 같은 문장을 본문의 앞쪽에 위치시킴으로써 검색 결과에 제목과 본문이 같은 내용을 가진 정상적인 문서처럼 나타나게 된다(도 3(i)). 따라서, 첫 문장만 제목과 매우 유사하고 이후의 내용은 제목과 연관이 없는 내용으로 이루어진 문서는 스팸문서로 분류된다.
문서의 제목과 본문 첫 문장이 유사한 패턴의 스팸문서에 대해서는 Jaccard similarity를 통해 제목과 첫 문장의 유사도를 측정한다. 유사도 계산을 위해 공백(space) 기반으로 단어를 나눌 경우 두 문장이 띄어쓰기 또는 조사, 어미가 다른 경우 같은 단어를 다른 단어로 인식하여 유사도를 계산하기 때문에 정확한 유사도를 측정하기 어렵다. 따라서, 각 문장에 Bi-gram을 적용하여 띄어쓰기 및 단어의 변형 문제를 해결하였다. 제목과 본문 첫 번째 문장의 유사도는 다음의 수학식 9에 의해 계산될 수 있다.
[수학식 9]
Figure PCTKR2015004529-appb-I000009
여기서,
Figure PCTKR2015004529-appb-I000010
는 문서의 제목이며,
Figure PCTKR2015004529-appb-I000011
는 본문의 처음 문장이다(단,
Figure PCTKR2015004529-appb-I000012
).
상기 특징 추출부(110)는 추출된 단일 문서의 특징값을 상기 모델 생성부(130)에 제공하고, 상기 모델 생성부(130)는 상기 특징값을 학습 데이터로 사용하여 학습하고, 정상 문서와 스팸 문서를 판별하기 위한 문서 분류 모델을 생성한다.
이를 위해 학습 데이터로서 정상 문서와 스팸 문서로 태깅된 문서들의 특징값을 이용할 수 있다. 예를 들어, 먼저 블로그 문서를 수집하여 수동으로 스팸 문서 와 정상 문서를 분류하여 데이터 베이스(20)에 저장할 수 있다.
상기 특징 추출부(110)는 상기 데이터 베이스(20)에 저장된 정상 문서와 스팸 문서의 특징값을 추출하고, 상기 모델 생성부(130)는 상기 특징값을 학습하여 각 특징값과 정상 문서와 스팸 문서의 태깅값을 포함하는 문서 분류 모델을 생성한다.
이후, 스팸 문서인지 판별하기 위한 분류 대상 문서가 입력되면 상기 특징 추출부(110)는 상기 분류 대상 문서로부터 단일 문서의 특징값을 추출하고, 상기 스팸 판별부(150)에 전달한다. 분류 대상 문서는 웹 페이지일 수 있으나, 이에 한정되지 않고 컴퓨터 상에서 디스플레이될 수 있는 모든 형태의 문서가 될 수 있으며, 상기 스팸 분류 장치(10)에 의해 자동으로 수집될 수 있다.
상기 스팸 판별부(150)는 상기 분류 대상 문서의 특징값을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하여 출력한다. 본 발명은 단일 문서에서만 추출할 수 있는 특징들만을 사용하여 학습하므로, 특징 추출시간을 단축하고, 메모리 효율성 측면에서 우수하다. 따라서, 효율적으로 스팸을 감지하고 차단할 수 있다.
본 발명의 타당성을 검증하기 위해 같은 데이터 및 학습 알고리즘을 사용하여 종래기술과의 비교 실험을 진행하였다. 종래기술로는 문서에서 단어의 등장확률을 기반으로 스팸을 분류하는 연구(이성진, 백종범, 한정석, 이수원. 특수 문자 및 단어 빈도 비율을 이용한 스팸 필터링 방법. 한국정보과학회 학술발표논문집 38.1C 2011. pp. 280-283.)를 비교대상으로 하였다. 종래기술은 단어의 등장확률을 계산하기 위해서는 다른 문서를 참조하나, 본 발명은 단일 문서만을 참조한다.
실험을 위해, 인터넷 포털에서 API를 사용하여 94,224건의 블로그 데이터를 수집하여, 스팸 데이터 10,983 건과 정상적인 데이터 83,241 건을 사용하였다. 정상적인 데이터 수가 많아 약 61 %의 데이터만 샘플링하여 사용하여 앞서 제시한 9가지 단일 문서의 특징을 추출하였다.
실험 방법으로 10-묶음 교차 검증법(10-fold cross vaidation)을 사용하고 스팸 문서와 정상적인 문서로 이진 분류를 시행하여 정확률(precision)과 재현률(recall)로 평가를 수행하였다. 정확률이란, 스팸 필터링 결과 스팸으로 판단된 문서가 실제 스팸 문서일 확률을 의미하고, 재현률이란 스팸 문서로 판단되어야 할 문서 중 실제 스팸으로 판단된 문서에 대한 확률을 의미한다. 시스템이 가능한 한 많은 스팸 문서를 찾아야 재현률이 좋아지고, 스팸으로 판단된 문서들이 대부분 스팸이어야 정확률이 좋아진다.
또한, 스팸 문서 분류에서는 정상 문서를 스팸 문서로 분류하는 경우의 위험도가 반대의 경우보다 훨씬 크다고 할 수 있다. 따라서, FP-Rate에 대한 비교평가도 반드시 필요하며, 이는 아래의 수학식 10에 의해 수행될 수 있다.
[수학식 10]
Figure PCTKR2015004529-appb-I000013
데이터 마이닝 분야에서 오픈소스로 공개되어 많이 활용되고 있는 Weka를 활용하여 분류 알고리즘인 의사결정트리(Decision tree) 분류 알고리즘으로 실험하였다. 아래의 표 1은 스팸 문서 분류의 혼동 행렬(confusion matrix)을 나타낸다.
실험
스팸 정상
실제 스팸 10,552 431
정상 344 82,897
표 1을 참조하면, 정확률(precision)과 재현률(recall)은 각각 0.992와 0.992로 계산되어 F-Measure는 99.2 %를 보였고, FP-Rate는 0.035로 나타났다. 특수문자와 단어의 등장 확률을 기반으로 스팸 여부를 판별한 종래 기술과의 비교 실험을 통한 알고리즘 및 데이터 셋을 사용하여 진행한 비교 실험 결과는 도 4(a)와 같다.
도 4(a)를 참조하면, 비교 실험 결과 본 발명의 정확도가 종래 기술에 비해 0.002 % 우수하였다. 또한, 도 4(b)를 참조하면, 본 발명은 종래 기술에 대비하여 특징 추출 시간이 평균 52 % 단축되었고, 메모리 사용량은 33 % 향상되었다.
도 5는 본 발명의 일 실시예에 따른 스팸 분류 방법의 흐름도이다.
본 실시예에 따른 스팸 분류 방법은, 도 1의 스팸 분류 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 스팸 분류 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다. 또한, 본 실시예에 따른 스팸 분류 방법은 스팸 분류를 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.
도 5를 참조하면, 본 실시예에 따른 스팸 분류 방법은, 먼저 문서 분류 모델을 형성하기 위해 학습 데이터 셋을 학습한다. 이를 위해, 정상 문서와 스팸 문서를 수집하여 저장하여 둘 수 있다.
저장된 정상 문서와 스팸 문서로부터, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출한다(단계 S10). 단일 문서의 특징이란, 다른 문서를 참조하지 않고 계산될 수 있는 특징들을 말한다. 여기서 문서란, 일반적인 블로그 등의 웹 페이지를 의미하는 것이나 이에 한정되지 않고 컴퓨터 상에서 디스플레이될 수 있는 모든 형태의 문서가 이에 해당된다 할 것이다.
상기 단일 문서의 특징은, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도 중 적어도 하나의 특징을 포함하거나 모두를 이용할 수 있다.
이들 상기 단일 문서의 특징은 종래기술과 다르게 단어에 의존적이지 않은 문서의 특징들이다. 그러나, 상기 예시한 단일 문서의 특징은 일 예에 불과하고, 필요에 따라 특징을 추가, 변경, 삭제할 수 있다.
상기 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 단계(단계 S10)는, 각 특징마다 정해진 수식을 통해 특징값을 계산하여 정량화할 수 있다. 단일 문서의 각 특징값은 아래의 표 2의 수식들에 의해 계산될 수 있다.
단일 문서의 특징 수학식
문서의 길이
Figure PCTKR2015004529-appb-I000014
문서의 길이 비율
Figure PCTKR2015004529-appb-I000015
이미지의 개수
Figure PCTKR2015004529-appb-I000016
HTML 태그의 개수
Figure PCTKR2015004529-appb-I000017
공백 문자의 비율
Figure PCTKR2015004529-appb-I000018
새줄 문자의 개수
Figure PCTKR2015004529-appb-I000019
본문에 등장하는 단어의 개수
Figure PCTKR2015004529-appb-I000020
앵커 태그의 개수
Figure PCTKR2015004529-appb-I000021
제목과 본문 첫 번째 문장의 유사도
Figure PCTKR2015004529-appb-I000022
정상 문서와 스팸 문서의 특징을 추출하면, 특징값을 학습 데이터로 사용하여 학습하고, 정상 문서와 스팸 문서를 판별하기 위한 문서 분류 모델을 생성한다(단계 S30). 정상 문서와 스팸 문서의 특징별 분포도는 도 3에 나타난 바와 같다.
상기 문서 분류 모델을 생성하는 단계(단계 S30)는, 정상 문서와 스팸 문서의 특징값을 학습하여, 각 특징값과 정상 문서와 스팸 문서의 태깅값을 포함하는 문서 분류 모델을 생성한다.
이후, 스팸 문서인지 판별하기 위한 분류 대상 문서가 입력되면 상기 분류 대상 문서로부터 단일 문서의 특징을 추출한다(단계 S50). 분류 대상 문서는 웹 페이지일 수 있으나, 이에 한정되지 않고 컴퓨터 상에서 디스플레이될 수 있는 모든 형태의 문서가 될 수 있으며 상기 스팸 분류 장치(10)에 의해 자동으로 수집될 수 있다.
상기 분류 대상 문서의 특징값이 추출되면, 상기 분류 대상 문서의 특징값을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별한다(단계 S70).
본 발명은 단일 문서에서만 추출할 수 있는 특징들만을 사용하여 학습하므로, 특징 추출시간을 단축하고, 메모리 효율성 측면에서 우수하다. 따라서, 효율적으로 스팸을 감지하고 차단할 수 있다.
이와 같은, 스팸 분류 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.
상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
본 발명은 단일 문서의 특징만을 활용하므로 스팸 분류를 위한 특징 추출 시간의 단축 및 메모리 효율성을 향상시키므로 자동 분류기 설계 및 구현에 유용하게 활용될 수 있다. 또한, 자료가 방대해지는 현재 및 미래에 문서 분류, 블로그 스팸, 컨텐츠 스팸, 스팸 감지 및 스팸 필터링 분야에서 널리 활용될 수 있을 것이다.

Claims (11)

  1. 정상 문서와 스팸 문서로부터, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 단계;
    추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여 문서 분류 모델을 생성하는 단계;
    분류 대상 문서로부터 단일 문서의 특징을 추출하는 단계; 및
    상기 분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 단계를 포함하는, 스팸 분류 방법.
  2. 제1항에 있어서, 상기 단일 문서의 특징은,
    문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도 중 적어도 하나의 특징을 포함하는, 스팸 분류 방법.
  3. 제1항에 있어서, 상기 단일 문서의 특징은,
    문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도를 모두 포함하는, 스팸 분류 방법.
  4. 제2항 및 제3항의 어느 하나의 항에 있어서, 상기 단일 문서의 특징은,
    각 특징마다 정해진 수식을 통해 특징값으로 계산되는, 스팸 분류 방법.
  5. 제4항에 있어서, 상기 문서 분류 모델을 생성하는 단계는,
    정상 문서의 각 특징값과 태깅값 및 스팸 문서의 각 특징값과 태깅값을 저장하는 단계를 포함하는, 스팸 분류 방법.
  6. 제1항 내지 제5항 중 어느 하나의 항에 따른 스팸 분류 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
  7. 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 특징 추출부;
    정상 문서와 스팸 문서로부터 추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여, 정상 문서와 스팸 문서를 판별하기 위한 문서 분류 모델을 생성하는 모델 생성부; 및
    분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 스팸 판별부를 포함하는, 스팸 분류 장치.
  8. 제7항에 있어서, 상기 추출부는,
    문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도 중 적어도 하나의 특징을 추출하는, 스팸 분류 장치.
  9. 제7항에 있어서, 상기 추출부는,
    문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도의 특징을 모두 추출하는, 스팸 분류 장치.
  10. 제8항 및 제9항의 어느 하나의 항에 있어서, 상기 단일 문서의 특징은,
    각 특징마다 정해진 수식을 통해 계산된 특징값인, 스팸 분류 장치.
  11. 제10항에 있어서, 상기 문서 분류 모델은,
    정상 문서의 각 특징값과 태깅값 및 스팸 문서의 각 특징값과 태깅값을 저장하는, 스팸 분류 장치.
PCT/KR2015/004529 2014-12-04 2015-05-07 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치 WO2016088954A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2014-0172921 2014-12-04
KR1020140172921A KR101692244B1 (ko) 2014-12-04 2014-12-04 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치

Publications (1)

Publication Number Publication Date
WO2016088954A1 true WO2016088954A1 (ko) 2016-06-09

Family

ID=56091878

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/004529 WO2016088954A1 (ko) 2014-12-04 2015-05-07 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치

Country Status (2)

Country Link
KR (1) KR101692244B1 (ko)
WO (1) WO2016088954A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239447B (zh) * 2017-06-05 2020-12-18 厦门美柚股份有限公司 垃圾信息识别方法及装置、系统
CN110598211B (zh) * 2019-09-02 2023-09-26 腾讯科技(深圳)有限公司 文章的识别方法和装置、存储介质及电子装置
KR20240006314A (ko) 2022-07-06 2024-01-15 국민대학교산학협력단 텍스트와 이미지를 활용한 멀티모달 기반 스팸 리뷰 탐지 장치 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060062300A (ko) * 2004-12-03 2006-06-12 한국전자통신연구원 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법
KR100614751B1 (ko) * 2004-08-20 2006-08-21 주식회사 팬택 스팸 차단 규칙 생성 방법
KR20080052097A (ko) * 2006-12-07 2008-06-11 한국전자통신연구원 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치
KR100902475B1 (ko) * 2007-05-25 2009-06-11 엔에이치엔(주) 스팸문서 판단 시스템 및 방법
KR20130021956A (ko) * 2011-08-24 2013-03-06 숭실대학교산학협력단 스팸 문서 판단 방법 및 그 판단 장치

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100614751B1 (ko) * 2004-08-20 2006-08-21 주식회사 팬택 스팸 차단 규칙 생성 방법
KR20060062300A (ko) * 2004-12-03 2006-06-12 한국전자통신연구원 유해 사이트 차단을 위한 다단계 텍스트 필터링 방법
KR20080052097A (ko) * 2006-12-07 2008-06-11 한국전자통신연구원 웹 구조정보를 이용한 유해 사이트 차단 방법 및 장치
KR100902475B1 (ko) * 2007-05-25 2009-06-11 엔에이치엔(주) 스팸문서 판단 시스템 및 방법
KR20130021956A (ko) * 2011-08-24 2013-03-06 숭실대학교산학협력단 스팸 문서 판단 방법 및 그 판단 장치

Also Published As

Publication number Publication date
KR101692244B1 (ko) 2017-01-03
KR20160067473A (ko) 2016-06-14

Similar Documents

Publication Publication Date Title
Vishwakarma et al. Detection and veracity analysis of fake news via scrapping and authenticating the web search
CN108737423B (zh) 基于网页关键内容相似性分析的钓鱼网站发现方法及系统
WO2015167074A1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
Lyon et al. Plagiarism is easy, but also easy to detect
WO2018016673A1 (ko) 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
SaiKrishna et al. String matching and its applications in diversified fields
WO2017007084A1 (ko) 토픽 추출 장치 및 방법
WO2020082562A1 (zh) 字符识别方法、装置、设备及存储介质
WO2016099019A1 (ko) 특허문서 분류 시스템 및 방법
WO2020045714A1 (ko) 콘텐츠 인식 방법 및 시스템
CN108256063A (zh) 一种面向网络安全的知识库构建方法
CN113656807B (zh) 一种漏洞管理方法、装置、设备及存储介质
WO2022114392A1 (ko) 특성 선택에 기반한 모바일 악성 코드 분류 방법, 이를 수행하기 위한 기록 매체 및 장치
CN101149739A (zh) 一种面向互联网的有意义串的挖掘方法和系统
CN110427612B (zh) 基于多语言的实体消歧方法、装置、设备和存储介质
WO2019039673A1 (ko) 인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법
WO2015050321A1 (ko) 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
WO2016088954A1 (ko) 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치
CN107832618A (zh) 一种基于细粒度权限控制的sql注入检测系统及其方法
WO2022086147A1 (en) Method for training and testing user learning network to be used for recognizing obfuscated data created by obfuscating original data to protect personal information and user learning device and testing device using the same
Brandão et al. Learning to expand queries using entities
CN112001170A (zh) 一种识别经过变形的敏感词的方法和系统
WO2017057858A1 (ko) 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
Sirotina et al. Named entity recognition in information security domain for Russian
Ya et al. NeuralAS: Deep word-based spoofed URLs detection against strong similar samples

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15864491

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15864491

Country of ref document: EP

Kind code of ref document: A1