WO2016088954A1

WO2016088954A1 - 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치

Info

Publication number: WO2016088954A1
Application number: PCT/KR2015/004529
Authority: WO
Inventors: 이수원; 심상권
Original assignee: 숭실대학교산학협력단
Priority date: 2014-12-04
Filing date: 2015-05-07
Publication date: 2016-06-09
Also published as: KR101692244B1; KR20160067473A

Abstract

스팸 분류 방법은, 정상 문서와 스팸 문서로부터, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 단계; 추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여 문서 분류 모델을 생성하는 단계; 분류 대상 문서로부터 단일 문서의 특징을 추출하는 단계; 및 상기 분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 단계를 포함한다. 이에 따라, 효율적이고 경제적인 스팸 차단을 수행할 수 있다.

Description

스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치

본 발명은 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것으로서, 더욱 상세하게는 단일 문서의 특징 분석을 이용한 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 장치에 관한 것이다.

블로그는 개인의 생각이나 기록을 남기는 미디어로서 인터넷과 웹의 발전으로 다양한 분야의 컨텐츠를 생산하고 운영되며, 포털 사이트는 블로그 게시물을 포함한 검색 서비스를 제공하거나 다양한 형태의 블로그 서비스를 제공하고 있다. 그러나 이러한 블로그는 개인이 작성한 게시물과 스패머가 기계적으로 만든 스팸 게시물이 혼재하고 있어, 사용자들은 유용한 정보를 얻기 어려워지고 검색 엔진의 검색 성능을 저하시키는 요인으로 나타난다.

스팸의 유형으로 특정 사이트의 검색 순위를 높이기 위한 링크스팸(Link spam)과 뉴스나 다른 블로그 컨텐츠를 도용하여 스팸 키워드를 삽입하는 컨텐츠 스팸(Content spam)이 있다. 링크스팸을 분석하는 방법으로는 페이지랭크(PageRank) 기법을 활용하여 신뢰 문서 또는 스팸 문서로부터 연결망을 구성해 문서를 분류한다. 컨텐츠 스팸 분석 방법은, 일반적으로 텍스트 문서의 문장을 분해하여 단어에 관한 빈도 정보를 사용하거나 문서의 특징을 추출하여 정상 문서와 스팸 문서의 차이점을 찾아내는 것으로 문서를 분류한다.

종래 기술들은 일반적으로 문서에 등장하는 단어의 등장 빈도를 특징으로 사용한다. 단어의 등장 빈도는 문서 내에서 얼마나 자주 등장하는지와 전체 문서에서 흔하게 등장하는지를 파악하게 되는데, 전체 문서에서 단어의 등장 빈도를 얻으려면 단어가 포함된 문서를 찾아서 빈도를 계산하게 된다. 따라서, 학습 데이터의 모든 단어의 등장 빈도를 계산하기 위해서는 메모리 사용량과 빈도 계산 시간이 추가적으로 소요된다.

또한, 학습 데이터가 많은 경우 메모리 사용량도 증가하게 되는데 메모리 사용량이 하드웨어 임계치를 넘어선다면 다른 문서를 참조하기 어려워진다. 메모리 사용량 문제를 해결하기 위해 분산처리를 적용한 방법들은 계산복잡도가 증가하는 단점이 있다.

또한, 기존의 스팸 문서 분류 방법은, 학습을 위해 자질어를 사용하거나 DF(Document Frequency)와 같이 단어가 등장하는 문서의 빈도를 특징으로 사용한다. 가장 기본적인 방법 중 하나인 DF는 단어가 등장한 문서 수로서 단어가 등장한 모든 문서를 참조해야 하는데, 많은 양의 문서 집합을 사용해 특징을 추출하면 단어가 등장한 모든 문서의 크기가 사용 가능한 메모리 제한을 넘어가므로 계산이 어렵다는 단점이 있다.

이에, 본 발명의 기술적 과제는 이러한 점에서 착안된 것으로 본 발명의 목적은 단일 문서에서 특징을 추출하여 스팸 필터링에 소요되는 시간과 비용을 절감할 수 있는 스팸 분류 방법을 제공하는 것이다.

본 발명의 다른 목적은 상기 스팸 분류 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 기록 매체를 제공하는 것이다.

본 발명의 또 다른 목적은 상기 스팸 분류 방법을 수행하기 위한 장치를 제공하는 것이다.

상기한 본 발명의 목적을 실현하기 위한 일 실시예에 따른 스팸 분류 방법은, 정상 문서와 스팸 문서로부터, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 단계; 추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여 문서 분류 모델을 생성하는 단계; 분류 대상 문서로부터 단일 문서의 특징을 추출하는 단계; 및 상기 분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 단계를 포함한다.

본 발명의 실시예에서, 상기 단일 문서의 특징은, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도 중 적어도 하나의 특징을 포함할 수 있다.

본 발명의 실시예에서, 상기 단일 문서의 특징은, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도를 모두 포함할 수 있다.

본 발명의 실시예에서, 상기 단일 문서의 특징은, 각 특징마다 정해진 수식을 통해 특징값으로 계산될 수 있다.

본 발명의 실시예에서, 상기 문서 분류 모델을 생성하는 단계는, 정상 문서의 각 특징값과 태깅값 및 스팸 문서의 각 특징값과 태깅값을 저장하는 단계를 포함할 수 있다.

상기한 본 발명의 다른 목적을 실현하기 위한 일 실시예에 따른 컴퓨터로 판독 가능한 저장 매체에는, 스팸 분류 방법을 수행하기 위한 컴퓨터 프로그램이 기록되어 있다.

상기한 본 발명의 또 다른 목적을 실현하기 위한 일 실시예에 따른 스팸 분류 장치는, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 특징 추출부; 정상 문서와 스팸 문서로부터 추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여, 정상 문서와 스팸 문서를 판별하기 위한 문서 분류 모델을 생성하는 모델 생성부; 및 분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 스팸 판별부를 포함한다.

본 발명의 실시예에서, 상기 추출부는, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도 중 적어도 하나의 특징을 추출할 수 있다.

본 발명의 실시예에서, 상기 추출부는, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도의 특징을 모두 추출할 수 있다.

본 발명의 실시예에서, 상기 단일 문서의 특징은, 각 특징마다 정해진 수식을 통해 계산된 특징값일 수 있다.

본 발명의 실시예에서, 상기 문서 분류 모델은, 정상 문서의 각 특징값과 태깅값 및 스팸 문서의 각 특징값과 태깅값을 저장할 수 있다.

이와 같은 스팸 분류 방법에 따르면, 단일 문서의 특징만을 활용하므로 스팸 분류를 위한 특징 추출 시간의 단축 및 메모리 효율성을 향상시키는 효과가 있다. 특히, 사전 및 다른 문서를 참조하지 않으므로 스팸 단어 사전 구축에 필요한 시간과 비용을 절감할 있다. 또한, 본 발명에서 제안하는 방법은 단어에 의존적이지 않은 문서의 특징만을 추출하여 학습 문서에 대해 영향을 덜 받으므로, 스팸 구별의 정확도를 향상시킬 수 있다.

도 1은 본 발명의 일 실시예에 따른 스팸 분류 장치의 블록도이다.

도 2는 도 1의 특징 추출부의 상세한 블록도이다.

도 3은 스팸 문서와 정상 문서의 특징별 분포도이다.

도 4는 본 발명의 효과를 검증하기 위해 종래 기술과 정확도 등을 비교한 결과의 그래프이다.

도 5는 본 발명의 일 실시예에 따른 스팸 분류 방법의 흐름도이다.

<부호의 설명>

10: 스팸 분류 장치 20: 데이터 베이스

110: 특징 추출부 130: 모델 생성부

150: 스팸 판별부

후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.

이하, 도면들을 참조하여 본 발명의 바람직한 실시예들을 보다 상세하게 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 스팸 분류 장치의 블록도이다. 도 2는 도 1의 특징 추출부의 상세한 블록도이다.

본 발명에 따른 스팸 분류는 단일 문서의 특징 분석을 이용하는 것으로, 단일 문서의 특징이란, 다른 문서를 참조하지 않고 계산될 수 있는 특징들을 말한다. 예를 들어, TF(Term Frequency)는 하나의 문서에서 등장하는 단어의 빈도를 나타내지만 DF(Document Frequency)는 단어가 등장하는 문서의 빈도로 전체 문서를 참조해야 얻을 수 있는 특징이다. 즉, 본 발명은 단어에 의존적이지 않은 문서의 특징만을 추출하여 학습 문서에 따라 영향을 덜 받을 수 있다.

도 1을 참조하면, 본 발명에 따른 스팸 분류 장치(10)는 특징 추출부(110), 모델 생성부(130) 및 스팸 판별부(150)를 포함한다.

본 발명의 상기 스팸 분류 장치(10)는 스팸 분류를 수행하기 위한 소프트웨어(애플리케이션)가 설치되어 실행될 수 있으며, 상기 특징 추출부(110) 등의 구성은 상기 스팸 분류 장치(10)에서 실행되는 상기 스팸 분류를 수행하기 위한 소프트웨어에 의해 제어될 수 있다.

상기 스팸 분류 장치(10)는 별도의 단말이거나 또는 단말의 일부 모듈일 수 있다. 또한, 상기 특징 추출부(110) 등의 구성은 통합 모듈로 형성되거나, 하나 이상의 모듈로 이루어 질 수 있다. 그러나, 이와 반대로 각 구성은 별도의 모듈로 이루어질 수도 있다.

상기 스팸 분류 장치(10)는 이동성을 갖거나 고정될 수 있다. 상기 장치(10)는, 서버(server) 또는 엔진(engine) 형태일 수 있으며, 디바이스(device), 기구(apparatus), 단말(terminal), UE(user equipment), MS(mobile station), 무선기기(wireless device), 휴대기기(handheld device) 등 다른 용어로 불릴 수 있다.

예를 들어, 상기 스팸 분류 장치(10)는 사용자의 이동통신 단말기나 컴퓨터 등의 정보 단말기에 구비될 수도 있고, 메일 서버나 문자 메시지 서버에 구비될 수도 있다. 또는, 상기 단말기나 서버와 통신하는 독립적인 장치이거나 서버의 형태일 수도 있다.

상기 스팸 분류 장치(10)는 운영체제(Operation System; OS), 즉 시스템을 기반으로 다양한 소프트웨어를 실행하거나 제작할 수 있다. 상기 운영체제는 소프트웨어가 장치의 하드웨어를 사용할 수 있도록 하기 위한 시스템 프로그램으로서, 안드로이드 OS, iOS, 윈도우 모바일 OS, 바다 OS, 심비안 OS, 블랙베리 OS 등 모바일 컴퓨터 운영체제 및 윈도우 계열, 리눅스 계열, 유닉스 계열, MAC, AIX, HP-UX 등 컴퓨터 운영체제를 모두 포함할 수 있다.

상기 특징 추출부(110)는 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출한다. 단일 문서의 특징이란, 다른 문서를 참조하지 않고 계산될 수 있는 특징들을 말한다. 여기서 문서란, 일반적인 블로그 등의 웹 페이지를 의미하는 것이나 이에 한정되지 않고 컴퓨터 상에서 디스플레이될 수 있는 모든 형태의 문서가 이에 해당된다 할 것이다.

본 발명에서는, 단일 문서의 특징으로서, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도를 이용할 수 있다.

이들 상기 단일 문서의 특징은 종래기술과 다르게 단어에 의존적이지 않은 문서의 특징들이다. 그러나, 상기 예시한 단일 문서의 특징은 일 예에 불과하고, 필요에 따라 특징을 추가, 변경, 삭제할 수 있다.

상기 특징 추출부(110)는 상기 9개의 단일 문서의 특징을 적어도 하나를 추출한다. 예를 들어, 상기 특징 추출부(110)는 상기 9개의 단일 문서의 특징을 모두 추출할 수 있다. 또는, 상기 9개의 단일 문서의 특징 중 일부만 추출할 수도 있다.

상기 특징 추출부(110)는 각 특징마다 정해진 수식을 통해 특징값을 계산하여 정량화할 수 있다. 도 2를 참조하면, 상기 특징 추출부(110)는 각 특징을 추출하기 위한 모듈을 각각 포함하고 있다. 그러나, 다른 실시예로서 하나의 모듈에서 각 특징을 순차적으로 또는 임의의 순서로 또는 동시에 추출할 수도 있다.

이하에서는, 도 3을 참조하여 상기 특징 추출부(110)에서 추출되는 단일 문서의 특징을 자세히 설명한다.

문서의 길이

HTML 태그를 포함한 문서의 길이는 정상적인 경우 스팸 문서에 비해 긴 경우가 많다. 스팸 문서는 일반적으로 몇 개의 짧은 문장을 이어 붙인 형태로 자동 생성되기 때문에 일정한 문서 길이에 집중되어 있는 것이 특징이다(도 3(a)). 문서의 길이(D_i)는 다음의 수학식 1에 의해 계산될 수 있다.

[수학식 1]

문서의 길이 비율

스팸 문서는 HTML 태그를 많이 사용하지 않고 검색 랭크를 올리기 위한 이슈 키워드나 의미 없는 텍스트를 나열하는 점이 특징이다. 따라서, 문서 길이에 비해서 HTML 태그가 많은 부분을 차지하는 문서들은 정상적인 문서의 비율이 높다(도 3(b)). 문서의 길이 비율은 태그를 제외한 문서의 길이와 태그를 포함한 문서의 길이의 비율로서 아래의 수학식 2와 같이 계산될 수 있다.

[수학식 2]

이미지의 개수

일반적인 검색 환경에서는 검색 키워드를 포함하고 있는 문서를 검색결과로 보여주게 된다. 키워드 검색의 결과로 노출되어야 하는 스팸 문서의 특성상 검색이 되지 않는 이미지보다 키워드를 더 중요시하기 때문에 정상적인 문서에 비해서 문서에 포함된 이미지의 수가 적다(도 3(c)). 이미지의 개수는 다음의 수학식 3에 의해 계산될 수 있다.

[수학식 3]

HTML 태그의 개수

자동으로 생성되는 스팸 문서의 특성상 글의 내용만 다르고 같은 형식의 HTML 태그를 취하고 있기 때문에 정상 문서에 비해 태그의 수가 적거나 매우 많은 태그를 포함하고 있는 경우가 많다(도 3(d)). 따라서, HTML 태그의 개수는 자동으로 생성되는 스팸 문서를 분류하는데 중요한 척도가 될 수 있을 것이다. HTML 태그의 개수는 다음의 수학식 4에 의해 계산될 수 있다.

[수학식 4]

공백 문자의 비율

정상적인 문서는 본문에 글의 양이 많아질수록 공백의 개수 또한 증가한다. 반면, 스팸 문서에서는 스팸 키워드를 강조하거나 스팸 키워드로 인식되지 않도록 하기 위해 띄어쓰기를 하지 않거나 띄어쓰기 대신 특수 문자를 사용하는 등 단어를 조작한다. 따라서, 스팸 문서의 경우 공백 문자의 개수가 본문 길이에 비해 비정상적으로 적게 나오게 된다(도 3(e)). 공백 문자의 비율은 다음의 수학식 5에 의해 계산될 수 있다.

[수학식 5]

새줄 문자의 개수

새줄 문자(newline)의 개수도 자동으로 생성되는 스팸 문서의 특징으로, 스팸 문서는 일반적으로 여러 문장들을 이어 붙이면서 새줄 문자를 추가하지 않고 문서를 만들기 때문에 일반 문서에 비해서 적게 나온다(도 3(f)). 새줄 문자의 개수는 다음의 수학식 6에 의해 계산될 수 있다.

[수학식 6]

본문에 등장하는 단어의 개수

스팸 문서 본문의 상단에는 정상적으로 보이는 문장으로 구성하고 아래쪽의 보이지 않는 영역에 내용과는 관련 없는 수많은 이슈 키워드를 삽입하여 해당 키워드로 검색되도록 하는데, 이슈 키워드가 많이 삽입되면 일반적인 문서보다 많은 양의 단어가 포함되어 있어서 스팸일 확률이 높다(도 3(g)). 본문에 등장하는 단어의 개수는 다음의 수학식 7에 의해 계산될 수 있다.

[수학식 7]

앵커 태그의 개수

앵커 태그(Anchor tag)는 웹 문서의 특징으로 문서 내부에서 다른 문서로 이동할 수 있는 링크를 의미한다. 스팸 문서에서는 앵커 태그를 이용하여 다른 문서의 랭크를 높이거나 원하는 스팸 사이트로 연결할 수 있기 때문에 하나의 문서에서 다수의 앵커 태그를 포함하고 있는 경우가 많다(도 3(h)). 따라서, 앵커 태그의 수 역시 스팸 여부를 판별할 수 있는 하나의 척도가 된다. 앵커 태그의 개수는 다음의 수학식 8에 의해 계산될 수 있다.

[수학식 8]

제목과 본문 첫 번째 문장의 유사도

일반적인 웹 페이지와는 달리 제목과 본문이 명확히 구분되어 있는 블로그를 사용한 스팸 문서는 정상적인 검색 결과처럼 보이기 위해 제목과 같은 문장을 본문의 앞쪽에 위치시킴으로써 검색 결과에 제목과 본문이 같은 내용을 가진 정상적인 문서처럼 나타나게 된다(도 3(i)). 따라서, 첫 문장만 제목과 매우 유사하고 이후의 내용은 제목과 연관이 없는 내용으로 이루어진 문서는 스팸문서로 분류된다.

문서의 제목과 본문 첫 문장이 유사한 패턴의 스팸문서에 대해서는 Jaccard similarity를 통해 제목과 첫 문장의 유사도를 측정한다. 유사도 계산을 위해 공백(space) 기반으로 단어를 나눌 경우 두 문장이 띄어쓰기 또는 조사, 어미가 다른 경우 같은 단어를 다른 단어로 인식하여 유사도를 계산하기 때문에 정확한 유사도를 측정하기 어렵다. 따라서, 각 문장에 Bi-gram을 적용하여 띄어쓰기 및 단어의 변형 문제를 해결하였다. 제목과 본문 첫 번째 문장의 유사도는 다음의 수학식 9에 의해 계산될 수 있다.

[수학식 9]

여기서,

는 문서의 제목이며,

는 본문의 처음 문장이다(단,

).

상기 특징 추출부(110)는 추출된 단일 문서의 특징값을 상기 모델 생성부(130)에 제공하고, 상기 모델 생성부(130)는 상기 특징값을 학습 데이터로 사용하여 학습하고, 정상 문서와 스팸 문서를 판별하기 위한 문서 분류 모델을 생성한다.

이를 위해 학습 데이터로서 정상 문서와 스팸 문서로 태깅된 문서들의 특징값을 이용할 수 있다. 예를 들어, 먼저 블로그 문서를 수집하여 수동으로 스팸 문서 와 정상 문서를 분류하여 데이터 베이스(20)에 저장할 수 있다.

상기 특징 추출부(110)는 상기 데이터 베이스(20)에 저장된 정상 문서와 스팸 문서의 특징값을 추출하고, 상기 모델 생성부(130)는 상기 특징값을 학습하여 각 특징값과 정상 문서와 스팸 문서의 태깅값을 포함하는 문서 분류 모델을 생성한다.

이후, 스팸 문서인지 판별하기 위한 분류 대상 문서가 입력되면 상기 특징 추출부(110)는 상기 분류 대상 문서로부터 단일 문서의 특징값을 추출하고, 상기 스팸 판별부(150)에 전달한다. 분류 대상 문서는 웹 페이지일 수 있으나, 이에 한정되지 않고 컴퓨터 상에서 디스플레이될 수 있는 모든 형태의 문서가 될 수 있으며, 상기 스팸 분류 장치(10)에 의해 자동으로 수집될 수 있다.

상기 스팸 판별부(150)는 상기 분류 대상 문서의 특징값을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하여 출력한다. 본 발명은 단일 문서에서만 추출할 수 있는 특징들만을 사용하여 학습하므로, 특징 추출시간을 단축하고, 메모리 효율성 측면에서 우수하다. 따라서, 효율적으로 스팸을 감지하고 차단할 수 있다.

본 발명의 타당성을 검증하기 위해 같은 데이터 및 학습 알고리즘을 사용하여 종래기술과의 비교 실험을 진행하였다. 종래기술로는 문서에서 단어의 등장확률을 기반으로 스팸을 분류하는 연구(이성진, 백종범, 한정석, 이수원. 특수 문자 및 단어 빈도 비율을 이용한 스팸 필터링 방법. 한국정보과학회 학술발표논문집 38.1C 2011. pp. 280-283.)를 비교대상으로 하였다. 종래기술은 단어의 등장확률을 계산하기 위해서는 다른 문서를 참조하나, 본 발명은 단일 문서만을 참조한다.

실험을 위해, 인터넷 포털에서 API를 사용하여 94,224건의 블로그 데이터를 수집하여, 스팸 데이터 10,983 건과 정상적인 데이터 83,241 건을 사용하였다. 정상적인 데이터 수가 많아 약 61 %의 데이터만 샘플링하여 사용하여 앞서 제시한 9가지 단일 문서의 특징을 추출하였다.

실험 방법으로 10-묶음 교차 검증법(10-fold cross vaidation)을 사용하고 스팸 문서와 정상적인 문서로 이진 분류를 시행하여 정확률(precision)과 재현률(recall)로 평가를 수행하였다. 정확률이란, 스팸 필터링 결과 스팸으로 판단된 문서가 실제 스팸 문서일 확률을 의미하고, 재현률이란 스팸 문서로 판단되어야 할 문서 중 실제 스팸으로 판단된 문서에 대한 확률을 의미한다. 시스템이 가능한 한 많은 스팸 문서를 찾아야 재현률이 좋아지고, 스팸으로 판단된 문서들이 대부분 스팸이어야 정확률이 좋아진다.

또한, 스팸 문서 분류에서는 정상 문서를 스팸 문서로 분류하는 경우의 위험도가 반대의 경우보다 훨씬 크다고 할 수 있다. 따라서, FP-Rate에 대한 비교평가도 반드시 필요하며, 이는 아래의 수학식 10에 의해 수행될 수 있다.

[수학식 10]

데이터 마이닝 분야에서 오픈소스로 공개되어 많이 활용되고 있는 Weka를 활용하여 분류 알고리즘인 의사결정트리(Decision tree) 분류 알고리즘으로 실험하였다. 아래의 표 1은 스팸 문서 분류의 혼동 행렬(confusion matrix)을 나타낸다.

		실험
		스팸	정상
실제	스팸	10,552	431
실제	정상	344	82,897

표 1을 참조하면, 정확률(precision)과 재현률(recall)은 각각 0.992와 0.992로 계산되어 F-Measure는 99.2 %를 보였고, FP-Rate는 0.035로 나타났다. 특수문자와 단어의 등장 확률을 기반으로 스팸 여부를 판별한 종래 기술과의 비교 실험을 통한 알고리즘 및 데이터 셋을 사용하여 진행한 비교 실험 결과는 도 4(a)와 같다.

도 4(a)를 참조하면, 비교 실험 결과 본 발명의 정확도가 종래 기술에 비해 0.002 % 우수하였다. 또한, 도 4(b)를 참조하면, 본 발명은 종래 기술에 대비하여 특징 추출 시간이 평균 52 % 단축되었고, 메모리 사용량은 33 % 향상되었다.

본 실시예에 따른 스팸 분류 방법은, 도 1의 스팸 분류 장치(10)와 실질적으로 동일한 구성에서 진행될 수 있다. 따라서, 도 1의 스팸 분류 장치(10)와 동일한 구성요소는 동일한 도면부호를 부여하고, 반복되는 설명은 생략한다. 또한, 본 실시예에 따른 스팸 분류 방법은 스팸 분류를 수행하기 위한 소프트웨어(애플리케이션)에 의해 실행될 수 있다.

도 5를 참조하면, 본 실시예에 따른 스팸 분류 방법은, 먼저 문서 분류 모델을 형성하기 위해 학습 데이터 셋을 학습한다. 이를 위해, 정상 문서와 스팸 문서를 수집하여 저장하여 둘 수 있다.

저장된 정상 문서와 스팸 문서로부터, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출한다(단계 S10). 단일 문서의 특징이란, 다른 문서를 참조하지 않고 계산될 수 있는 특징들을 말한다. 여기서 문서란, 일반적인 블로그 등의 웹 페이지를 의미하는 것이나 이에 한정되지 않고 컴퓨터 상에서 디스플레이될 수 있는 모든 형태의 문서가 이에 해당된다 할 것이다.

상기 단일 문서의 특징은, 문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도 중 적어도 하나의 특징을 포함하거나 모두를 이용할 수 있다.

상기 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 단계(단계 S10)는, 각 특징마다 정해진 수식을 통해 특징값을 계산하여 정량화할 수 있다. 단일 문서의 각 특징값은 아래의 표 2의 수식들에 의해 계산될 수 있다.

단일 문서의 특징	수학식
문서의 길이
문서의 길이 비율
이미지의 개수
HTML 태그의 개수
공백 문자의 비율
새줄 문자의 개수
본문에 등장하는 단어의 개수
앵커 태그의 개수
제목과 본문 첫 번째 문장의 유사도

정상 문서와 스팸 문서의 특징을 추출하면, 특징값을 학습 데이터로 사용하여 학습하고, 정상 문서와 스팸 문서를 판별하기 위한 문서 분류 모델을 생성한다(단계 S30). 정상 문서와 스팸 문서의 특징별 분포도는 도 3에 나타난 바와 같다.

상기 문서 분류 모델을 생성하는 단계(단계 S30)는, 정상 문서와 스팸 문서의 특징값을 학습하여, 각 특징값과 정상 문서와 스팸 문서의 태깅값을 포함하는 문서 분류 모델을 생성한다.

이후, 스팸 문서인지 판별하기 위한 분류 대상 문서가 입력되면 상기 분류 대상 문서로부터 단일 문서의 특징을 추출한다(단계 S50). 분류 대상 문서는 웹 페이지일 수 있으나, 이에 한정되지 않고 컴퓨터 상에서 디스플레이될 수 있는 모든 형태의 문서가 될 수 있으며 상기 스팸 분류 장치(10)에 의해 자동으로 수집될 수 있다.

상기 분류 대상 문서의 특징값이 추출되면, 상기 분류 대상 문서의 특징값을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별한다(단계 S70).

본 발명은 단일 문서에서만 추출할 수 있는 특징들만을 사용하여 학습하므로, 특징 추출시간을 단축하고, 메모리 효율성 측면에서 우수하다. 따라서, 효율적으로 스팸을 감지하고 차단할 수 있다.

이와 같은, 스팸 분류 방법은 애플리케이션으로 구현되거나 다양한 컴퓨터 구성요소를 통하여 수행될 수 있는 프로그램 명령어의 형태로 구현되어 컴퓨터 판독 가능한 기록 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능한 기록 매체는 프로그램 명령어, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다.

상기 컴퓨터 판독 가능한 기록 매체에 기록되는 프로그램 명령어는 본 발명을 위하여 특별히 설계되고 구성된 것들이거니와 컴퓨터 소프트웨어 분야의 당업자에게 공지되어 사용 가능한 것일 수도 있다.

컴퓨터 판독 가능한 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.

프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

본 발명은 단일 문서의 특징만을 활용하므로 스팸 분류를 위한 특징 추출 시간의 단축 및 메모리 효율성을 향상시키므로 자동 분류기 설계 및 구현에 유용하게 활용될 수 있다. 또한, 자료가 방대해지는 현재 및 미래에 문서 분류, 블로그 스팸, 컨텐츠 스팸, 스팸 감지 및 스팸 필터링 분야에서 널리 활용될 수 있을 것이다.

Claims

정상 문서와 스팸 문서로부터, 문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 단계;

추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여 문서 분류 모델을 생성하는 단계;

분류 대상 문서로부터 단일 문서의 특징을 추출하는 단계; 및

상기 분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 단계를 포함하는, 스팸 분류 방법.
제1항에 있어서, 상기 단일 문서의 특징은,

문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도 중 적어도 하나의 특징을 포함하는, 스팸 분류 방법.
제1항에 있어서, 상기 단일 문서의 특징은,

문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도를 모두 포함하는, 스팸 분류 방법.
제2항 및 제3항의 어느 하나의 항에 있어서, 상기 단일 문서의 특징은,

각 특징마다 정해진 수식을 통해 특징값으로 계산되는, 스팸 분류 방법.
제4항에 있어서, 상기 문서 분류 모델을 생성하는 단계는,

정상 문서의 각 특징값과 태깅값 및 스팸 문서의 각 특징값과 태깅값을 저장하는 단계를 포함하는, 스팸 분류 방법.
제1항 내지 제5항 중 어느 하나의 항에 따른 스팸 분류 방법을 수행하기 위한, 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 기록 매체.
문서의 구조적 특징을 포함하는 단일 문서의 특징을 추출하는 특징 추출부;

정상 문서와 스팸 문서로부터 추출된 상기 단일 문서의 특징을 학습 데이터로 사용하여, 정상 문서와 스팸 문서를 판별하기 위한 문서 분류 모델을 생성하는 모델 생성부; 및

분류 대상 문서의 특징을 상기 분류 모델에 적용하여 상기 분류 대상 문서가 스팸 문서인지 판별하는 스팸 판별부를 포함하는, 스팸 분류 장치.
제7항에 있어서, 상기 추출부는,

문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도 중 적어도 하나의 특징을 추출하는, 스팸 분류 장치.
제7항에 있어서, 상기 추출부는,

문서의 길이, 문서의 길이 비율, 이미지의 개수, HTML 태그의 개수, 공백 문자의 비율, 새줄 문자의 개수, 본문에 등장하는 단어의 개수, 앵커 태그의 개수 및 제목과 본문 첫 번째 문장의 유사도의 특징을 모두 추출하는, 스팸 분류 장치.
제8항 및 제9항의 어느 하나의 항에 있어서, 상기 단일 문서의 특징은,

각 특징마다 정해진 수식을 통해 계산된 특징값인, 스팸 분류 장치.
제10항에 있어서, 상기 문서 분류 모델은,

정상 문서의 각 특징값과 태깅값 및 스팸 문서의 각 특징값과 태깅값을 저장하는, 스팸 분류 장치.