KR100962045B1

KR100962045B1 - 메시지 필터링 장치 및 그 방법

Info

Publication number: KR100962045B1
Application number: KR20070082020A
Authority: KR
Inventors: 최형기; 김범배
Original assignee: 성균관대학교산학협력단
Priority date: 2006-08-14
Filing date: 2007-08-14
Publication date: 2010-06-08
Also published as: KR20080015379A

Abstract

메시지 필터링 장치 및 그 방법이 개시된다. 메시지 필터링 장치는 미리 수집된 복수개의 샘플 메시지를 이용하여 유해 메시지에 소정의 단어가 포함될 확률인 단어 평가값을 산출하는 학습부; 상기 단말로부터 수신되는 메시지에서 복수개의 단어를 추출하는 추출부; 및 상기 추출된 단어와 상기 추출된 단어에 각각 상응하는 단어 평가값을 이용하여 상기 메시지가 유해 메시지인지 여부를 판단하는 판단부를 포함한다. 본 발명에 따르면 사용자마다 각기 다른 맞춤형 필터링 서비스를 제공할 수 있다는 장점이 있다.

메시지, 필터링, 유해 메시지, 스팸

Description

메시지 필터링 장치 및 그 방법 {Apparatus and Method for filtering Message}

본 발명은 메시지 필터링 장치 및 그 방법에 관한 것으로서, 보다 상세하게는 단말에 수신되는 유해 메시지를 여과하고 관리하는 메시지 필터링 장치 및 그 필터링 방법에 관한 것이다.

유해한 메시지란 일명 '스팸(Spam)'이나 '정크 메시지(Junk Message)'라고도 하며 수신자의 의사와 상관없이 부당한 이익을 취하는 상업적 광고, 청소년 유해물, 비방과 욕설 등의 메시지를 말한다. 이러한 유해 메시지는 인터넷 사용의 폭증과 함께 주로 이메일(E-mail)에서 자원과 인력의 큰 낭비를 초래하고 있다. 게시판과 같은 인터넷 커뮤니티상에서의 유해 메시지 역시 최근 들어 이슈화되고 있는 추세이다. 또한, 급격히 대중화되고 있는 이동통신상의 단문메시지 서비스(Short Message Service, 이하 'SMS'라 한다)도 유해 메시지로 인한 큰 피해를 입고 있다. 따라서, 이러한 유해 메시지에 대한 여과 기술의 요구가 증가하고 있으며, 특히 이 동통신을 통한 문자메시지와 관련하여 다양한 유해 메시지 차단 방법의 제시가 활발하게 이뤄지고 있다.

일반적으로, 종래의 유해 메시지 차단 방법에서는 유해 메시지에 포함되는 특정 단어들을 이용하여 규칙으로 필터링한다. 즉, 사용자에 의해 지정되어 저장된 단어가 메시지내에 포함되어 있는지의 여부를 판단하고, 포함되어 있다면 유해 메시지로 분류하는 방식이다. 그러나, 이러한 규칙기반 방법은 임의로 저장해 놓은 단어가 정상 메시지에 나타날 경우, 이를 정상 메시지가 아닌 유해 메시지로 분류하는 문제점이 있다.

이와 같이 마일리지 활용 기술의 일례가 대한민국 특허 공개공보 제2004-0040548호(2004.05.13 공개, 휴대폰 스팸 SMS 필터링 방법)에 개시되어 있다.

상기 대한민국 특허 공개공보 제2004-0040548호에 개시된 기술은 등록된 특정단어를 이용하여 스팸 문자메시지를 필터링하는 방법에 관한 것으로, 안테나(Antenna)를 통해 수신되는 신호에 대해서 디지털 신호를 생성하는 RF(Radio Frequency)부, 디지털 신호를 분석하는 제어부, 제어에 필요한 데이터를 저장하고 있는 프로그램이 내장된 메모리, 사용자로부터 입력받는 키에 대응하는 신호를 발생하는 키입력부, 외부장치와 휴대폰간의 데이터 송수신을 가능하게 하는 인터페이스, 컬라 데이터를 처리하는 OSD(On Screen Display), 전기적 신호를 디지털 신호로 변환하는 DSP, 휴대폰의 상태 및 동작과정 등을 디스플레이(Display)하는 LCD, 음성을 전기적인 음성신호로 변환하여 출력하는 음성처리부로 구성된다고 기재되어 있다. 상기 공보 제2004-0040548호에 개시된 기술에서는 이동통신 가입자의 요구에 부합되는 문자메시지만을 선택적으로 필터링함으로써 광고성 또는 음란성 SMS의 수신을 최소화할 수 있는 휴대폰 스팸 SMS 필터링 방법에 대해 기재되어 있다.

또, 이동통신 단말기의 스팸 메시지 처리 기술의 일례가 대한민국 특허 공개공보 제2005-0122596호(2005.12.29 공개, 이동 통신 단말기에서의 스팸 메시지 관리 방법)에 개시되어 있다.

상기 대한민국 특허 공개공보 제2005-0122596호에 개시된 기술은 스팸 규칙을 사용하여 스팸 문자메시지를 처리하는 방법에 관한 것으로, 사용자로부터 기능이나 정보를 입력받는 입력부, 프로그램과 데이터를 저장하는 메모리부, 수신된 문자메시지가 스팸 규칙에 일치하는지의 여부를 확인하는 제어부, 기지국과 음성 및 제어정보를 주고받는 무선회로부, 단말기의 상태 및 동작과정을 표시하는 표시부로 구성된다고 기재되어 있다. 상기 공보 제2005-0122596호에 개시된 기술에서는 사용자에 의해 복합 연산자(AND)와 부정 연산자(NOT)를 통해 설정된 스팸 규칙을 단말기가 저장하고 있어 문자메시지가 수신되면 스팸 규칙과 비교한 후, 일치하면 스팸 메시지 보관함에 저장함으로써 스팸 문자메시지를 필터링하는 이동 통신 단말기에서의 스팸 메시지 관리 방법에 대해 기재되어 있다.

그러나, 상기 공보들에 개시된 기술을 비롯하여 종래의 기술에 있어서는 이동통신 단말기로 수신되는 다양한 메시지에 적절히 대응하지 못하고 스팸 문자메시지를 필터링하는 정확도가 낮다는 문제점이 있다.

또한, 모바일에 이용되는 기존의 스팸 차단방법들은 규칙기반 방법이기 때문 에 오판단율이 높다는 문제점이 있다.

또한, 이동통신에서의 스팸 필터링 서비스에 대한 이용자들의 다양한 요구를 충족시키지 못하여 특화된 여과 서비스를 능동적으로 제시하지 못한다는 문제점이 있다.

본 발명의 목적은 상술한 바와 같은 문제점을 해결하기 위한 것으로서, 종래의 규칙기반 여과방법의 한계를 극복하기 위해 학습기반 여과방법을 통해 이동통신상의 유해 메시지를 효과적으로 여과할 수 있는 메시지 필터링 장치과 그 필터링 방법을 제안하는 것이다.

또한 본 발명은 학습기반 여과방법은 인공지능 방식을 이용하여 필터링 엔진이 메시지를 수신할 때마다 학습을 수행하고, 그 학습결과를 스팸 여부를 결정하는 확률에 영향을 미치게 함으로써 더욱 정확한 스팸 필터를 구현하는 필터링 장치 및 그 필터링 방법을 제안하는 것이다.

본 발명의 다른 목적은 사용자의 특성에 따라 각기 다른 필터링을 서비스하는 메시지 필터링 장치과 그 필터링 방법을 제안하는 것이다.

본 발명의 다른 목적은 웹을 통한 필터 관리 기능을 제공하여 이동통신 사용자가 능동적으로 자신의 필터링 장치을 관리할 수 있게 하는 메시지 필터링 장치와 그 필터링 방법을 제안하는 것이다.

본 발명의 일 측면에 따르면, 단말의 메시지를 필터링(filtering)하는 장치에 있어서, 미리 수집된 복수개의 샘플 메시지를 이용하여 유해 메시지에 소정의 단어가 포함될 확률인 단어 평가값을 산출하는 학습부; 상기 단말로부터 수신되는 메시지에서 복수개의 단어를 추출하는 추출부; 및 상기 추출된 단어와 상기 추출된 단어에 각각 상응하는 단어 평가값을 이용하여 상기 메시지가 유해 메시지인지 여부를 판단하는 판단부를 포함하는 메시지 필터링 장치기 제공된다.

여기서, 상기 학습부는 상기 샘플 메시지로부터 복수개의 단어를 각각 추출하고, 상기 샘플 메시지에서 상기 추출된 단어를 포함하는 유해 메시지와 상기 샘플 메시지에 포함된 전체 유해 메시지의 수를 이용하여 상기 단어의 단어 평가값을 산출할 수 있다.

여기서, 상기 판단부는 상기 추출된 단어에 각각 상응하는 단어 평가값이 0.5로부터 0과 1을 향해 가장 멀리 떨어진 단어를 순차적으로 미리 지정된 개수만큼 최적단어로 추출할 수 있다.

여기서, 상기 판단부는 상기 추출된 최적단어와 상기 추출된 최적단어에 상응하는 단어 평가값을 이용하여 상기 단말에 수신된 메시지가 유해 메시지일 확률인 메시지 평가값을 산출하고, 상기 산출된 메시지 평가값이 미리 지정된 임계값을 초과하는 경우 상기 단말로부터 수신된 메시지가 유해 메시지인 것으로 판단할 수 있다.

여기서, 상기 판단부는 베이지안 필터링 기법(Bayesian filtering method)을 더 이용할 수 있다.

여기서, 상기 판단부는

수학식

을 이용하여 상기 메시지 평가값을 산출할 수 있다.

여기서, P(spam|words)는 메시지 평가값이고, P(words|spam)는 추출된 최적단어를 모두 포함하는 메시지가 유해 메시지에서 나타날 확률이고, P(spam)은 샘플 메시지 중에서 유해 메시지의 비율이며, P(words)는 샘플 메시지 중 추출된 최적단어를 모두 포함하는 메시지가 나타날 확률이다.

여기서, 상기 P(words)는 P(word1) Ⅹ P(word2) Ⅹ … Ⅹ P(wordN) 이고, 상기 P(words|spam) 는 P(word1|spam) Ⅹ P(word2|spam) Ⅹ … Ⅹ P(wordN|spam)일 수 있다.

여기서, words는 추출된 복수개의 최적단어며, P(word1)은 최적단어 word1를 포함하는 메시지가 나타날 확률이고, P(word1|spam)은 최적단어 word1에 상응하는 단어 평가값이고, N은 자연수로서 최적단어의 미리 지정된 개수이다.

여기서, 네트워크로 연결된 클라이언트로부터 수신되는 입력에 따라 상기 단어 평가값 및 상기 임계값 중 하나 이상을 재설정할 수 있는 웹컨텐츠를 제공하는 컨텐츠부를 더 포함할 수 있다.

본 발명의 다른 측면에 의하면, 메시지 필터링 장치가 단말에 수신되는 메시지를 필터링(filtering)하는 방법에 있어서, (a) 상기 단말로부터 수신되는 메시지에서 복수개의 단어를 추출하는 단계; 및 (b) 상기 추출된 단어와 상기 추출된 단어에 상응하는 단어 평가값을 이용하여 상기 메시지가 유해 메시지인지 여부를 판단하는 단계를 포함하되, 상기 단어 평가값은 미리 수집된 복수개의 샘플 메시지를 이용하여 유해 메시지에 소정의 단어가 포함될 확률로서 미리 산출된 것을 특징으로 하는 메시지 필터링 방법이 제공된다.

여기서, 상기 단어 평가값은 상기 샘플 메시지로부터 복수개의 단어를 각각 추출하고, 상기 샘플 메시지에서 상기 추출된 단어를 포함하는 유해 메시지와 상기 샘플 메시지에 포함된 전체 유해 메시지의 수를 이용하여 산출될 수 있다.

여기서, 상기 (b) 단계는 (b1) 상기 추출된 단어에 각각 상응하는 단어 평가값이 0.5로부터 0과 1을 향해 가장 멀리 떨어진 단어를 순차적으로 미리 지정된 개수만큼 최적단어로 추출하는 단계를 포함할 수 있다.

여기서, 상기 (b)단계는 상기 (b1) 단계 이후에 (b2) 상기 추출된 최적단어와 상기 추출된 최적단어에 상응하는 단어 평가값을 이용하여 상기 메시지가 유해 메시지일 확률인 메시지 평가값을 산출하는 단계를 더 포함하되, 상기 산출된 메시지 평가값이 미리 지정된 임계값을 초과하는 경우 상기 단말로부터 수신된 메시지가 유해 메시지인 것으로 판단할 수 있다.

여기서, 상기 (b2)단계는 베이지안 필터링 기법(Bayesian filtering method)을 더 이용할 수 있다.

여기서, 상기 (b2)단계는

수학식

을 이용하여 상기 메시지 평가값을 산출할 수 있다.

여기서, 네트워크로 연결된 클라이언트로부터 수신되는 입력에 따라 상기 단어 평가값 및 상기 임계값 중 하나 이상이 재설정될 수 있다.

상술한 바와 같이, 본 발명에 따른 메시지 필터링 장치와 그 필터링 방법에 의하면, 학습기반 여과방법을 이용함으로써 이동통신상의 스팸 필터링의 정확도를 높일 수 있다는 효과가 얻어진다.

또, 본 발명에 따른 메시지 필터링 장치와 그 필터링 방법에 의하면, 사용자마다 각기 다른 맞춤형 필터링 서비스를 제공할 수 있다는 효과도 얻어진다.

또, 본 발명에 따른 메시지 필터링 장치와 그 필터링 방법에 의하면, 웹을 통해 필터를 관리함으로써 이동통신 사용자 각자의 필터를 능동적으로 관리할 수 있다는 효과도 얻어진다.

본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르 게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 본 발명의 실시예를 첨부한 도면들을 참조하여 상세히 설명하기로 한다. 본 발명을 설명함에 있어 전체적인 이해를 용이하게 하기 위하여 도면 번호에 상관없이 동일한 수단에 대해서는 동일한 참조 번호를 사용하기로 한다.

[도 1 설명]

도 1은 본 발명의 실시예에 따라 단말과 메시지 필터링(filtering) 장치간의 동작을 간략하게 설명하기 위한 도면이다.

도 1을 참조하면, 단말(110)이 문자 메시지를 수신하면, 수신된 메시지를 네트워크를 통하여 메시지 필터링 장치(100)(이하, '필터링 장치'라 칭함)로 전송한다.

이 때, 단말(110)은 문자 메시지가 수신된 이벤트를 사용자에게 표시하지 아니하고, 필터링 장치(100)로 전송할 수 있다.

이어서, 필터링 장치(100)는 수신된 메시지가 유해 메시지 인지 여부를 판단하고, 판단 결과와 함께 메시지를 단말(110)로 전송할 수 있다.

그리고, 유해 메시지 판단 결과에 따라 단말(110)은 메시지 수신 여부를 사 용자에게 출력할 수 있다.

예를 들어, 유해 메시지인 경우 단말(110)의 설정에 따라 메시지가 수신된 이벤트를 사용자에게 표시하지 아니하고, 단말(110)의 스팸(spam) 문자함에 별도로 보관될 수 있다.

예를 들어, 유해 메시지인 경우 단말(110)의 설정에 따라 메시지가 수신된 이벤트를 사용자에게 표시하지 아니하고 자동적으로 삭제될 수 있다.

여기서, 단말(110)이 수신된 메시지를 필터링 장치(100)에 전송하는 단계에서 메시지를 보관하고 있으므로, 필터링 장치(100)가 판단 결과만을 단말(110)로 전송할 수 있음은 당업자에게 자명하다.

이하, 본 발명의 편의와 설명의 편의를 도모하기 위하여 필터링 장치(100)가 메시지 및 그 메시지의 유해 메시지인지 여부에 대한 판단 결과를 단말(110)로 전송하는 것으로 가정하여 설명한다. 그러나, 본 발명이 이에 한정되지 아니함은 본 발명의 기술적 사상에 비추어 당업자에게 자명하다.

지금까지 도 1을 참조하여 본 발명의 실시예에 따른 단말과 메시지 필터링(filtering) 장치간의 동작을 간략히 설명하였다. 이하, 도 2를 참조하여 필터링 장치(100)의 구성에 대해서 설명한다.

[도 2 설명]

도 2는 본 발명의 실시예에 따른 필터링 장치(100)의 구성을 예시한 블록도이다.

도면에 대한 상세한 설명을 하기에 앞서, 본 명세서에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다. 따라서, 본 명세서를 통해 설명되는 각 구성부들의 존재 여부는 기능적으로 해석 되어져야 할 것이며, 이러한 이유로 본 발명의 필터링 장치에 따른 구성부들의 구성은 본 발명의 목적을 달성할 수 있는 한도 내에서 도 2와는 상이해질 수 있음을 명확히 밝혀둔다.

도 2를 참조하면, 통신부(201), 추출부(202), 학습부(203), 판단부(204), 컨텐츠부(205) 및 제어부(207) 중 하나 이상을 포함할 수 있다.

여기서, 도 2에는 저장부(207)가 필터링 장치(100)에 포함되는 것으로 도시하였다. 그러나, 저장부(207)가 별도의 데이터베이스로 구비되어 필터링 장치(100)에 연결될 수 있음은 본 발명의 기술적 사상에 비추어 당업자에게 자명하다.

통신부(201)는 단말(110)와 필터링 장치(110)에 데이터를 교환한다. 보다 상세하게는 단말(110)로부터 메시지를 수신하고, 필터링 장치(100)의 판단결과 및 그 메시지를 단말(110)로 전송할 수 있다.

또한, 통신부(201)는 단말(110)의 사용자가 사용하는 클라이언트(예를 들어, 컴퓨터)와 필터링 장치(110)간의 데이터를 교환할 수 있다. 이에 대해서는 이후 도 4를 참조하여 상세히 설명한다.

제어부(207)는 통신부(201), 추출부(202), 학습부(203), 판단부(204), 컨텐츠부(205) 및 필터링 장치 내부(미도시)를 제어한다.

본 발명의 요지를 명확히 하고 설명의 중복을 피하기 위하여, 앞서 예시한 필터링 장치(100)의 구성부의 기능은 이하 도 3 및 도 4를 참조하여 상세히 설명한다.

또한, 발명의 이해와 설명의 편의를 도모하기 위하여 단말(110)로부터 필터링 장치(100)에 수신되는 메시지가 SMS(Short Message Service)인 경우를 가정하여 설명한다. 그러나, 본 발명의 기술적 사상에 비추어 수신된 메시지가 문자가 포함된 다양한 방식의 메시지일 수 있음은 당업자에게 자명하다.

지금까지 도 2를 참조하여 필터링 장치(100)의 구성을 설명하였다. 이하, 도 3 및 도 4를 참조하여 메시지 필터링 방법을 설명한다.

[도 3 설명]

도 3은 본 발명의 실시예에 따라 학습부(203)가 단어 평가값을 산출하는 과정을 예시한 순서도이다.

도 3을 참조하면, 단계 S301에서 미리 수집된 복수개의 샘플 메시지에서 복수개의 단어를 각각 추출한다. 여기서, 미리 수집된 복수개의 샘플 메시지는 복수개의 유해 메시지 및 정상 메시지(즉, 유해 메시지가 아닌 메시지)를 포함할 수 있 다.

보다 상세하게는, 추출부(202)는 복수개의 샘플 메시지로부터 임의의 단어를 추출한다. 추출되는 단어는 문자메시지 내의 글자 조합으로서, 국문이나 영문에 상관없이 공백 또는 문장 부호 등으로 구분된 한 글자 이상의 조합을 뜻한다.

예를 들어, '모바일의 유해 메시지를 필터링한다.'라는 문구가 문자메시지 내에 포함되어 있다면 '모바일의', '유해 메시지를', '필터링한다'가 단어로서 추출된다.

이어서, 단계 S302에서 학습부(203)은 추출된 단어의 단어 평가값을 산출한다.

보다 상세하게는, 학습부(203)는 단계 S301에서 추출된 단어를 포함하는 유해 메시지의 수를 측정한다. 그리고, 측정된 유해 메시지의 수를 전체 유해 메시지에 대한 비율로 나타내어, 이를 단어 평가값으로 산출한다.

이때, 단어 평가값은 유해 메시지에 추출된 단어가 포함될 확률이다.

예를 들어, 총 200개의 샘플 메시지 중 100개의 유해 메시지가 있을 수 있다. 그리고, 총 100개의 유해 메시지 가운데 80개가 'Free'라는 단어를 포함하고 있다면, 'Free'라는 단어는 0.8의 단어 평가값을 갖는다. 즉, 유해 메시지에 'Free'라는 단어를 포함될 확률이 0.8이 될 수 있다.

단어 평가값에 대한 설명은 이후 도 4를 참조하여 상세히 설명한다.

여기서, 단어 평가값이 1에 가까울수록 그 단어는 유해 메시지의 특성을 잘 반영하는 단어이다. 또한, 단어 평가값이 0에 가까울수록 그 단어는 유해 메시지보 다는 정상 메시지의 특성을 잘 반영하는 단어이다.

여기서 정상 메시지 분류에 포함될 수 있는 메시지는 별도의 단어 평가값을 지니지 않는다. 정상 메시지 분류는 광범위한 범주의 내용을 포함하고 있기 때문에 유해 메시지 필터링에 큰 도움이 되지 못하기 때문이다.

이어서, 단계 S303에서 앞서 추출된 단어 및 그 단어의 단어 평가값이 저장부에저장된다.

여기서, 단어 및 그 단어의 평가값은 도 2에 예시된 필터링 장치(100)의 구성 요소 중 제어부(207), 학습부(203) 및 판단부(204) 중 어느 하나에 저장될 수 있음은 본 발명의 기술적 사상에 비추어 당업자에게 자명하다.

지금까지 도 3을 참조하여 학습부(203)가 단어 평가값을 산출하는 방법을 설명하였다. 이하 도 4를 참조하여 판단부(204)가 유해 메시지 여부를 판단하는 과정을 설명한다.

[도 4 설명]

도 4는 본 발명의 실시예에 따라 판단부(204)가 유해 메시지 여부를 판단하는 과정을 설명하기 위한 도면이다.

도 4를 참조하면, 단계 S410에서 필터링 장치(100)의 통신부(201)는 단말(110)로부터 단말로부터 메시지를 수신한다.

여기서, 바람직하게는 단말(110)은 메시지를 수신한 이벤트를 사용자에게 표시하지 아니하고, 필터링 장치(100)로 메시지를 전송할 수 있다.

이어서, 단계 S420에서 추출부(202)는 수신한 메시지에서 복수개의 단어를 추출하고, 단계 S430에서 판단부(204)는 추출된 복수개의 단어에서 미리 지정된 개수만큼의 최적단어를 추출한다. 이하, 최적단어를 추출하는 과정에 대해서 상세히 설명한다.

판단부(204)는 최적단어를 추출하기 위해 미리 추출된 단어 평가값을 추출된 단어에 할당한다. 각각의 단어에 할당할 단어 평가값은 상기에서 도 3을 참조하여 학습부(203)가 산출할 수 있음을 설명하였다.

예를 들어, 'Free'라는 단어가 0.8의 단어 평가값을 가질 수 있음을 도 3을 참조하여 설명하였다. 이 경우, 판단부(204)는 'Free'라는 단어가 추출된 경우 0.8의 단어 평가값을 할당한다. 그리고, 다른 추출된 단어에 대해서도 모두 이 과정을 수행한다.

이어서, 판단부(204)는 미리 정해진 개수만큼 최적단어를 추출한다. 단계 S430의 최적단어 추출 과정은 수신된 문자 메시지로의 특성을 가장 잘 반영하는 단어를 추출하는 과정이다. 보다 상세하게는, 단어 평가값이 0.5로부터 0과 1을 향해 가장 멀리 떨어진 단어 평가값을 가지는 단어를 미리 지정된 개수만큼 순차적으로 추출한다.

예를 들어, 문자메시지의 단어들 가운데 0.1, 0.8, 0.5의 단어 평가값을 할당받은 단어들 A, B, C가 각각 있다고 가정하자. 이 경우, 판단부(204)는 A, B, C와 같은 순으로 0.5와의 차이가 큰 단어 평가값을 할당받은 단어를 순차적으로 추출한다. 예를 들어, 미리 지정된 최적단어의 개수가 2개인 경우, 최적단어는 A와 B 가 순차적으로 추출될 수 있다.

이와 같은 과정을 통해 최적단어를 추출하는 것은 단어 평가값 0.5를 기준으로 각각의 단어들을 출현 빈도수가 높은 단어와 낮은 단어로 구분할 수 있게 한다. 단어 평가값은 유해 메시지가 해당 단어를 포함하고 있을 확률을 나타내므로, 추출된 최적단어들은 해당 문자메시지의 특성을 보다 잘 반영할 수 있다.

여기서, 미리 지정된 최적단어의 수는 반보적인 실험을 통해 최적의 정확도를 지는 수로 재설정 될 수 있음은 본 발명의 기술적 사상에 비추어 당업자에게 자명하다.

이어서, 단계 S440에서 판단부(204)는 최적단어 및 최적단어의 단어 평가값을 이용하여 수신된 문자메시지가 유해 메시지일 확률인 메시지 평가값을 산출한다. 메시지 평가값 산출과정은 추출된 최적단어를 통해 수신된 문자 메시지가 유해 메시지인지 여부를 판단하는 과정이다.

이때. 베이지안 필터링 기법(Bayesian filtering method)을 이용함으로써 빠르게 연산할 수 있다. 베이지안 필터링 기법은 본 발명의 출원시 공지된 기술이므로, 본 명세서에서 상세한 설명은 생략한다.

이하, 메시지 평가값을 산출하는 과정에 대해서 상세히 설명한다.

메시지 평가값은 하기의 수학식 1에 의하여 산출될 수 있다.

여기서, P(spam|words)는 메시지 평가값으로 해당 메시지가 유해 메시지일 확률이다.

여기서, P(words|spam)는 추출된 최적단어를 모두 포함하는 메시지가 유해 메시지에서 나타날 확률로서, P(word1|spam) Ⅹ P(word2|spam) Ⅹ … Ⅹ P(wordN|spam)이다.

여기서, P(word1|spam)은 최적단어 word1에 상응하는 단어 평가값이고, N은 자연수로서 최적단어의 미리 지정된 개수이다.

여기서, P(spam)은 샘플 메시지 중에서 유해 메시지의 비율이다.

여기서, words는 추출된 복수개의 최적단어며, P(words)는 샘플 메시지 중 추출된 최적단어를 모두 포함하는 메시지가 나타날 확률이다. P(words)는 P(word1) Ⅹ P(word2) Ⅹ … Ⅹ P(wordN) 이고, P(word1)은 최적단어 word1를 포함하는 메시지가 나타날 확률이며이다.

여기서, P(words|ham)은 추출된 최적단어를 모두 포함하는 메시지가 정상 메시지에 나타날 확률이다.

여기서, P(ham)은 샘플 메시지 중에서 정상 메시지의 비율이다.

예를 들어, 수신된 문자메시지로부터 'Free', '공짜', '대출'의 순으로 최적단어가 추출되었다고 가정하자. 그리고, 추출된 최적단어의 단어 평가값은 순서대로 각각 0.8, 0.6, 0.3이며, 그 곱은 0.144이다.

또, P(spam)은 미리 수집된 복수개의 샘플 메시지 중 유해 메시지에 속하는 메시지 수의 비율을 나타낸다.

예를 들어, 샘플 메시지가 총 100개라고 가정하자. 그리고, 유해 메시지가 80개, 정상 메시지가 20개라고 가정하자. 이 경우, P(spam)은

이므로 0.8이다.

P(words)는 샘플 메시지 중 추출된 최적단어를 모두 포함하는 메시지가 나타날 확률이다.

예를 들어, P(words)는 추출된 최적단어인 'Free', '공짜', '대출'이 모두 포함된 메시지가 샘플 메시지 중에서 나타날 확률이다. 여기서, 샘플 메시지가 100개라고 가정하자. 그리고, 샘플 메시지 중에서 'Free', '공짜', '대출'이라는 단어를 순서에 상관없이 모두 지니고 있는 메시지가 10개 있다고 가정하자. 이 경우, P(words)는 0.1이 된다

이어서, 단계 S450에서 판단부(204)는 메시지의 메시지 평가값이 미리 설정된 임계값을 초과하는지 판단한다.

여기서, 산출된 메시지의 평가값이 임계값을 초과하는 경우 판단부(204)는 메시지를 유해 메시지로 판단하며(단계 S461), 초과하지 아니한 경우 정상 메시지로 판단한다(단계 S462).

예를 들어, 단계 S440에서 산출한 메시지의 평가값이 0.6이고, 미리 설정한 임계값이 0.8이라고 가정하자. 이 경우, 판단부(204)은 메시지 평가값이 미리 설정 한 임계을 초과하지 않으므로, 메시지를 유해 메시지가 아닌 정상 메시지로 분류한다.

여기서, 임계값은 상기에서 기술한 바와 같이 반복적인 실험을 통해 최적의 값으로 구성될 수 있다. 본 명세서에서는 미리 설정된 임계치를 0.8로 설명하였으나, 본 발명의 기술적 사상에 비추어 다양하게 재설정될 수 있음은 당업자에게 자명하다.

이어서, 단계 S470에서 필터링 장치(100)는 통신부(201)을 통하여 메시지와 유해 메시지 판단 결과를 단말(110)으로 전송한다.

이후, 도 4에는 도시 하지 아니하였으나, 유해 메시지로 판단된 메시지는 단말(110)에 수신된 이후 단말(110)의 설정에 따라 다양하게 관리 될 수 있다.

예를 들어, 단말(110)의 설정에 따라 유해 메시지로 판단된 메시지는 단말(110)에 수신된 이후, 단말(110)의 유해 메시지 보관함으로 이동될 수 있다.

예를 들어, 단말(110)의 설정에 따라 유해 메시지로 판단된 메시지는 단말(110)에서 자동으로 삭제될 수 있다.

지금까지 도 4를 참조하여 본 발명의 실시예에 따라 판단부(204)가 유해 메시지 여부를 판단하는 방법을 설명하였다.

이하, 도 2 내지 도 4를 참조하여 컨텐츠부(205) 및 저장부(206)에 대해서 설명한다.

본 발명의 실시예에 따르면 필터링 장치(100)에 네트워크를 통하여 단 말(110) 또는 클라이언트(예를 들어 PC) 등이 연결될 수 있다. 그리고, 필터링 장치(100)는 단말(110) 또는 클라이언트 PC에 입력되는 신호에 따라 앞서 설명한 단어 평가값 또는 임계값이 재설정될 수 있는 웹 컨텐츠를 제공하는 컨텐츠부(205)를 더 포함할 수 있다.

보다 상세하게는, 단말(110)의 사용자 갑이 단말(110)을 이용하여 네트워크를 통해 컨텐츠부(205)가 제공하는 웹컨텐츠에 연결할 수 있다. 여기서, 사용자 갑은 사용자의 개인 환경에 맞추어 단어 평가값 및 임계값을 재 설정할 수 있다.

예를 들어, 사용자 갑이 광고 업계에 일을 할 수 있다. 이 경우 사용자 갑이 다른 사용자와 사용하는 메시지에는 '광고'라는 단어를 포함하는 정상 메시지가 많을 수 있다. 그러나, 일반적으로 유해 메시지에는 '광고'라는 단어가 많이 포함되므로, 일반적인 설정에 의하면 '광고'에 대한 단어 평가값이 1에 가까울 수 있다. 이 경우, 갑이 수신하는 메시지 중 다수의 메시지가 정상 메시지임에도 불구하고, 유해 메시지로 분류될 수 있다. 이 경우, 갑은 단말(110)을 이용하여 네트워크를 통해 컨텐츠부(205)가 제공하는 웹 컨텐츠에 연결할 수 있다. 그리고, 갑의 사용환경을 고려하여 '광고'에 대한 단어 평가값을 보다 낮추어서 재설정할 수 있다.

따라서, 본 발명의 실시예에 따르면, 사용자 별로 사용자 환경을 고려한 개별화된 메시지 필터링이 가능하다는 장점이 있다.

본 발명의 다른 실시예에 의하면 저장부(206)는 유해 메시지 보관함을 포함할 수 있다. 그리고 판단부(204)가 유해 메시지로 판단한 메시지를 유해 메시지 보 관함에 보관할 수 있다. 이어서, 앞서 상술한 웹컨텐츠를 통하여 단말로부터 입력되는 신호에 따라 유해 메시지 보관함에 보관된 유해 메시지를 샘플 메시지로 간주하고, 학습부(203)가 도 3에서 설명한 바와 같이 단어 평가값을 산출할 수 있다. 이 경우, 단말(110)에 수신되는 메시지의 경향에 비추어 동적으로 단어 평가값이 재설정된다는 장점이 있다.

본 발명의 또 다른 실시예에 의하면 판단부(204)는 도 4의 S461단계에서 유해 메시지로 판단된 메시지에 포함되는 단어에 대한 단어 평가값을 미리 설정된 수치만큼 증가할 수 있다. 또한, 도 4의 단계 S462단계에서 정상 메시지로 판단된 메시지에 포함되는 단어에 대한 단어 평가값을 미리 설정된 수치만큼 감소 시킬 수 있다. 이 경우, 단말(110)에 수신되는 메시지의 경향에 비추어 동적으로 단어 평가값이 자동으로 재설정될 수 있다는 장점이 있다.

이상, 본 발명자에 의해서 이루어진 발명은 상기 실시 예에 따라 구체적으로 설명하였지만, 본 발명은 상기 실시 예에 한정되는 것은 아니고, 그 요지를 이탈하지 않는 범위에서 여러 가지로 변경 가능한 것은 물론이다.

도 1은 본 발명의 실시예에 따라 단말과 메시지 필터링(filtering) 장치간의 동작을 간략하게 설명하기 위한 도면.

도 2는 본 발명의 실시예에 따른 필터링 장치(100)의 구성을 예시한 블록도.

도 3은 본 발명의 실시예에 따라 학습부(203)가 단어 평가값을 산출하는 과정을 예시한 순서도.

도 4는 본 발명의 실시예에 따라 판단부(204)가 유해 메시지 여부를 판단하는 과정을 설명하기 위한 도면.

<도면의 주요부분에 대한 부호의 설명>

100 : 메시지 필터링 장치 110 : 단말

201 : 통신부 202 : 추출부

203 : 학습부 204 : 판단부

205 : 컨텐츠부 206 : 저장부

207 : 제어부

Claims

단말의 메시지를 필터링(filtering)하는 장치에 있어서,

미리 수집된 복수개의 샘플 메시지로부터 복수개의 단어를 각각 추출하고, 상기샘플 메시지에서 추출된 상기 단어를 포함하는 유해 메시지의 수와 상기 샘플 메시지에서 포함된 전체 유해 메시지의 수의 비율로 추출된 상기 단어의 단어 평가값을 산출하는 학습부;

상기 단말로부터 수신되는 메시지에서 복수개의 단어를 추출하는 추출부;

상기 추출된 단어와 상기 추출된 단어에 각각 상응하는 단어 평가값이 0.5로부터 0과 1을 향해 가장 멀리 떨어진 단어를 순차적으로 지정된 개수만큼 최적 단어로 추출하고, 상기 추출된 최적 단어와 상기 추출된 최적 단어에 상응하는 단어 평가값을 이용하여 상기 메시지가 유해 메시지인지 여부를 판단하는 판단부; 및

네크워크로 연결된 클라이언트로부터 수신되는 입력에 따라 상기 단어 평가값을 재설정할 수 있는 웹컨텐츠를 제공하는 컨텐츠부를 포함하는 메시지 필터링 장치.
삭제
삭제
제 1항에 있어서,

상기 판단부는

상기 추출된 최적단어와 상기 추출된 최적단어에 상응하는 단어 평가값을 이용하여 상기 단말에 수신된 메시지가 유해 메시지일 확률인 메시지 평가값을 산출하고, 상기 산출된 메시지 평가값이 미리 지정된 임계값을 초과하는 경우 상기 단말로부터 수신된 메시지가 유해 메시지인 것으로 판단하는 것

을 특징으로 하는 메시지 필터링 장치.
제 4항에 있어서,

상기 판단부는 베이지안 필터링 기법(Bayesian filtering method)을 더 이용하는 것

을 특징으로 하는 메시지 필터링 장치.
제 4항에 있어서,

상기 판단부는

수학식
을 이용하여 상기 메시지 평가값을 산출하는 것

을 특징으로 하는 메시지 필터링 장치.

여기서, P(spam|words)는 메시지 평가값이고, P(words|spam)는 추출된 최적단어를 모두 포함하는 메시지가 유해 메시지에서 나타날 확률이고, P(spam)은 샘플 메시지 중에서 유해 메시지의 비율이며, P(words)는 샘플 메시지 중 추출된 최적단어를 모두 포함하는 메시지가 나타날 확률임.
제 6항에 있어서,

상기 P(words)는 P(word1) Ⅹ P(word2) Ⅹ … Ⅹ P(wordN) 이고, 상기 P(words|spam) 는 P(word1|spam) Ⅹ P(word2|spam) Ⅹ … Ⅹ P(wordN|spam)인 것

을 특징으로 하는 메시지 필터링 장치.

여기서, words는 추출된 복수개의 최적단어며, P(word1)은 최적단어 word1를 포함하는 메시지가 나타날 확률이고, P(word1|spam)은 최적단어 word1에 상응하는 단어 평가값이고, N은 자연수로서 최적단어의 미리 지정된 개수임.
삭제
메시지 필터링 장치가 단말에 수신되는 메시지를 필터링(filtering)하는 방법에 있어서,

(a) 상기 단말로부터 수신되는 메시지에서 복수개의 단어를 추출하는 단계; 및

(b) 상기 추출된 단어와 상기 추출된 단어에 각각 상응하는 단어 평가값이 0.5로부터 0과 1을 향해 가장 멀리 떨어진 단어를 순차적으로 미리 지정된 개수만큼 최적단어로 추출하는 단계;

(c) 상기 추출된 최적단어와 상기 추출된 최적단어에 상응하는 단어 평가값을 이용하여 상기 메시지가 유해 메시지일 확률인 메시지 평가값을 산출하는 단계; 및

(d) 상기 산출된 메시지 평가값이 미리 지정된 임계값을 초과하는 경우 상기 단말로부터 수신된 메시지가 유해 메시지인 것으로 판단하는 단계를 포함하되,

상기 단어 평가값은 샘플 메시지로부터 복수개의 단어를 각각 추출하고, 상기 샘플 메시지에서 상기 추출된 단어를 포함하는 유해 메시지의 수와 상기 샘플 메시지에 포함된 전체 유해 메시지의 수의 비율로 산출되며, 미리 수집된 복수개의 샘플 메시지를 이용하여 유해 메시지에 소정의 단어가 포함될 확률로서 미리 산출되며,

네트워크로 연결된 클라이언트로부터 수신되는 입력에 따라 상기 단어 평가값 및 상기 임계값 중 하나 이상이 재설정되는 것을 특징으로 하는 메시지 필터링 방법.
삭제
삭제
삭제
제 9항에 있어서,

상기 (c)단계는 베이지안 필터링 기법(Bayesian filtering method)을 더 이용하는 것을 특징으로 하는 메시지 필터링 방법.
제 9항에 있어서,

상기 (c)단계는

수학식
을 이용하여 상기 메시지 평가값을 산출하는 것

을 특징으로 하는 메시지 필터링 방법.

여기서, P(spam|words)는 메시지 평가값이고, P(words|spam)는 추출된 최적단어를 모두 포함하는 메시지가 유해 메시지에서 나타날 확률이고, P(spam)은 샘플 메시지 중에서 유해 메시지의 비율이며, P(words)는 샘플 메시지 중 추출된 최적단어를 모두 포함하는 메시지가 나타날 확률임.
제 14항에 있어서,

상기 P(words)는 P(word1) Ⅹ P(word2) Ⅹ … Ⅹ P(wordN) 이고, 상기 P(words|spam) 는 P(word1|spam) Ⅹ P(word2|spam) Ⅹ … Ⅹ P(wordN|spam)인 것

을 특징으로 하는 메시지 필터링 방법.

여기서, words는 추출된 복수개의 최적단어며, P(word1)은 최적단어 word1를 포함하는 메시지가 나타날 확률이고, P(word1|spam)은 최적단어 word1에 상응하는 단어 평가값이고, N은 자연수로서 최적단어의 미리 지정된 개수임.
삭제