KR20060071361A

KR20060071361A - 스팸 메시지 검출 방법 및 스팸 메시지 검출 장치

Info

Publication number: KR20060071361A
Application number: KR1020050127222A
Authority: KR
Inventors: 이강 카이; 에스 쉬리어 큐텁; 알로크 샤마
Original assignee: 루센트 테크놀러지스 인크
Priority date: 2004-12-21
Filing date: 2005-12-21
Publication date: 2006-06-26
Also published as: JP4827518B2; CN1801855A; EP1675330B1; JP2006178998A; DE602005001046T2; KR101170562B1; CN1801855B; EP1675330A1; US20060168032A1; DE602005001046D1

Abstract

본 발명은 원격 통신 네트워크에서의 원하지 않는 (스팸) 메시지를 검출하는 방법에 관한 것이다. 의심되는 스팸 메시지의 내용을 분석하여, 메시지의 특성의 가중 특성 및 가중 합산이 임계값을 초과하는지를 판단한다. 이들 가중 합산이 임계값을 초과하면, 메시지는 스팸 메시지로서 취급되어 사람에 의해 분석되며, 분석에 사용되는 가중 인수와 특성의 품질을 개선한다.

Description

스팸 메시지 검출 방법 및 스팸 메시지 검출 장치{UNWANTED MESSAGE(SPAM) DETECTION BASED ON MESSAGE CONTENT}

도 1은 본 발명의 동작을 예시하는 도면,

도 2는 본 발명을 예시하는 흐름도.

도면의 주요 부분에 대한 부호의 설명

1 : 소스 2 : 목적지

3 : 네트워크 10 : 메시지 분석기

14 : 데이터 표

본 발명은 메시지의 내용에 기초하여 스팸 메시지를 검출하는 방법에 관한 것이다.

인터넷의 출현으로, 발신자에게는 적은 비용 또는 무비용으로 다수의 수신자에게 메시지를 전송하는 것이 용이해졌다. 메시지는 짧은 메시지 서비스의 짧은 메시지를 포함한다. 이들 메시지는 메시지를 삭제하고 이 메시지의 중요도를 결정해야 하는 메시지 수신자에게는 귀찮은 불필요하고 원하지 않는 메시지를 포함한다. 또한, 이들 메시지는 스팸으로 넘쳐나는 화난 고객에 대한 고객 관계 문제가 있기 때문에, 또한, 일반적으로 적은 수익 또는 무수익인 이들 메시지가 네트워크 리소스를 사용하기 때문에, 이들 메시지는 메시지를 전송하는데 사용되는 원격 통신 네트워크의 캐리어에게는 귀찮다. 이러한 문제점의 심각성에 대한 설명은 다음 2개의 통계에 의해 주어진다. 2003년 중국에서, 3조 개의 짧은 메시지 서비스(SMS)의 메시지가 중국의 원격 통신 네트워크를 통해 전송되었고, 이들 메시지 중에서, 3/4의 추정 메시지가 스팸 메시지였다. 제 2 통계는 미국에서 이메일 메시지의 85-90%의 추정 메시지가 스팸이다는 것이다.

배송된 스팸 메시지의 개수를 줄이는 여러 장치가 제안되었고 구현되었다. 스팸 메시지를 배송하기 전에 메시지를 분석하는 여러 장치가 제안되었다. 하나의 장치에 따르면, 발신자가 수신자에 의해 지정된 사전 선택된 그룹 중 하나가 아니면, 이 스팸 메시지는 차단된다. 수신자가 N개 이상의 목적지로 향하는 메시지가 배송되지 않음을 표시할 수 있게 함으로써 스팸 메시지를 또한 차단할 수 있다.

수신자는 자신의 전화 번호 또는 이메일 주소를 공표하는 것을 거부할 수 있다. 발신자가 수신자의 전화 번호 또는 이메일을 조사할 수 없게 하는 명백한 단점에 추가로, 이러한 장치는 비효율적일 수 있다. 목록에 없는 이메일 주소가 IP 네트워크로부터의 전문 해커에 의해 검출될 수 있으며, 예를 들어, 라우터에서 메시지의 헤더를 모니터링함으로써 검출될 수 있다. 목록에 없는 착신 번호는 단순 히 발신자에게 국부호(office code)의 모두 10,000개의 전화 번호에 메시지를 전송할 수 있게 하며, 상술한 바와 같이, 이는 복수의 목적지로 메시지를 전송하기 위한 현재의 장치를 이용하면 매우 쉽다.

매우 알기 어려운 스팸 메시지 중에는 포르노그래피 용도 또는 원하지 않는 광고를 수신자에게 전달하는 불쾌한 메시지가 있다. 발신자가 동일한 소스로부터 여러 무해한 메시지를 전송할 수 있기 때문에, 종종 이러한 메시지는 메시지의 내용을 조사하여 단지 차단될 수 있다. 스팸 검출의 주요 문제점은 메시지의 내용에 근거하여 스팸을 검출하는 것이다.

키워드 등의 특성의 존재와 이러한 특성의 빈도수에 대해 의심가는 메시지를 분석하는 본 발명에 따르면, 상술한 문제점은 해소되고 종래 기술에 비해 진보되며, 여기서, 각각의 특성에는 적절한 스팸 지수, 거의 동적이며 사전 결정되고 제공된 품질, 또한 트래픽 크기와 메시지/내용 유형에 따라서 동적으로 변하는 가중 인자가 주어진다. 메시지는 사용 빈도수가 임계값을 초과하는 특성과, 조합된 사용이 임계값을 초과하는 특성의 사전 결정된 조합과, 조합된 사용이 임계값을 초과하는 모든 특성에 대해서 조사된다. 본 발명의 하나의 특징에 따르면, 각각의 특성의 가중 인수는 분석가에 의한 의심되는 메시지의 조사 결과에 일치하도록 동적으로 조정된다. 바람직하게, 분석가를 이용하여 검출 프로세스를 얻을 수 있다.

도 1은 본 발명의 동작을 예시한다. 소스(1)는 메시지를 목적지(2)에 전송하고자 한다. 메시지는 그 메시지가 스팸 메시지일 수 있음을 인식하는 네트워크(3)로 전송되지만, 이는 메시지를 내용을 분석하여 판단할 필요가 있다. 네트워크(3)는 메시지를 메시지 분석기(10)로 전달한다. 메시지 분석기에 의해 그 메시지가 스팸 메시지가 아니라고 결론나면, 그 메시지는 네트워크(4)를 통해 목적지(2)로 전송된다.

메시지 분석기(10)는 특성과, 각각의 특성에 대한 엄격 지수(severity index)와, 각각의 엄격 지수에 대한 가중 인수 및 그 특성에 대한 엄격 레벨 임계값의 데이터 표(14)를 포함한다.

스팸 특성은 스팸 메시지의 가능한 표시자인 단어, 구문, 문장, 이미지 또는 비디오 세그먼트이다. "마담"의 단어를 예로 든다. 그 메시지에서 발생하는 각각의 특성에 있어서, 그 특성의 발생 회수, 엄격 지수 및 가중 인수의 곱이 계산되어 엄격 레벨을 만든다. 엄격 레벨은 메시지가 스팸 메시지로서 취급되어야 하는지를 판단하는데 사용된다.

엄격 지수와 엄격 임계값은 상대적으로 일정하게 유지되지만, 가중 인수는, 스팸 활동성이 적은 특수 문제 지역국(가중 인수를 증가시킴) 또는 지역(가중 인수를 감소시킴)에서의 검출에 응답하여, 스팸 서비스국(15)으로부터의 메시지에 응답하여 변경될 수 있다.

메시지 분석기는 메시지의 내용을 잡아서 예를 들어, "마담" 및 "애인" 등의 사전 저장된 특성을 조사한다. 각각의 사전 저장된 특성에 있어서, 엄격 레벨에 도달할 때 이러한 특성이 얼마나 과다하게 가중되는지를 표시하는 가중 인수가 있다. 엄격 레벨이 소정의 임계값을 초과하는 메시지는 차단되고 추후에 사람의 분석을 위해서 저장될 수 있다.

도 2는 본 발명의 스팸 체크 동작을 예시하는 흐름도이다. 착신 메시지를 수신하여 스팸 분석을 위해서 버퍼링된다(동작 블록 201). 메시지의 특성에 대한 스팸 엄격 지수를 계산하기 위해서, 스팸의 데이터 표를 얻게 된다(동작 블록 203). 스팸 분석은 메시지의 메시지 특성에 대한 스팸 엄격 지수를 복원한다(동작 블록 205). 서비스 로직은 각각의 특성에 대한 엄격 지수로 분석 스프레드시트를 채우고, 배포된 스팸 엄격 지수 프로파일 패턴을 얻게 된다(동작 블록 207). 개별적인 특성 엄격 지수가 그 특성에 대한 임계값을 초과하는지를 테스트한다(209). 초과하면, 제한(이하에 설명되는 동작 블록 221)이 입력된다. 초과하지 않으면, 엄격 지수의 패턴이 임계값을 초과하는지를 체크하기 위해서 테스트(211)에 진입한다. 그 패턴에 대한 임계값을 초과하면, 동작 블록(221)에 진입한다. 초과하지 않으면, 엄격 지수가 임계값을 초과하는 모든 특성을 이용하여 집계된 스팸 엄격 지수를 계산한다(동작 블록 213). 이러한 집계된 지수가 상위 임계값을 초과하면(테스트 215), 메시지는 블랙으로 된다. 하위 임계값보다 적으면(테스트 216), 메시지는 화이트로 된다. 다른 메시지에 있어서, 테스트(217)는 메시지가 사람에 의해 분석되어야 하는지를 판단하는데 사용된다. 그렇지 않으면, 메시지는 목적지로 중계된다(동작 블록 223). 사람에 의한 분석용으로 선택되었다면, 메시지는 서비 스국으로 전송된다(동작 블록 218). 사람의 조사 결과(테스트 219)가 만족스러운 결과라고 결정되면, 메시지는 전송될 것이며(동작 블록 223), 만족스러운 결과가 아니면, 메시지는 스팸으로서 취급되고 동작 블록(221)의 기능부에서 처리될 것이다.

동작 블록(221)은 스팸 메시지를 저장하고, 필요하다면, 갱신된 스팸 필터와 사람의 조사에 의해 생성된 룰 서비스 데이터베이스를 저장하고, 스팸 엄격 가중 지수와 지수 상한값을 갱신하고, 필요하다면, 새롭게 배포된 스팸 패턴을 추가한다.

상술한 설명은 본 발명의 바람직한 실시예 중 하나이다. 본 발명의 범위에서 벗어나지 않은 다른 실시예는 당업자에게 자명할 것이다. 본 발명은 첨부된 청구 범위에 의해서만 한정된다.

본 발명에 따르면, 키워드 등의 특성의 존재와 이러한 특성의 빈도수에 대해 의심가는 메시지를 분석할 수 있다.

Claims

원격 통신 네트워크에서의 원하지 않는 (스팸) 메시지를 검출하는 방법에 있어서,

잠재적인 메시지의 각각의 특성에 대한 가중 인수, 지수 및 제한값을 저장하는 단계와,

의심되는 스팸 메시지를 저장하는 단계와,

상기 저장된 스팸 메시지의 특성을 유도하는 단계와,

각각의 특성의 빈도 회수와, 가중 인수 및 지수의 곱을 계산하는 단계와,

배포된 스팸 프로파일을 상기 곱으로부터 형성하는 단계와,

상기 배포된 스팸 프로파일이 메시지를 스팸 메시지로서 분류하기 위한 기준을 충족하는지를 판단하는 단계

를 포함하는 스팸 메시지 검출 방법.
제 1 항에 있어서,

그 곱의 특성에 대해 임의의 곱이 그 상한값을 초과하면, 관련 메시지를 스팸 메시지로서 선언하는 단계를 더 포함하는 스팸 메시지 검출 방법.
제 1 항에 있어서,

복수의 특성 패턴에 있어서 각각의 패턴에 대한 상한값을 저장하는 단계와,

임의 패턴에 대한 상기 상한값을 초과하면, 메시지를 스팸 메시지로서 선언하는 단계를 더 포함하는 스팸 메시지 검출 방법.
제 1 항에 있어서,

상기 메시지에 대한 모든 곱의 합산이 사전 결정된 상한 임계값을 초과하면, 상기 메시지를 스팸 메시지로서 취급하는 단계를 더 포함하는 스팸 메시지 검출 방법.
제 1 항에 있어서,

특성의 상기 가중 인수 또는 상한값은 서비스국으로부터의 메시지에 응답하여 변경될 수 있는 스팸 메시지 검출 방법.
원격 통신 네트워크에서의 원하지 않는 (스팸) 메시지를 검출하는 장치에 있어서,

잠재적인 메시지의 각각의 특성에 대한 가중 인수, 지수 및 제한값을 저장하는 수단과,

의심되는 스팸 메시지를 저장하는 수단과,

상기 저장된 스팸 메시지의 특성을 유도하는 수단과,

각각의 특성의 빈도 회수와, 가중 인수 및 지수의 곱을 계산하는 수단과,

배포된 스팸 프로파일을 상기 곱으로부터 형성하는 수단과,

상기 배포된 스팸 프로파일이 메시지를 스팸 메시지로서 분류하기 위한 기준을 충족하는지를 판단하는 수단

을 포함하는 스팸 메시지 검출 장치.
제 6 항에 있어서,

그 곱의 특성에 대해 임의의 곱이 그 상한값을 초과하면, 관련 메시지를 스팸 메시지로서 취급하는 수단을 더 포함하는 스팸 메시지 검출 장치.
제 6 항에 있어서,

복수의 특성 패턴에 있어서 각각의 패턴에 대한 상한값을 저장하는 수단과,

임의 패턴에 대한 상기 상한값을 초과하면, 메시지를 스팸 메시지로서 취급하는 수단을 더 포함하는 스팸 메시지 검출 장치.
제 6 항에 있어서,

상기 메시지에 대한 모든 곱의 합산이 사전 결정된 상한 임계값을 초과하면, 상기 메시지를 스팸 메시지로서 취급하는 수단을 더 포함하는 스팸 메시지 검출 장치.
제 6 항에 있어서,

특성의 상기 가중 인수 또는 상한값을 서비스국으로부터의 메시지에 응답하여 변경하는 수단을 더 포함하는 스팸 메시지 검출 장치.