KR20040110086A

KR20040110086A - 스팸 필터의 혼란화

Info

Publication number: KR20040110086A
Application number: KR1020040035966A
Authority: KR
Inventors: 조슈아티. 굿맨; 로버트엘. 룬트웨이트; 존씨. 플래트
Original assignee: 마이크로소프트 코포레이션
Priority date: 2003-06-20
Filing date: 2004-05-20
Publication date: 2004-12-29
Also published as: KR101143194B1; EP2498458A2; US20050015454A1; CN1573780A; JP2005011326A; CN1573780B; EP1489799A2; EP2498458A3; US7519668B2; JP4572087B2; EP1489799A3

Abstract

본 발명은 스팸 필터(spam filter)의 리버스 엔지니어링(reverse engineering)을 저지시키고 및/또는 거의 매번 스팸 필터를 일관되게 통과하는 메시지를 스패머(spammer)가 발견하는 것을 경감시키도록 하기 위해 스팸 필터링 시스템을 용이하게 혼란시키는 시스템 및 방법을 제공한다. 상기 시스템은 메시지가 스팸 또는 비 스팸으로 분류되기 전에 메시지 스코어를 랜덤화하여 스팸 필터의 기능성을 모호하게 하는 랜덤화 컴포넌트를 포함한다. 메시지 스코어 랜덤화는 메시지 스코어가 스팸 또는 비 스팸으로 분류되기 전에 이 메시지 스코어에 난수 또는 의사 난수를 가산함으로써 일부 달성될 수 있다. 추가된 난수는 예를들어, 시간, 사용자, 메시지 콘텐트, 메시지 콘텐트의 해시, 및 메시지의 특히 중요한 특징들의 해시 등의 여러 타입의 입력 중 적어도 하나에 따라 변화할 수 있다. 대안적으로, 하나의 최고 스팸 필터보다는 다수개의 스팸 필터를 채용할 수 있다.

Description

스팸 필터의 혼란화{OBFUSCATION OF SPAM FILTER}

본 발명은 스팸의 전송을 감소시키고, 특히 스팸 필터의 리버스 엔지니어링을 저지하고 및/또는 스패머들에 의한 스팸 필터 기능의 모델링 및 예측을 경감시키는 시스템 및 방법에 관한 것이다.

인터넷과 같은 전 세계적인 통신 네트워크들의 도래는 광대한 수의 잠재적인 소비자들에 이르는 광고의 기회를 제공하였다. 전자 메시징, 및 특히 전자 메일("이메일")은 원하지 않는 광고들과 선전들("스팸"으로 표기되기도 함)을 네트워크 사용자들에게 배포하는 증가하는 파급 수단으로 되고 있다.

컨설팅 및 시장 조사 회사인 Radicati Group, Inc.는 2002년 8월에 하루당 이십억의 정크 이메일이 전송된 것으로 평가하는데, 이 숫자는 2년마다 3배씩 증가할 것으로 예상된다. 개인들 및 엔티티들(예를 들어, 비지니스, 정부 기관)은 정크 메시지 때문에 점점 더 불편해지고 가끔씩은 불쾌해진다. 이와 같이 스팸은 이제 혹은 곧 신뢰할만한 컴퓨팅에 중대한 위협이 될 것이다.

스팸을 줄이기 위해 활용되는 종래 기술들은 필터링 시스템/방법의 이용을 수반한다. 하나의 입증된 필터링 기술은 기계 학습 방식에 기초한다. 기계 학습 필터들은 인입 메시지에 그 메시지가 스팸일 확률을 부여한다. 이러한 방식에서, 전형적으로 특징은 두가지 예의 부류의 메시지들(예를 들어 스팸과 비 스팸 메시지)로부터 추출되고, 학습 필터는 두개의 부류들 간을 확률적으로 구별하기 위해 응용된다. 많은 메시지 특징들이 콘텐트(예를 들어 메시지의 주제 및/또는 본문 내의 전체 단어들과 문구들)와 관련되기 때문에, 이러한 타입의 필터들은 "콘텐트 기반 필터"로서 통상 일컬어진다. 이러한 타입의 기계 학습 필터들은 양호한 메시지들로부터 스팸 메시지들을 검출하고 구별해내기 위해 보통 정확한 매치 기술들을 이용한다.

불행하게도, 스패머들은 기계 학습 시스템들을 이용한 것들을 포함한 종래의 스팸 필터들을 피하는 방법들을 찾고 있다. 예를 들어, 그들은 스팸 필터 기능을 테스트하고 예측하기 위해 수학적인 처리 및 연속적인 이메일 변경을 활용할 수 있다. 또한, 통상의 스팸 필터들이 어떻게 작동하는지를 설명해주는 많은 정보가 대중들에게 입수 가능한 상태이다. 어떤 인터넷 서비스들은 특정한 필터들을 통해 메시지들을 실행하고, 그 필터들 각각의 평가를 리턴하기도 한다. 따라서, 스패머들은 다양한 공지된 스팸 필터들을 통해 그들의 스팸들을 실행하고(실행하거나) 그들의 스팸들이 필터를 성공적으로 통과할 때까지 그들의 메시지들을 변경할 기회를 갖는다. 상술한 관점에서, 이와 같은 종래의 필터들은 스팸에 대하여 제한된 방어 기능을 제공한다.

<발명의 개요>

하기에서는 본 발명의 특징들의 기본적인 이해를 위해 본 발명의 개요가 제공된다. 이 개요는 본 발명의 종합적인 개관은 아니다. 본 발명의 주요한/필수적인 구성요소들을 규명하고 본 발명의 범위의 윤곽을 잡으려는 것은 아니다. 이 개요의 목적은 단지 나중에 제시되는 발명의 상세한 설명에 앞서 본 발명의 개념들을 간략한 형태로 제시하고자 하는 것일 뿐이다.

전통적인 기계 학습 스팸 필터들은 스패머들에 의해 리버스 엔지니어링될 수 있는데, 이것은 스패머들이 필터에 의해 잡히지 않는 메시지들을 찾을 수 있게 해준다. 또한, 스팸 필터들이 사용자들에 상관없이 같은 메시지들을 항상 잡을 때, 스패머들은 트라이 앤 에러를 이용하여 통과하는 메시지를 쉽게 찾을 수 있다. 그 메시지를 찾은 후에, 스패머들을 그것을 가능하게는 수백만의 사람들에게 전송함으로써 필터를 악용할 수 있다. 스팸 필터를 소정의 방법으로 변경하지 않고서, 이러한 형태의 스패머 속임수는 무한정 계속될 수 있다.

본 발명은 스팸 필터를 모호화하는 것을 용이하게 하여, 스패머들이 리버스엔지니어를 하는 것을 보다 어렵게 만들고 그리고/또는 스패머들이 필터를 일관되게 통과하는 메시지를 찾는 것을 더욱 어렵게 만드는 시스템 및 방법을 제공한다. 본질적으로, 본 발명은 스팸 필터의 행동을 변경하는 방식을 제공하는데, 이것은 스팸 필터 처리를 랜덤화하는 구성요소를 추가함으로써 부분적으로 달성될 수 있다.

대부분의 종래의 스팸 필터들은 메시지를 처리하고 그 메시지에 대한 소정의 스코어를 리턴한다. 이것은 메시지일 확률, 임의의 스코어, 메시지일 확률의 로그, 혹은 임의의 다른 수일 수 있다. 특정한 임계값 이상의 스코어들은 소정의 방법으로 스팸으로서 레이블된다. 그러한 레이블들은 삭제, 특별한 폴더로 이동, 거부 및/또는 마크를 포함하지만 이들로만 한정되지는 않는다. 따라서, 스팸 필터링 처리의 행동을 변경하기 위한 한가지 방법은 메시지들의 스코어들을 랜덤화하는 것을 수반한다. 랜덤화는 예를 들어 스코어에 소정의 숫자를 더하고(더하거나) 스코어에 1.1 혹은 0.9 등과 같은 소정의 배율을 곱하는 것을 포함하지만 이들로만 한정되지는 않는다.

랜덤화를 수행하기 위한 두번째 방안은 시간을 이용하는 것을 수반한다. 보다 구체적으로, 메시지 스코어에 더해지는 난수들은 현재의 시각 혹은 현재의 시간 증분과 함께 변화하고(변화하거나) 그에 의존한다. 예를 들어, 랜덤화는 15분마다 혹은 바람직한 임의의 다른 시간 증분마다 상이한 난수를 이용하도록 프로그램될 수 있다. 대안적으로, 난수는 일시가 변화함에 따라 변화할 수 있다. 그 결과, 스패머들은, 예를 들면(예를 들어, 스팸 혹은 비 스팸으로 여겨지는) 임계값에 가깝고, 작은(미미한) 변경 후에 차단되는 것으로부터 통과되는 것으로 변화하는 메시지가, 변경 때문에 변화했는지 혹은 랜덤 배율 때문에 변화했는지를 알아내기가 더욱 어려워질 것이다.

필터를 랜덤화하는 세번째 방안은 메시지를 수신하는 사용자 및/또는 도메인에 부분적으로 의존한다. 예를 들어, 사용자에 따른 난수를 이용함으로써, 스패머는 그의 테스트 사용자만 통과하는 메시지를 찾을 수 있을 뿐 다른 사용자들을 통과하는 메시지를 찾을 수는 없다. 그러므로, 스패머가 그의 메시지들을 테스트하는 비용이 많이 들게 된다.

메시지 콘텐트는 본 발명에 따른 랜덤화의 또 다른 양상이다. 예를 들어, 난수는 메시지의 콘텐트들에 적어도 부분적으로 기초하여 계산될 수 있다. 그와 관련된 기술은 해싱(hashing)이다. 메시지의 해시(hash)는 콘텐트로부터 결정적으로 생성된 준-난수인데, 콘텐트의 약간의 변화가 해시에 큰 변화를 초래하게 된다. 스패머가 메시지의 리버스 엔지니어를 시도한다면, 메시지 콘텐트 내의 작은 변화가 메시지 스코어에 비교적 큰 변화를 초래할 것이다. 대안적으로, 혹은 부가적으로, 메시지의 스코어에 대한 기여가 임계값보다 높은 특별한 메시지의 특징들이 추출되어 해시될 수 있다. 그런 다음 이 해시는 난수 발생기에 대한 입력으로서 이용되어 가장 중요한 특징의 기여도를 찾는 것을 더욱 어렵게 만들 수 있다.

랜덤화는 스팸 필터링의 처리에 부가될 수 있으나 제어된 방식으로 그렇게 하는 것이 중요함을 더 유의해야 한다. 특히, 스팸 필터가, 종종 명백하게 스팸이었던 메시지들을 통과시킨다면, 정당한 사용자들은 당황하게 될 것이다. 반대로,명백하게 양호한 메시지들이 종종 스팸으로서 태그된다면, 정당한 사용자들을 다시 당황시킬 것이다. 따라서, 본 발명은 스팸 혹은 비 스팸의 에지 "근방"에 있는 메시지들에 유효하게 작용할 수 있다. 다시 말해서, 필터링 처리의 랜덤화는 명백히 스팸이거나 명백히 비 스팸인 메시지들에는 실질적으로 영향을 주지 않는다. 그보다는, 본 발명은 비 스팸과 스팸 사이의 임계값 근방 및/또는 임계값에 있는 메시지들의 필터링에 영향을 준다.

마지막으로, 스패머들에 의한 스팸 필터들의 모델링 및 예측을 방해하기 위해, 단일의 최상의 스팸 필터를 사용하는 것 대신에, 다수의 스팸 필터들이 이용될수 있다. 다수의 스팸 필터들의 사용은 메시지를 스팸 또는 비 스팸으로 분류하기 전에 메시지의 다른 양상들이 검사되도록 강제한다. 따라서, 하나의 필터를 리버스 엔지니어하는 스패머가, 혹은 하나의 필터를 통과하는 메시지를 찾은 스패머가 다른 필터를 당연하게 통과할 수는 없다. 또한, 어떤 필터가 메시지를 처리하고 분류할지를 선택하는 것은 앞서 논의된 랜덤화 기술들 중 하나 또는 그들의 조합을 수반할 수 있다.

상술한 그리고 관련된 목적을 달성하기 위해, 본 발명의 특정한 예시적인 양상들이 하기의 설명에서 첨부 도면을 참조하여 논의된다. 그러나 이 양상들은 본 발명의 원리가 채용될 수 있는 다양한 방법들 중의 단지 몇가지를 지적한 것일 뿐이고, 본 발명은 모든 그러한 양상들 및 그들의 등가물들을 포함하는 것으로 의도된다. 본 발명의 다른 이점들 및 신규한 특징들은 첨부 도면과 함께 하기의 상세한 설명을 읽으면 명백히 알 수 있을 것이다.

도 1은 본 발명의 일 특징에 따른 스팸 필터링 처리를 모호하게 하는 것을 용이하게 하는 시스템의 개략적인 블럭도.

도 2는 본 발명의 일 특징에 따른 스팸 필터링 처리를 모호하게 하는 것을 용이하게 하기 위해 다수의 필터들을 이용하는 시스템의 개략적인 블럭도.

도 3은 본 발명의 일 특징에 따른 스팸 필터링 처리를 모호하게 하는 것을 용이하게 하는 방법의 순서도.

도 4는 본 발명의 일 특징에 따른 난수 혹은 준-난수를 결정하는 것을 용이하게 하는 예시적인 방법의 순서도.

도 5는 본 발명의 일 특징에 따라 메시지 콘텐트에 부분적으로 기초된 랜덤화를 수행하는 것을 용이하게 하는 예시적인 방법의 순서도.

도 6은 본 발명의 일 특징에 따라 다수의 스팸 필터들을 트레이닝시켜 이용함으로써 스팸 필터링 처리를 모호하게 하는 것을 용이하게 하는 예시적인 방법의 순서도.

도 7은 본 발명의 일 특징에 따라 다수의 스팸 필터들을 트레이닝시켜 이용함으로써 스팸 필터링 처리를 모호하게 하는 것을 용이하게 하는 예시적인 방법의 순서도.

도 8은 본 발명에 따른 예시적인 통신 환경의 개략적인 블럭도.

<도면의 주요 부분에 대한 부호의 설명>

100: 스팸 필터링 시스템

110: 스팸 필터

120: 메시지

130: 메시지의 총 스코어

140: 필터 스코어링 컴포넌트

150: 랜덤화 컴포넌트

160: 난수 발생기

172-176: 입력 컴포넌트들

이제 첨부 도면들을 참조하여 본 발명이 설명되는데, 유사한 참조 부호들이 유사한 구성요소들을 참조하기 위해 이용된다. 하기의 설명에 있어서, 설명의 목적상, 본 발명의 통찰을 위해 다양한 특정한 실시예들이 설명된다. 그러나, 본 발명은 이러한 특정한 상세 내역들 없이도 실시될 수 있음은 명백하다. 다른 예에서, 공지된 구조들 및 장치들이 본 발명의 설명을 용이하게 하기 위해 블럭도의 형태로 도시된다.

본 출원 명세서에 사용된 용어들 "컴포넌트" 및 "시스템"은 컴퓨터-관련 엔티티를 일컫기 위한 것으로, 하드웨어, 하드웨어와 소프트웨어의 조합, 소프트웨어, 실행중의 소프트웨어일 수도 있다. 예를 들어, 컴포넌트는 프로세서 상에서 실행하는 프로세스, 프로세서, 오브젝트, 실행가능한 것, 실행의 쓰레드, 프로그램, 및/또는 컴퓨터일 수 있지만, 이들로만 한정되지는 않는다. 예시적인 방법으로, 서버상에서 실행하는 어플리케이션 및 서버 모두는 컴포넌트일 수 있다. 하나 이상의 컴포넌트들이 프로세스 및/또는 실행의 쓰레드 내에 내재할 수 있고(내재할 수 있거나), 컴포넌트가 하나의 컴퓨터 상에 국지화되고(국지화되거나), 하나의 컴퓨터 및/또는 둘 이상의 컴퓨터들 사이에 분산될 수도 있다.

본 발명은 스팸 필터링을 학습한 기계에 대하여 트레이닝 데이터를 생성하는 것과 관련된 다양한 인터페이스 스킴들 및/또는 기술들을 결합할 수 있다. 본 명세서에서 사용된 "인터페이스"는 이벤트들 및/또는 데이터를 통해 포착된 관측값들의 세트로부터 시스템, 환경 및/또는 사용자의 상태들을 추론하고 추정하는 프로세스를 일반적으로 일컫는다. 예를 들어, 추론은 특정한 콘텍스트 혹은 액션을 식별하기 위해 이용될 수 있거나, 혹은 상태들에 대한 확률 분포를 생성할 수 있다. 추론은 확률적인데, 즉, 데이터 및 이벤트들에 기초하여 관심있는 상태들에 대한 확률 분포의 계산이다. 추론은 또한 이벤트들 및/또는 데이터의 세트로부터 고차 레벨 이벤트들을 구성하기 위해 이용된 기술을 일컬을 수도 있다. 그러한 추론은, 관측된 이벤트 및/또는 데이터의 세트, 이벤트들이 시간적인 근접성에 있어서 연관되어 있는지의 여부, 이벤트들 및 데이터가 하나 혹은 몇개의 이벤트 및 데이터 소스들로부터 유래하였는지로부터 새로운 이벤트들 혹은 액션들의 구성을 결과적으로 제공한다.

비록 메시지라는 용어가 본 명세서에 걸쳐 많이 사용되지만, 그러한 용어는 전자 메일 자체만을 한정되는 것은 아니고, 임의의 적합한 통신 아키텍쳐에 걸쳐 배포될 수 있는 임의의 형태의 전자 메시징을 포함하도록 적당하게 적용될 수 있다. 예를 들면, 둘 이상의 사람들 사이의 회의를 용이하게 하는 회의 어플리케이션들(예를 들어, 상호 작용적인 채트(chat) 프로그램, 및 순간 메시징 프로그램들)은, 사용자들이 메시지들을 교환할 때 정상적인 채트 메시지들 내에 원하지 않는 텍스트가 전자적으로 산재될 수 있고(산재될 수 있거나) 리드-오프 메시지, 클로징 메시지, 또는 그러한 모든 메시지로서 삽입될 수 있기 때문에, 본 명세서에 개시된 필터링의 이점을 활용할 수도 있다. 이러한 특정 어플리케이션에서, 필터는 원하지 않는 콘텐트(예를 들면, 상업 광고, 선전, 광고)를 포착하고 정크로서 태그하기 위해 특정 메시지 콘텐트(텍스트 및 이미지)를 자동적으로 필터링하도록 트레이닝될 수 있다. 다른 예의 어플리케이션은 셀룰러 폰들 혹은 유사한 장치들에 대한 SMS 메시지들이다.

스팸 필터의 내부 작업을 모호하게 할 많은 목적들 중 하나는 스패머가 필터 기능이 어떤지에 관한 지식이 없이도 거의 항상 통과하도록 보장되는 메시지를 찾는 것을 방지하는 것이다. 또 다른 목적은 필터를 리버스 엔지니어하기 위한 스패머에 의한 임의의 시도들을 방해하기 위해 스패머가 스팸 필터의 작업을 이해하는 것을 경감시키는 것이다. 이것은, 메시지에 대한 약간의 변화 (예를 들면 메시지에대해 특정 단어 혹은 특징부를 부가 혹은 삭제)가, 필터가 메시지를 스팸으로 "볼지"에 영향을 주는 경우인 스팸의 에지 근방에 있는 메시지들에 특히 적용가능하다. 예를 들면, 스패머가 "비아그라"와 같은 특정 단어가 항상 스팸으로 분류되는 것을 알았다면, 그/그녀는 메시지에서 간단히 이 단어를 배제할 수 있을 것이다. 그러므로, 본질적으로 리버스 엔지니어링 시도를 막는 스팸 필터 혹은 스팸 필터링 시스템을 구성하는 것이 유익할 것이다.

많은 스팸 필터들이 선형 모델들을 이용한다. 선형 모델에서, 메시지 내의 단어들과 같은 메시지의 특징들 및 메시지가 밤중에 전송되었는지와 같은 임의의 특별한 특징들이 추출된다. 각각의 특징들은 가중치 혹은 스코어와 연관된다. 메시지와 연관된 모든 가중치들의 합은 총 가중치(예를 들면 합산된 스코어)를 구하기 위해 계산된다. 총 가중치가 임의의 임계값을 초과하면, 특정 메시지는 통과하지 않고, 전송이 차단된다. 반대로, 총 가중치가 소정의 임계값보다 아래로 떨어지면, 메시지는 수신자에게 이르도록 통과될 수 있다.

다음과 같은 공식을 갖는 S형 함수(sigmoid function)를 통해 스코어를 구하는 것과 같은 다른 타입들의 모델들이 스팸 필터들에 이용될 수 있는데,

이 공식은 스코어를 0과 1 사이의 숫자(예를 들어, 최종 스코어로 일컬음)로 변환한다. 이 숫자는 메시지가 스팸인지를 결정하는 것을 용이하게 할 수 있는 확률로 더 변환될 수 있다.

그러나, 스팸 필터에 채용된 모델 혹은 전략에 상관없이, 스패머는 메시지로부터 추출된 적어도 하나의 특징과 연관된 스코어링 스킴을 알아내려고 시도할 수 있다. 그/그녀는 어떤 메시지들이 스팸으로 분류되는지(예를 들면, 전송이 차단되는지) 그리고 어떤 메시지가 스팸으로 분류되지 않는지(예를 들면 수신자들에게 전송되는지)를 알아보기 위하여 상이한 특징을 갖는 많은 수의 메시지들을 생성하여 이를 시도해볼 수 있다. 최종적으로, 스패머는 어떤 특징의 스코어가 그러한 분류에 이르게 될 것인지를 추론하려고 할 수 있다.

이러한 타입의 스패머 행동을 경감시키기 위한 한가지 방법은 메시지와 연관된 실제 스코어(들)에 노이즈를 유효하게 부가하는 소정의 소규모 방식으로 메시지와 연관된 다양한 스코어들 중 적어도 하나를 변경하는 것을 수반한다. 스코어를 변경하는 것은 합산 스코어 혹은 최종 스코어, 혹은 둘다를 랜덤화함으로써 부분적으로 달성될 수 있다. 예를 들어, 전형적인 스팸 필터에서, 메시지의 최종 스코어는 소정의(확률) 임계값과 비교되어, 메시지가 스팸인지 혹은 매우 스팸과 유사한지를 결정할 수 있다. 그러므로, 최종 스코어에 난수 혹은 준-난수를 더하거나 곱하여 최종 스코어를 변경함으로써, 최종 스코어의 값이 소정의 소량만큼 증가하거나 감소하게 되어, 그 값이 소정의 임계값과 비교될 때, 이전에는 그 값이 임계값보다 낮은 값이었으나, 이제는 그 값이 소정의 임계값을 초과할 수 있다. 따라서, 메시지는 그의 총 스코어의 약간의 변화 때문에 이제 스팸으로 혹은 잠재적인 스팸으로서 태그될 수 있다.

대안적으로, 유사한 형태의 변경이 합산 스코어 값에 대해 수행될 수 있는데, 그 값은 최종 스코어가 임계값을 초과하는지에 영향을 미치기 때문이다. 따라서, 합산 스코어 임계값 또는 최종 스코어 임계값 중 어느 하나에 도달하면, 메시지는 통과하지 않을 것이다. 또한, 스팸 또는 비 스팸의 임계값 근방의 메시지들의 스코어들에 노이즈를 부가함으로써 스패머가 그의 메시지의 현재 상태(예를 들어, 스팸/비 스팸; 차단/전송)가 소정의 랜덤화 특징에 기인한 것인지 혹은 메시지 콘텐트 내의 소정의 변화에 기인한 것인지를 결정하는 것을 어렵게 만든다.

도 1을 참조하면, 본 발명의 특징에 따라 스팸 필터의 기능을 모호하게 하는 것을 용이하게 하는 스팸 필터링 시스템(100)의 개략적인 블럭도가 예시되어 있다. 시스템(100)은 스팸 필터(100)를 포함함으로써, 메시지(120)는 스팸 필터에 의해 처리되어 메시지의 스코어(130)를 구하고, 궁극적으로 메시지가 스팸(또는 스팸 유사) 혹은 비 스팸(비 스팸 유사)으로 분류될지를 결정한다.

보다 구체적으로, 스팸 필터(110)는 필터 스코어링 컴포넌트(140)와 그에 동작적으로 연결된 랜덤화 컴포넌트(150)를 포함한다. 필터 스코어링 컴포넌트(140)는 메시지(120)가 스팸일지 아닐지의 확률을 액세스하는 기계 학습 시스템을 이용할 수 있다. 필터는 메시지에 대한 그의 평가를 제공하기 위해 메시지의 특별한 특징을 찾을 수 있다. 예를 들어, 임의의 발신 정보와 관련된 특징 및 메시지의 특별한 콘텐트와 관련된 특징(예를 들면, 스팸 특성의 매립된 이미지들, URLs, 단어 및/또는 구문들)이 추출되어 분석될 수 있다. 그런 다음 결과적인 스코어는 랜덤화 컴포넌트(150)에 의해 적어도 부분적으로 변경될 수 있다.

랜덤화 컴포넌트(150)는 결과적인 스코어(예를 들어, 만일 S형 함수가 이용된다면, 합산된 스코어 및/또는 최종 스코어)의 값에 소량의 혹은 약간의 증가 혹은 감소를 주기 위해 하나 이상의 입력 컴포넌트들(170)(예를 들어, 입력 컴포넌트₁(172), 입력 컴포넌트₂(174), .. 입력 컴포넌트_N(176), 여기서, N은 1 이상의 정수)로부터의 입력을 수신할 수 있는 난수 발생기(160)를 포함한다.

입력 컴포넌트들(170)로부터의 입력은 메시지를 스팸 혹은 비 스팸으로 분류하기 전에 각각의 스코어에 소정의 난수 혹은 준-난수를 부가하는 형태로 될 수 있다. 이러한 방법으로, 메시지의 스코어가 변화되고, 필터를 통과하는 메시지를 찾은 스패머는 운좋은 난수 때문에 한번 통과하는 메시지를 찾을 수 있을 뿐이다. 예를 들어, 특정한 스팸 메시지에 부가되는 난수가 0.7이라고 상상하라. 이 특정 메시지의 경우에, 0.7의 부가는 스팸 메시지의 분류에 거의 영향을 주지 않고, 따라서 메시지는 통과하게 허용된다. 그러면 스패머는 이 메시지 이후에 미래의 스팸을 모델링할 수 있다. 그러나, 스패머가 알지 못한 채, 이러한 미래 스팸 메시지들은, 그것들에 부가되는 난수가 임의의 시간에서 변화할 수 있기 때문에, 통과할 수 없을 것이다. 또한, 스패머는 이전의 메시지는 통과하였는데, 왜 보다 최근의 스팸 메시지들은 통과되지 않았는지의 이유를 알기 어려울 것이다.

반면, 난수가 1이라고 가정해본다. 이 난수는 특정한 스팸 메시지에게 불리하게 충분히 높을 수 있다. 다시 말해서, 숫자 1을 스팸 메시지의 스코어에 더함에 의해, 메시지의 총 혹은 전체 스코어가 이제 소정의 임계값을 초과할 수 있다. 그 결과, 메시지는 스팸으로 분류되고 필터를 통과하지 못할 것이다. 이에 따라, 난수 혹은 준-난수를 부가하는 것은, 메시지의 스코어와, 메시지가 스팸으로 분류될지가, 메시지에 대한 약간의 변경과 동시적으로 변화할 수 있거나 변화할 수 없기도 하기 때문에, 필터를 리버스 엔지니어하는 것을 더 어렵게 만든다. 그러므로, 송신자는 메시지에 대한 약간의 변경 때문에 혹은 우호적인 난수 때문에 이번에 메시지가 통과할지에 관해 불확실한 채로 남겨진다.

입력의 또 다른 형태는 시간의 이용을 수반한다. 예를 들어, 일 혹은 시에 따른 난수를 계산함에 의해, 스패머는 필터를 리버스 엔지니어하기 위해 더 긴 시간에 걸쳐 그의 분류를 수행해야만 한다. 어떤 경우에는, 필터는 정기적으로 예를 들면 매일 자동으로 갱신되어, 예를 들면 4시간마다 변화하는 랜덤화 컴포넌트(150)를 갖는 필터는 스패머가 그를 리버스 엔지니어할 수 있기 전에 자체적으로 변화할 수 있다. 즉, 난수 발생기(160)는 5분, 10분, 1시간 및/또는 4시간 증분과 같은 다양한 시간 증분에 따라 상이한 난수를 이용하도록 프로그램될 수 있다.

또한, 스패머는 제1 시간 증분에서 메시지가 통과함을 알 수 있을 것이다. 그 직후에, 스패머는 필터를 더 "테스트"하기 위해 그 메시지의 다수의 복사본들을 보낼 수 있다. 그 메시지들이 통과하는 것을 알 때, 스패머는 수백만통의 그 메시지들을 송신할 수 있다. 그러나, 그런 일이 일어날 때까지, 랜덤화 컴포넌트(150)는 다른 입력 컴포넌트(170), 따라서 다른 시간 증분(예를 들면 제2 시간 증분)으로 이동하였다. 그리하여, 제2 시간 증분에서, 상이한 난수가 부가되어, 스팸의 에지에 가까운 메시지들, 혹은 오히려 이전의 난수 때문에 비 스팸으로 분류되었던 메시지들에 불리하게 영향을 준다. 그 결과, 메시지들의 소량의 퍼센티지가 필터를 통과하는 데에 성공한 스패머들은 그들의 메시지에 대한 약간의 변화가 그 메시지들이 필터를 통과하게 할지 혹은 그들의 난수가 변화되었는지를 쉽게 결정할 수 없다.

랜덤화 컴포넌트(150)에 의해 생성되는 난수에 영향을 줄 수 있는 또 다른 타입의 난수 입력은 메시지를 수신하는 사용자 및/또는 스팸 필터가 실행되는 도메인과 관련된다. 특히, 발생된 난수는 메시지의 수신자에 적어도 부분적으로 의존할 수 있다. 예를 들면, 스패머의 테스트 사용자는 그의 이메일 어드레스, 그의 디스플레이 이름, 및/또는 그의 도메인과 같은 그의 식별 정보의 적어도 일부에 의해 인식될 수 있다. 따라서, 스패머의 테스트 사용자에 대해 발생된 난수는 스팸 메시지들이 거의 매번 테스트 사용자에게 통과해 가도록 해줄만큼 충분히 작을 수 있다.

이와 대조적으로, 메시지(들)를 수신하기 위해 지시된 다른 도메인 및/또는다른 사용자들은 스패머의 메시지들이 그들을 통과하는 것을 차단하기에 충분히 높게 난수들이 발생되도록 초래할 수 있다. 따라서, 스패머는 그의 테스트 사용자(들)에게 통과해가는 메시지를 찾을 수는 있으나, 다른 사용자들에게 통과해가는 메시지를 찾을 수는 없다. 스패머가 그의 테스트 사용자들만이 그의 스팸을 수신하는 것을 모른다면, 스패머는 그의 테스트 사용자들에게만 통과한 메시지들 이후의 미래의 스팸 메시지들을 모델링함에 있어서 속게 될 수 있다. 그 결과, 다른 비-테스트 사용자들에게 전송되는 스팸의 양이 감소한다. 그러나, 메시지의 수신자의 소정의 특징에 적어도 부분적으로 의존하도록 난수를 발생시킴으로써, 스패머가 스팸 필터들을 테스트하는 비용을 증가시킨다.

대안적으로 혹은 부가적으로, 입력은 메시지 콘텐트에 적어도 부분적으로 의존할 수 있다. 이것은 스패머가 스팸 필터의 내부 작업을 리버스 엔지니어링하는 것을 경감시키는데 유용할 수 있다. 더 구체적으로, 난수는 메시지 콘텐트를 기초로 계산된다. 즉, 메시지 콘텐트의 해시가 구해진다. 해싱은 문자들의 스트링을 보통 더 짧은 고정 길이의 값 혹은 원래의 스트링을 나타내는 키(key)로 변환하는 것이다. 본 예에 있어서, 각각의 메시지에 대해 계산된 해시 값은 난수이다.

스패머들은 스팸 필터들을 피하기 위해 그들의 메시지들의 콘텐트들을 약간 변경하려고 종종 시도한다. 따라서, 스패머가 메시지를 리버스 엔지니어하려고 할 때, 메시지 콘텐트들 내의 작은 변화들은 메시지의 스코어에 있어서 비교적 큰 변화를 초래할 수 있다. 예를 들어, 메시지 "X"가 스팸으로 분류되었다고 상상하라. 스패머는 메시지를 효과적으로 보다 스팸과 유사하게 만드는 "FREE!!!"와 같은 단어를 부가한다. 그러나, 본 발명에 따른 랜덤화 특성 때문에, 스패머는 그 메시지가 이제 비 스팸으로 분류될 것으로 믿는다. 불행하게도, 스패머는 "FREE!!!"라는 단어가 메시지를 덜 스팸과 유사하게 만드는 것으로 오신할 것이나, 그와는 반대이다.

메시지 콘텐트에 기초한 랜덤화의 견지에서, 스패머들은 그들의 메시지에 대한 잠재적 불리한 처리에 대항하기 위해, 예를 들면, "the" 혹은 "on"과 같은 메시지들에 영향을 주지 않을 것으로 생각되는 랜덤한 단어들을 부가하려고 할 수 있다. 그 결과, 스패머들은 이 단어들을 변경한 후에 많은 메시지들이 분류되도록 할 수 있고, 그런 다음 그들의 메시지들에 대한 어떠한 타입의 변경들이 필터를 통과하는 데에 가장 성공적인지를 계산할 수 있다.

그러한 스패머 행동을 예견하여, 메시지의 스코어에 대해 실질적으로 기여하는 특징의 해시가 계산될 수 있다. 더 구체적으로, 특징들이 메시지로부터 추출될 수 있음을 상기하라. 추출된 많은 특징들 중에서, 소정의 임계값(예를 들면 0.1인 임계값)을 초과하여 기여하는 특징들이 선택될 수 있다. 그런 다음 선택된 특징들의 해시가 계산될 수 있고, 그 해시는 난수 발생기(160)의 입력으로서 이용될 수 있다. 스패머들이 메시지의 어떤 특징이 메시지 스코어에 가장 크게 기여하는지를 알아내기가 어렵기 때문에, 스패머들은 이러한 타입의 스팸 필터의 기능을 리버스 엔지니어링하는데 있어서 상당한 어려움을 겪을 것이다.

대안적으로, 혹은 부가적으로, 송신자의 진위가 의심스러운 IP 어드레스의 해시가 그 메시지에 대해 어떤 난수가 생성될지를 결정하기 위해 계산될 수 있다.따라서, 또 다시, 스패머는 메시지의 어떤 특징이 해시를 결정하기 위해 사용되는지를 결정하고 그런 다음 어떤 난수가 그 해시에 대응하는지를 결정하기가 특히 어렵게 된다.

일단 랜덤화 컴포넌트(150)가 특정한 메시지에 대해 난수를 출력하면, 예를 들어 필터 스코어링 컴포넌트(140)에 의해 평가된 스코어들 혹은 가중치에 난수가 더해질 수 있다. 최종적으로, 메시지(130)의 총 혹은 최종 스코어가 구해질 수 있어서 메시지를 스팸 혹은 비 스팸으로 분류하는 것을 용이하게 한다.

스팸 필터의 기능을 모호하게 하기 위해 랜덤 기능을 갖기보다는, 다수의 스팸 필터들이 다수의 도메인들 및/또는 다수의 사용자들에 걸쳐 배치될 수 있다. 특히, 사용자는 그의 메시지들을 분류하는 데에 사용하기 위해 하나 이상의 스팸 필터들을 랜덤하게 혹은 비랜덤하게 선택할 수 있다. 필터들 자체들은 상이한 타입들의 스팸 필터들이고(이거나) 상이한 세트의 트레이닝 데이터를 이용하여 트레이닝될 수 있다. 따라서, 스패머는 그의 메시지들의 특정한 수신자에 의해 어떤 필터가 이용될지를 해독하는 데에 상당한 어려움을 경험하기 쉬울 것이다. 또한, 한번에 하나 이상의 필터가 메시지들을 분류하는 데에 관련되어, 거의 매번 필터들을 통과하는 하나의 메시지를 찾기도 거의 불가능하게 만든다.

도 2는 본 발명의 특징에 따른 예시적인 멀티-필터 스팸 필터링 시스템(200)의 블록도를 도시한다. 시스템(200)은 복수의 사용자들(210)(예를 들면, 사용자₁(212), 사용자₂(214), 및/또는 사용자_Y(216), 여기서 Y는 1 이상의 정수)을포함한다. 사용자들(210)은 일반적으로 스팸 메시지들을 포함한 임의의 인입 메시지들의 수신자들이다. 시스템(200)은 또한 복수의 스팸 필터들(220)(예를 들어, 스팸 필터₁(222), 스팸 필터₂(224), 및/또는 스팸 필터_W(226), 여기서 W는 1 이상의 정수)을 포함한다.

각각의 스팸 필터(220)는 상이한 세트들의 트레이닝 데이터에 적어도 부분적으로 기초하여 트레이닝될 수 있다. 더 구체적으로, 제1 필터(212)는 제1 서브세트의 트레이닝 데이터를 이용하는 기계 학습 시스템을 통해 트레이닝될 수 있다. 마찬가지로, 제2 필터(214)는 제1 서브세트의 데이터와 부분적으로 오버랩할 수 있거나 혹은 오버랩할 수 없는 제2 서브세트의 트레이닝 데이터를 이용하는 유사한 방식으로 트레이닝될 수 있다. 예를 들어, 제1 필터(212)는 공통 용어들을 포함하고, 제2 필터(214)는 비공통 용어들을 포함한다. 두개의 필터들을 모두 이용한다는 것은, 필터들이 메시지를 스팸 혹은 비 스팸으로 분류하기 전에 상이한 기준, 특징, 혹은 콘텐트를 검사할 것임을 의미한다.

마찬가지 방식으로, 하나 이상의 필터들(210)을 트레이닝시키는 것으로부터 사용자가 원하는 특정한 데이터가 배제될 수 있다. 배제된 데이터는 난수 발생기에 따라 배제될 수 있다. 또한, 트레이닝 데이터를 생성하기 위해 추출되고 이용되는 메시지들의 소정의 특징들에는 특정한 값들이 부여될 수 있다. 따라서, 스팸 필터들(220)은 사용자의 선호도나 명령에 부분적으로 의존하는 다양한 정도의 커스토마이제이션으로 사용자-특정적 혹은 개인화될 수 있다.

그 후, 복수의 사용자들(210) 및 복수의 스팸 필터들(220)에 동작적으로 연결된 필터 선택 컴포넌트(230)는 특정 사용자 및/또는 사용자의 선택에 적어도 부분적으로 기초하여 하나 이상의 필터들(220)을 선택하기 위해 사용자들(210)과 통신할 수 있다. 대안적으로, 필터 선택은 무작위적일 수 있고 혹은 메시지 콘텐트의 해시 혹은 메시지의 사이즈에 적어도 부분적으로 기초할 수 있다.

도면에 도시된 바와 같이, 필터 선택은 또한 시간 입력 컴포넌트(240)로부터 수신된 입력에 적어도 부분적으로 기초할 수 있다. 즉, 상이한 필터들은 그날 상이한 시간들에서 작동될 수 있다. 예를 들어, 메시지가 오후 2시에 전송되었다면, 복수의 필터들(220)이 사용가능하다. 그러나, 메시지가 새벽 3시에 전송되었다면, 제1, 제2, 제4, 및 제6 필터들과 같은 필터들(220)의 서브세트만이 사용가능하다. 대안적으로, 일시에 따라 소정의 필터가 선택되어, 단지 하나의 필터만이 이용된다.

상술한 구성들에 부가적으로, 사용자들(210)은 소정의 유사한 성질 혹은 특성 혹은 타입에 기초하여 클러스터링 컴포넌트(250)에 의해 서브-그룹들로 클러스터링될 수 있다. 마찬가지로, 트레이닝 데이터가 유사한 방법으로 클러스터링될 수 있으므로써 필터들이 적어도 하나의 클러스터 또는 데이터 타입으로 트레이닝된다. 따라서, 필터 선택 컴포넌트(230)는 사용자의 특정 클러스터에 대응하는 하나 이상의 스팸 필터(220)를 선택할 수 있다. 하나의 최고 스팸 필터에 의존하는 것이 아니라 본원에 개시된 바와 같이 랜덤한 또는 비 랜덤한 방식으로 다중 필터들을 채용하는 것이 통상의 스팸 필터링에 좀 더 유익할 수 있다. 리버스 엔지니어링(reverse engineering), 스팸 필터 성능 예측, 및 매시간 통과하는 하나의 메시지를 발견하는 것은 스패머에게 좀 더 어려운 데 이것은 다른 필터들이 랜덤한 또는 비 랜덤한 방식으로 선택되기 때문에 현재는 하나의 메시지가 통과할 수는 있지만 동일한 또는 유사한 메시지가 다음번에 반드시 통과할수는 없기 때문이다. 그러나, 필터의 상호연동이 용이하게 리버스 엔지니어링되거나 및/또는 용이하게 예측될 수 없기 때문에 실행할 수 없지 않다면, 스패머가 송신된 메시지가 매시간 또는 다음 시간 왜 통과하지 않는지를 판정하는 것은 훨씬 더 어렵다. 더우기, 스팸 에지 근방의 소량의 메시지는 통과할 수는 있지만 "스팸" 메시지 근방의 대다수는 스팸 필터링 프로세스를 혼란시킴으로써 전송으로부터 효율적으로 차단될 수 있다.

본 발명에 따른 다양한 방법론들을 도 3~ 8에 도시된 바와 같이 일련의 동작들을 통해 설명할 것이다. 본 발명은 이러한 동작 순으로 제한되는 것은 아니며 본 발명에 따른 임의의 동작들은 본원에 도시되고 설명되는 다른 동작들과 다른 순서로 및/또는 동시에 발생할 수도 있음을 주지하기 바란다. 예를들어, 당업자라면 방법론이 상태 다이어그램 등의 일련의 서로 관계된 상태 또는 이벤트들로서 나타내질 수 있음을 이해할 것이다. 더우기, 본 발명에 따라 방법론을 구현하기 위해 도시안된 동작들이 요구될 수도 있다.

도 3을 참조하면, 본 발명의 양태에 따라 스팸 필터-발생된 메시지 스코어의 랜덤화를 행하는 예시적인 프로세스(300)의 흐름도가 도시되어 있다. 프로세스(300)는 (310)에서 개시되며 여기서 메시지는 스팸 필터를 통과한다. (320)에서, 스팸 필터는 스코어를 메시지에 할당한다. 스코어는 메시지의 하나 이상의 특징들을 추출하는 등의 일반적인 필터링 시스템 및 방법에 기초함으로써, 각 특징은 이것과 연관된 가중치를 갖는다. 메시지의 스코어를 산출하기 위해 가중치 합이 계산된다. 그러나, 메시지가 스팸 또는 비 스팸으로서 분류되기 전에, (330)에서 난수 또는 의사 난수가 스코어에 가산되어 스팸 필터링 프로세스의 리버스 엔지니어링을 경감시키게 된다.

메시지의 최종스코어가 (340)에서 구해지고, 그 다음 (350)에서 메시지가 스팸 또는 비 스팸으로서 분류된다. 스팸 필터에 의해 주어진 원래 스코어에 가산된 난수 또는 의사 난수가 노이즈를 원래 스코어에 효율적으로 부가시킴으로써, 스패머로 하여금 스팸 필터의 리버스 엔지니어링을 경감시키거나 및/또는 동시에 스팸 필터를 통과하는 메시지 발견을 경감시키게 된다. 둘다의 경우에서, 스패머가 스팸 필터가 동작되는 방법을 알았다거나 또는 스팸 필터의 응답을 예측할 수 있었다면, 스패머는 메시지가 실질적으로 스팸 필터를 통과할 때마다 메시지를 용이하게 구성할 수 있다. 그러나, 랜덤화 컴포넌트를 스팸 필터에 포함시킴으로써, 스패머는 메시지에 최소한 변경을 가한 것으로 보이거나 또는 필터의 어떤 특징이 메시지로 하여금 "스팸"에서 "비 스팸" 상태로(또는 그 반대로) 변화시키도록 하는 데 망설이게 됨으로써 스팸 필터를 리버스 엔지니어하는 것이 거의 실행불가능하지는 않다.

난수 또는 요소가 스팸의 에지 근방의 메시지에 영향을 미칠 정도로 충분히 메시지 스코어를 변경시킨다. 즉, 스팸 및 비 스팸 메시지 사이의 라인을 따라 있는 메시지는 랜덤화 방식에 의해 많은 영향을 받는다. 확실하게 스팸(예를들어,매우 높은 스코어 또는 확률)이거나 또는 확실하게 비 스팸(예를들어, 매우 낮은 스코어 또는 확률)인 다른 메시지들은 스코어의 랜덤화에 의해 실질적으로 영향받지않는다. 더우기, 매번 메시지 스코어에 가산된 이상적인 난수는 본 발명에서만큼 효율적이지 않는 데 이것은 마침내는 스패머가 필터를 통과하는 메시지의 확률 또는 평균 확률을 알게 되고 이에 따라 필터의 리버스 엔지니어 또는 필터를 항상 통과하는 메시지 발견 및/또는 이들 둘다를 알게되기 때문이다.

스코어의 랜덤화는 도 4를 언급하는, 도 3의 도면부호(360)으로 표시된 바와 같이 하나 이상의 입력 타입들에 의존할 수 있다. 도 4에서, 어떤 난수가 사용되는 지 판정하기 위한 예시적인 프로세스(400)의 흐름도가 도시되어 있다. (410)에서, 프로세스(400)는 난수가 의존하는 다음 타입의 입력들 즉, 시각(420), 사용자(430), 및/또는 메시지 콘텐트(440) 중 적어도 하나를 선택하는 것을 포함한다.

시간(420)은 시각 또는 시간 증분을 언급한다. 좀 더 상세하게, 채용된 난수는 5분, 10분, 30분, 2시간 등의 사용된 시간 증분 또는 시각에 따라 변할 수 있다. 예를들어, 난수의 값은 자정에 변한 다음 오전 5:00에 변할 수 있고, 다시 오전 7:30에, 다시 오전 11:00에, 다시 오후 4:13에 변할 수 있다.

사용자(430) 신원 (예를들어, 디스플레이 네임, e-메일 어드레스) 및/또는 사용자 도메인 및/또는 메시지 송수신 도메인 또한 어떤 난수가 사용되는 지에 영향을 끼치기 위해 사용될 수 있다. 이러한 방법이 구현되면, 스패머는 어떤 메시지들이 어떤 사용자들에게 통과되는 지 판정하기 위한 스팸 필터 테스팅에 큰 어려움을 갖게된다. 결국, 메시지 콘텐트(440) 또는 적어도 그 일부는 어떤 난수가 원래(기본) 스코어에 가산되는 지 판정할 수 있다.

도 5를 참조하면, 메시지의 기본 스코어에 가산된 난수를 판정하기 위해 메시지 콘텐트를 채용하는 예시적인 프로세스(500)의 흐름도가 본 발명에 따라 도시되어 있다. 특히, 프로세스(500)는 (510)에서 메시지의 적어도 일부의 해시를 계산함으로써 시작될 수 있다. 예를들어, 난수는 메시지 바디에 기초하여 계산될 수 있다. 따라서, 다른 메시지가 이러한 메시지에 나타나는 것과 동일하다면, 동일한 난수 또는 해시 값으로 할당된다. 그러나, 메시지 바디에 미소한 변화가 생기더라도 메시지 스코어에는 상당한 변화를 가져올 수 있다. 예를들어, 스패머들은 그 스팸 메시지들이 덜 스팸같아 보이도록 하기 위해 메시지들에 무의미해보이는 워드들을 부가하거나 삭제하려 할 것이다. 그 스팸 메시지의 비교적 작은 비율이 '참' 일 수 있다. 그러나, 대부분의 스팸 메시지들에서, 어떤 타입의 워드들이 난수 및/또는 그 메시지의 전체 스코어를 증가시킬 수 있는지 또는 감소시킬 수 있는지 모르기 때문에 그 스팸은 전송에서 차단된다.

메시지 콘텐트를 해싱하기 위한 하나의 대안은, 메시지의 스코어에 실질적으로 기여하는 메시지로부터 추출된 어떤 특징들에 대한 해시를 계산하는 것이다. 이 메시지의 스코어에 실질적으로 기여하는 특징들은 랜덤하게 또는 비 랜덤하게 변할 수 있다. 이런식으로, 스패머들은 메시지의 어떤 특징들이 해시된다고 하더라도 그 평균을 알아내어 통과하는 메시지를 알아내기 위해 다량의 메시지들을 통과시킬수도 없고 감지할 수도 없다. 또한, 송신자의 IP 어드레스 상에서 해시가계산될 수 있다. 따라서, 메시지 분류는 송신자의 시초 정보의 적어도 일부에 바로 의존할 수 있다.

(520)에서, 랜덤화에 상관없이 스팸 필터에 의해 전에 결정된 원래 스코어 또는 기본 스코어에 난수가 가산된다. 메시지의 총 스코어는 (530)에서 획득될 수 있고 다음 (540)에서 메시지는 스팸 또는 비 스팸으로서 분류될 수 있다.

위에서 도 3~ 5를 참조하여 설명한 바와 같이 랜덤화 방식은, 스팸 필터의 리버스 엔지니어링 저지 및/또는 스패머에 의한 스팸 필터 성능의 모델링 저지를 위해 채용될 수 있는 하나의 전략에 불과하다. 다른 전략은 다수 사용자 및/또는 도메인을 가로지르는 다수 필터의 전개를 포함한다. 초기에, 다수 필터들이 어떤 방식으로 오버랩하거나 오버랩할 수 없는 트레이닝 데이터의 다양한 서브세트들을 사용하여 개별적으로 트레이닝될 수 있다. 다수 필터를 사용하여 메시지를 검사하고 분석하는 것은 필터링 시스템으로 하여금 메시지의 일 특정한 양태에만 집중하는 것이 아니라 본질적으로 동시에 다른 기준으로 메시지를 보게 한다. 따라서, 사용하게 되면 어떤 필터들이 사용되었는 지 그리고 어떤 양태의 메시지들이 분류되는 지 판정하기 어렵기 때문에, 다수의 필터들은 메시지의 좀 더 정확한 분류를 제공할 뿐아니라 필터링 시스템의 리버스 엔지니어링을 경감시키게 된다.

도 6은 사용자 타입의 클러스터들에 기초하여 통상의 방식으로 다수의 스팸 필터를 채용하고 트레이닝하는 예시적인 프로세스(600)의 흐름도를 설명한다. 이 프로세스(600)는 예를들어, 사용자들을 (610)에서 사용자 타입에 따라 하나 이상의 그룹으로 클러스터링함으로써 개시될 수 있다. (620)에서, 트레이닝 데이터는 사용자 타입의 클러스터들에 대응하는 유사한 방식으로 클러스터링될 수 있다. (630)에서, 다수의 필터들이 트레이닝 데이터의 각 클러스터에 대해 개별적으로 트레이닝될 수 있다. 그런다음, 다수의 필터들은 (640)에서 채용되도록 준비됨으로써 사용자 타입의 특정 클러스터에 대응하는 필터가 그 클러스터에 대한 메시지를 분류하기 위해 사용될 수 있다. 이것을 좀 더 설명하기 위해, 필터 R이 클러스터 R 트레이닝 데이터로 트레이닝된다고 가정한다. 클러스터 사용자 타입 R에서의 사용자들은 필터 R을 사용하여 그 메시지를 분류할 수 있다. 트레이닝 데이터는 사용자들이 클러스터링되는 유사한 방법으로 클러스터링됨을 이해하기 바란다.

대안적으로, 다수의 필터들이 도 7의 예시적인 프로세스(700)에서 도시된 바와 같이 트레이닝 데이터의 여러 서브세트들을 사용하여 트레이닝될 수 있다(710). 선택적으로, 하나 이상의 특징들 또는 관련 데이터가 트레이닝 데이터의 하나 이상의 서브세트로부터 배제될 수 있다(720). 도면에 도시되어 있지는 않지만, 메시지들로부터 추출된 어떤 특징들은 어떤 값 또는 가중치를 강제적으로 가질 수 있다. (730)에서, 하나 이상의 스팸 필터들이 트레이닝 데이터의 개별 서브세트를 사용하여 트레이닝된 다음, (740)에서 메시지를 프로세스하기 위해 채용될 수 있다. (750)에서, 메시지들이 상술한 바와 같이 스팸 또는 비 스팸으로서 분류될 수 있다. 도면에 도시되지는 않지만, 시간 또한 메시지 분류를 위해 어떤 스팸 필터들이 사용되는 지 판정하기 위한 한 요소일 수 있다. 즉, 어떤 시각 동안 특정한 필터들만 이용할 수 있다. 따라서, 필터 선택은 메시지의 사용자-수신자 및/또는 시각에 일부기초하여 랜덤하게, 비 랜덤하게 될 수 있다.

본 발명의 다양한 양태에 추가의 배경를 제공하기 위해, 도 8 및 이어지는 설명은 본 발명의 여러 양태들이 구현될 수 있는 적합한 운영 환경(810)의 간단하고 일반적인 설명으로 제공될 예정이다. 본 발명이 하나 이상의 컴퓨터 또는 다른 디바이스들에 의해 실행되는 프로그램 모듈 등의 컴퓨터-실행가능한 명령들의 일반적인 배경로 설명되지만, 당업자라면 본 발명이 다른 프로그램 모듈과 조합하여 및/또는 하드웨어 및 소프트웨어의 조합으로서 구현될 수 있음을 이해할 것이다.

그러나, 일반적으로 프로그램 모듈은 루틴, 프로그램, 오브젝트, 컴포너트, 특정한 태스크를 수행하거나 또는 특정한 데이터 타입을 구현하는 데이터 구조 등을 포함한다. 운영 환경(810)은 적합한 운영 환경의 일 예일 뿐, 본 발명의 기능성 또는 사용 범위에 대해 어떤 제한을 하려는 의도는 아니다. 본 발명과 사용에 적합할 수 있는 다른 공지된 컴퓨터 시스템, 환경 및/또는 구성들은 PC, 핸드헬드 또는 랩톱 디바이스, 마이크로프로세서 시스템, 마이크로프로세서 기반 시스템, 프로그램가능 가전 제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기 시스템 또는 디바이스 등을 포함하는 분산형 컴퓨팅 환경을 포함하지만 이것들에 제한되지는 않는다.

도 8을 참조하면, 본 발명의 다양한 양태를 구현하기 위한 예시적인 환경(810)이 컴퓨터(812)를 포함한다. 컴퓨터(812)는 프로세싱 유닛(814), 시스템 메모리(816), 및 시스템 버스(818)를 포함한다. 상기 시스템 버스(818)는 시스템 메모리(816)를 포함하는(이것에 한정되지는 않음) 시스템 컴포넌트를 프로세싱 유닛(814)에 접속한다. 프로세싱 유닛(814)은 여러 이용가능한 프로세서들 중 어떤것일 수 있다. 듀얼 마이크로프로세서 및 다른 마이크로프로세서 아케텍쳐 또한 프로세싱 유닛(814)으로서 채용될 수 있다.

시스템 버스(818)는 메모리 버스 또는 메모리 제어기, 주변 버스 또는 외부 버스, 및/또는 여러가지 이용가능한 버스 아키텍쳐 즉, 11-비트 버스, 산업 표준 아키텍쳐(ISA), 마이크로-채널 아키텍쳐(MSA), 확장형 ISA(EISA), 지능 드라이브 전자장치(IDE), VESA 로컬 버스(VLB), 주변 요소 상호접속(PCI), 범용 직렬 버스(USB), 향상된 그래픽 포트(AGP), 퍼스널 컴퓨터 메모리 카드 국제 협회 버스(PCMCIA), 및 소형 컴퓨터 시스템 인터페이스(SCSI)를 포함한(이들에 제한되는 것은 아님) 어떤 다양한 이용가능한 버스 아키텍쳐를 사용하는 로컬 버스를 포함하는 여러 형태의 버스 구조들 중 어떤 것일 수 있다.

시스템 메모리(816)는 휘발성 메모리(820) 및 비휘발성 메모리(822)를 포함한다. 작동 개시 등의, 컴퓨터(812) 내의 엘리먼트들 간에 정보 전송을 위한 기본 루틴을 포함하는 기본 입/출력 시스템(BIOS)은 비휘발성 메모리(822)에 저장된다. 가령 예를들면, 제한되는 것은 아니지만, 비휘발성 메모리(822)는 판독 전용 메모리(ROM), 프로그램가능 ROM(PROM), 전기 프로그램가능 ROM(EPROM), 전기소거가능 ROM(EEPROM), 또는 플래시 메모리를 포함할 수 있다. 휘발성 메모리(820)는 외부 캐시 메모리로 동작하는 랜덤 액세스 메모리(RAM)를 포함한다. 예를들면, 제한되는 것은 아니지만, RAM은 동기 RAM(SRAM), 동적 RAM(DRAM), 동기 DRAM(SDRAM), 이중 데이터 레이트 SDRAM(DDR SDRM), 향상된 SDRAM(ESDRAM), 동기 링크 DRAM(SLDRAM), 및 직접 램버스 RAM(DRRAM) 등의 많은 형태로 이용가능하다.

컴퓨터(812)는 또한 제거가능/제거불가, 휘발성/비휘발성 컴퓨터 저장 매체를 포함한다. 도 8은 예를들면, 디스크 스토리지(824)를 도시한다. 디스크 스토리지(824)는 제한되는 것은 아니지만, 자기 디스크 드라이브, 플로피 디스크 드라이브, 테이프 드라이브, 재즈 드라이브, 집 드라이브, LS-100 드라이브, 플래시 메모리 카드 또는 메모리 스틱과 같은 디바이스들을 포함한다. 또한, 디스크 스토리지(824)는 별개로 된 저장 매체; 또는 초소형 디스크 ROM 디바이스(CD-ROM), CD 판독가능 드라이브(CD-R 드라이브), CD 재기입가능 드라이브(CD-RW 드라이브) 또는 디지털 다방면 디스크 ROM 드라이브(DVD-ROM) 등의 광학 디스크 드라이브(이것에 제한되는 것은 아님)를 포함하는 다른 저장 매체와 조합되는 저장 매체를 포함할 수 있다. 디스크 스토리지 디바이스(824)를 시스템 버스(818)에 용이하게 접속하기 위해, 통상 제거가능 또는 제거불가 인터페이스가 인터페이스(826) 등으로 사용된다.

도 8은 적합한 운영 환경(810)에서 설명된 기본 컴퓨터 리소스들과 사용자들 간에 중개자로서 동작하는 소프트웨어를 설명한다. 이러한 소프트웨어는 운영 시스템(828)을 포함한다. 운영 시스템(828)은 디스크 스토리지(824)에 저장될 수 있고, 컴퓨터 시스템(812)의 리소스를 제어하고 할당하기 위해 동작한다. 시스템 애플리케이션(830)은 시스템 메모리(816) 또는 디스크 스토리지(824)에 저장된 프로그램 데이터(834) 및 프로그램 모듈(832)을 통해 운영 시스템(828)에 의한 리소스의 관리를 이용한다. 본 발명은 다양한 운영 시스템 또는 이들 운영 시스템을 조합하여 구현될 수 있음을 주지하기 바란다.

사용자는 명령 또는 정보를 입력 디바이스(836)를 통해 컴퓨터(812) 내로 입력한다. 입력 디바이스(836)는 이들에 제한되는 것은 아니지만, 마우스 등의 포인팅 디바이스, 트랙볼, 스타일러스, 터치 패드, 키보드, 마이크로폰, 조이스틱, 게임 패드, 위성 접시, 스캐너, TV 튜너 카드, 디지털 카메라, 디지털 비디오 카메라, 웹 카메라 등을 포함한다. 이들 및 다른 입력 디바이스들은 인터페이스 포트(838)를 경유하여 시스템 버스(818)를 통해 프로세싱 유닛(814)에 접속한다. 인터페이스 포트(838)는 예를들어, 직렬 포트, 병렬 포트, 및 범용 직렬 버스(USB)를 포함한다. 출력 디바이스(840)는 입력 디바이스(836)로서 임의의 동일한 타입의 포트들을 사용한다. 그리하여, 예를들어, USB 포트가 입력을 컴퓨터(812)에 제공하고, 컴퓨터(812)로부터 출력 디바이스(840)로 정보를 출력하기 위해 사용될 수 있다. 모니터, 스피커 및 다른 출력 디바이스들 간에 특정 어댑터를 필요로 하는 프린터와 같은 임의의 출력 디바이스(840)에 출력 어댑터(842)가 제공됨을 도시하기 위해 제공된다. 출력 어댑터(842)는 예를들어, 출력 디바이스(840)와 시스템 버스(818) 간에 접속 수단을 제공하는 비디오 및 사운드 카드를 포함하지만 이들에 제한되는 것은 아니다. 다른 디바이스 및/또는 디바이스의 시스템들은 원격 컴퓨터(844) 등의 입력 및 출력 기능 둘다를 제공함을 주지하기 바란다.

컴퓨터(812)는 원격 컴퓨터(844) 등의 하나 이상의 원격 컴퓨터들에 로직 접속을 사용하여 네트워크된 환경에서 동작할 수 있다. 원격 컴퓨터(844)는 PC, 서버, 루터, 네트워크 PC, 워크스테이션, 마이크로프로세서 기반 장치, 피어 디바이스 또는 다른 공통 네트워크 노드 등일 수 있고 통상, 컴퓨터(812)에 상관하여 설명된 많은 또는 모든 엘리먼트들을 포함한다. 간략화하기 위해, 메모리 스토리지 디바이스(846) 만이 원격 컴퓨터(844)와 함께 도시되어 있다. 원격 컴퓨터(844)는 네트워크 인터페이스(848)를 통해 컴퓨터(812)에 논리적으로 접속된 다음 통신 접속(850)을 통해 물리적으로 접속된다. 네트워크 인터페이스(848)는 근거리 통신망(LAN) 및 광역 통신망(WAN) 등의 통신 네트워크를 포함한다. LAN 기술은 파이버 분산형 데이터 인터페이스(FDDI), 동박 분산형 데이터 인터페이스(CDDI), 이더넷/IEEE 1102.3, 토큰 링/IEEE 1102.5 등을 포함한다. WAN 기술은 포인트 투 포인트 접속, 집적형 서비스 디지털 네트워크(ISDN)과 같은 회로 교환망 및 그 변형들, 패킷 교환망, 및 디지털 가입자 라인(DSL)을 포함하지만 이들에 제한되는 것은 아니다.

통신 접속(850)은 네트워크 인터페이스(848)를 버스(818)에 접속하기 위해 채용된 하드웨어/소프트웨어를 뜻한다. 통신 접속(850)이 컴퓨터(812) 내부를 상세히 설명하기 위해 도시되어있는 데, 이것은 컴퓨터(812) 외부에 있을 수도 있다. 네트워크 인터페이스(848)로의 접속을 위해 필요한 하드웨어/소프트웨어는 예시적인 목적으로만 통상의 전화기급 모뎀, 케이블 모뎀 및 DSL 모뎀을 포함하는 모뎀, ISDN 어댑터, 및 이더넷 카드 등의 내장 및 외장 기술을 포함한다.

전술한 바와 같이, 본 발명은 메시지가 스팸 또는 비 스팸으로 분류되기 전에 메시지 스코어를 랜덤화하여 스팸 필터의 기능성을 모호하게 함으로써 스팸 필터링 시스템을 혼란시켜 스팸의 전송을 감소시키고, 특히 스팸 필터의 리버스 엔지니어링을 저지하고 스패머들에 의한 스팸 필터 기능의 예측을 경감시킬 수 있습니다.

위에서 본 발명의 예들을 포함하여 설명하였다. 이것은 물론, 본 발명을 설명할 목적으로 모든 생각할 수 있는 컴포넌트들 또는 방법론의 조합을 설명하는 것은 불가능하지만, 당업자라면 본 발명의 또 다른 조합 및 교환이 가능함을 인식할 수 있다. 따라서, 본 발명은 첨부된 청구범위의 사상 및 범주 내에서 모든 가능한 수정, 변형 및 변경을 포함할 의도이다.

Claims

하나 이상의 스팸 필터(spam filter), 및

상기 하나 이상의 스팸 필터의 리버스 엔지니어링(reverse engineering)을 경감시키기 위해 스팸 필터의 기능성을 혼란시키는(obfuscating) 랜덤화 컴포넌트(randomization component)

를 포함하는 스팸 필터링 시스템.
제1항에 있어서, 상기 랜덤화 컴포넌트는, 임계값(threshold)에 근접하여 차단되거나 전송되는 것 중 하나로부터 변화되는 메시지가, 메시지에 대한 변경 및 상기 랜덤화 컴포넌트 중 하나에 기인하여 변화되었는지 여부를 스패머(spammer)가 판정하기 어렵도록 하기 위해 상기 필터의 스코어를 랜덤화시키는 스팸 필터링 시스템.
제1항에 있어서, 상기 랜덤화 컴포넌트는 난수(random number) 및 의사 난수(pseudo-random number) 중 적어도 하나를 발생시키는 난수 발생기를 포함하는 스팸 필터링 시스템.
제3항에 있어서, 상기 랜덤화 컴포넌트는, 상기 난수 발생기에 입력을 제공하는 하나 이상의 입력 컴포넌트들을 포함함으로써, 특정 메시지에 대해 어떤 난수를 발생시킬지를 용이하게 판정하게 하는 스팸 필터링 시스템.
제1항에 있어서, 상기 랜덤화 컴포넌트는 하나 이상의 입력 컴포넌트들부터 수신된 입력에 적어도 일부 기초하여 난수를 발생시키는 스팸 필터링 시스템.
제5항에 있어서, 상기 하나 이상의 입력 컴포넌트들로부터의 입력은 적어도 일부는 시간에 기초하는 스팸 필터링 시스템.
제6항에 있어서, 상기 발생된 난수는 시각 및 시간 증분 중 적어도 하나에 좌우되고, 그에 따라 상기 발생된 난수는 시각 및 현재 시간 증분 중 어느 하나에 따라 변화하는 스팸 필터링 시스템.
제5항에 있어서, 상기 하나 이상의 입력 컴포넌트들로부터의 입력은, 사용자, 수신자 및 상기 메시지를 수신하는 도메인 중 적어도 하나에 적어도 일부 기초하는 스팸 필터링 시스템.
제8항에 있어서, 상기 발생된 난수는 사용자, 수신자 및 상기 메시지를 수신하는 도메인 중 적어도 하나에 좌우되고, 그에 따라 상기 발생된 난수는 사용자 신원, 메시지 수신자 신원 및 상기 메시지를 수신하는 도메인 중 어느 하나에 따라 변화하는 스팸 필터링 시스템.
제9항에 있어서, 상기 사용자 및 수신자 중 어느 하나의 신원은 e-메일 어드레스의 적어도 일부 및 디스플레이 이름 중 적어도 하나를 포함하는 스팸 필터링 시스템.
제5항에 있어서, 상기 하나 이상의 입력 컴포넌트들로부터의 입력은 상기 메시지의 콘텐트에 적어도 일부 기초하는 스팸 필터링 시스템.
제11항에 있어서, 상기 발생된 난수는 상기 메시지의 콘텐트의 적어도 일부에 따라 변화하는 스팸 필터링 시스템.
제11항에 있어서, 상기 메시지 콘텐트의 해시(hash)가 계산되고 상기 해시값이 나수로서 사용됨으로써, 상기 메시지 콘텐트에 작은 변화가 생기더라도 상기 발생된 난수에는 상당히 큰 변화를 일으키는 스팸 필터링 시스템.
제11항에 있어서, 메시지로부터 추출된 특징들의 적어도 일부의 해시를 계산하여 메시지 스코어의 랜덤화를 용이하게하고 이에 따라 상기 스팸 필터의 기능성을 용이하게 하는 스팸 필터링 시스템.
제14항에 있어서, 상기 해시 계산에 사용된 상기 특징들은 임의의 임계값보다 더 큰 각각의 개별 가중치를 갖는 스팸 필터링 시스템.
제11항에 있어서, 송신자의 IP 어드레스의 해시를 계산하여 메시지 스코어의 랜덤화를 용이하게 함으로써 상기 스팸 필터의 기능성을 모호하게 하는 스팸 필터링 시스템.
제1항에 있어서, 스팸과 비 스팸 간의 경계에 있는 메시지들에 대해 실질적으로 영향을 미침으로써, 경계선 스팸인 메시지들은 상기 메시지 스코어를 랜덤화함으로써 적어도 일부 시간에(at least part of the time) 스팸으로서 분류되는 스팸 필터링 시스템.
제1항에 있어서, 상기 랜덤화 컴포넌트는 실질적으로 매번 송신될 때마다 상기 스팸 필터를 통과하는 적어도 하나의 메시지를 스패머들이 발견하는 것을 경감시키는 스팸 필터링 시스템.
제1항에 있어서, 상기 스팸 필터링 시스템은

의 공식을 갖는 S자형 함수를 이용하고, 여기서 합산스코어(summedscore) 값 및 최종스코어(finalscore) 값 중 적어도 하나가 랜덤화되어 스패머의 행동을 효율적으로 변경시키고 상기 필터링 시스템의 리버스 엔지니어링을 경감시키는 스팸 필터링 시스템.
스팸 필터의 리버스 엔지니어링을 경감시키고 실질적으로 항상 스팸 필터를 통과하는 하나의 메시지를 찾는 것을 경감시키는 다중-스팸 필터 필터링 시스템으로서,

메시지를 처리하고 분류하기 위한 적어도 제1 스팸 필터 및 제2 스팸 필터를 포함하는 다수의 스팸 필터,

적어도 제1 사용자 및 제2 사용자를 포함하는 다수의 사용자, 및

상기 다수의 사용자들 중 적어도 하나에 의해 사용하기 위해 배치될 하나 이상의 필터들을 선택하는 필터 선택 컴포넌트

를 포함하는 다중-스팸 필터 필터링 시스템.
제20항에 있어서, 상기 다수의 필터 중 하나 이상이 시각 및 시간 증분 중 어떤 하나에 적어도 일부 기초하여 각 사용자에 대해 선택되고 배치되도록, 상기 필터 선택 컴포넌트와 통신하는 시간 입력 컴포넌트를 더 포함하는 다중-스팸 필터 필터링 시스템.
제21항에 있어서, 상기 시간 증분은 임의 수의 초, 분, 시간, 일, 주, 월 및 년인 다중-스팸 필터 필터링 시스템.
제20항에 있어서, 상기 필터 선택 컴포넌트는 상기 하나 이상의 필터를 랜덤하게 선택하는 다중-스팸 필터 필터링 시스템.
제20항에 있어서, 상기 필터 선택 컴포넌트는 하나 이상의 필터를 비 랜덤하게(non-randomly) 선택하는 다중-스팸 필터 필터링 시스템.
제20항에 있어서, 상기 필터 선택 컴포넌트는, 각각의 사용자들, 송신자의 도메인, 필터링 시스템을 운영하는 도메인, 및 메시지를 수신하는 도메인 중 적어도 하나에 적어도 일부 기초하여 각 사용자들에 배치될 하나 이상의 필터를 선택하는 다중-스팸 필터 필터링 시스템.
제20항에 있어서, 상기 사용자들은 메시지의 수신자들인 다중-스팸 필터 필터링 시스템.
제20항에 있어서, 다수의 스팸 필터들 중 적어도 일부는 하나 이상의 트레이닝 데이터 세트를 사용하여 기계 학습 시스템을 통해 트레이닝되는 다중-스팸 필터 필터링 시스템.
제27항에 있어서, 상기 트레이닝 데이터는 메시지로부터 추출된 특징들에 대응하는 다중-스팸 필터 필터링 시스템.
제28항에 있어서, 상기 메시지로부터 추출된 특징들의 적어도 일부는 강제적으로 특정 값들을 갖게 되는 다중-스팸 필터 필터링 시스템.
제28항에 있어서, 상기 메시지로부터 추출된 특징들의 적어도 일부는 상기 트레이닝 데이터로부터 배제되는 다중-스팸 필터 필터링 시스템.
제28항에 있어서, 상기 메시지로부터 추출된 특징들의 적어도 일부는, 데이터의 각 클러스터가 개별 필터들을 트레이닝하기 위해 사용되도록, 특징 타입에 의해 클러스터링되는 다중-스팸 필터 필터링 시스템.
제31항에 있어서, 다수의 사용자들의 적어도 일부는 사용자 타입에 의해 클러스터링되며, 사용자 타입에 대응하는 스팸 필터가 그 사용자에 대해 채용되도록 상기 사용자 타입이 특징 타입 클러스터들에 연관되는 다중-스팸 필터 필터링 시스템.
제20항에 있어서, 상기 제1 필터는 적어도 제1 서브세트의 트레이닝 데이터를 사용하여 트레이닝되고, 상기 제2 필터는 적어도 제2 서브세트의 트레이닝 데이터를 사용하여 트레이닝되며, 상기 제2 서브세트의 트레이닝 데이터의 적어도 일부는 상기 제1 서브세트의 트레이닝 데이터의 적어도 일부와 중첩하지 않는 다중-스팸 필터 필터링 시스템.
제33항에 있어서, 상기 제1 필터 및 제2 필터는 함께 사용되도록 배치됨으로써 메시지들을 스팸 또는 비 스팸으로서 분류하기 전에 메시지들의 다수의 다른 기준 및/또는 특징들이 관찰되는 다중-스팸 필터 필터링 시스템.
스팸 필터 혼란을 용이하게 하는 방법으로서,

메시지를 스팸 필터에 통과시키는 단계,

상기 메시지와 연관된 적어도 하나의 스코어를 계산하는 단계,

상기 메시지를 스팸 또는 비 스팸으로서 분류하기 전에 상기 메시지의 스코어를 랜덤화하는 단계, 및

상기 메시지를 스팸 또는 비 스팸으로 분류하는 단계

를 포함하는 방법.
제35항에 있어서, 상기 메시지와 연관된 적어도 하나의 스코어는 최종스코어 및 합산스코어를 포함하는 방법.
제36항에 있어서, 상기 합산스코어는 메시지로부터 추출된 개별 특징들과 연관된 모든 스코어들의 합인 방법.
제36항에 있어서, 상기 최종스코어는 합산스코어의 S자형 함수이고 메시지가 스팸인지 아닌지의 확률을 나타내는 0과 1 사이의 값에 대응하는 방법.
제35항에 있어서, 상기 메시지의 스코어를 랜덤화하는 단계는, 난수 및 의사 난수 중 적어도 하나를 상기 메시지의 스코어에 가산하는 단계를 포함하는 방법.
제39항에 있어서, 상기 메시지의 스코어에 가산된 난수는

시각, 및

시간 증분

중 적어도 하나에 적어도 일부 좌우되는 방법.
제39항에 있어서, 상기 메시지의 스코어에 가산된 난수는

사용자,

메시지 수신자,

메시지 수신 도메인,

송신자 도메인, 및

상기 필터를 실행하는 기계 이름

중 적어도 하나에 적어도 일부 좌우되는 방법.
제39항에 있어서, 상기 메시지의 스코어에 가산된 난수는

상기 메시지의 콘텐츠의 해시, 및

상기 메시지로부터 추출된 특징의 적어도 일부의 해시

중 적어도 하나에 적어도 일부 좌우되는 방법.
제42항에 있어서, 상기 해시를 계산하기 위해 사용된 특징들은 0보다 큰 개별 가중치들을 갖는 방법.
제42항에 있어서, 상기 해시를 계산하기 위해 사용된 특징들은 시각 및 시간 증분 중 적어도 하나에 따라 랜덤하게 또는 비 랜덤하게 변할 수 있는 방법.
제39항에 있어서, 상기 메시지의 스코어에 가산된 난수는 송신자의 IP 어드레스의 해시에 적어도 일부 좌우되는 방법.
제39항에 있어서, 상기 메시지의 스코어에 가산된 난수는 하나 이상의 입력 컴포넌트들부터의 입력에 좌우되는 방법.
스팸을 최소화하는 방법으로서,

스팸 필터의 리버스 엔지니어링을 경감시키고, 필터들을 일관되게 통과하는 특정 메시지를 스패머들이 찾는 것을 경감시키도록 다수의 스팸 필터들을 다수의사용자들에 가로질러 배치하는 단계를 포함하는 방법.
제47항에 있어서, 상기 다수의 스팸 필터의 적어도 일부를 시각 및 시간 증분 중 적어도 하나에 따라 배치하는 단계를 포함하는 방법.
제47항에 있어서, 상기 다수의 스팸 필터의 적어도 일부를 상기 스팸 필터를 사용하는 적어도 하나 이상의 사용자들에 따라 배치하는 방법.
제47항에 있어서, 상기 다수의 스팸 필터의 적어도 일부를 메시지 콘텐츠의 해시 및 상기 메시지의 사이즈 중 적어도 하나에 따라 배치하는 방법.
제47항에 있어서, 랜덤하게 배치하기 위해 상기 다수의 스팸 필터 중 적어도 일부를 선택하는 단계를 더 포함하는 방법.
제47항에 있어서, 비 랜덤하게 배치하기 위해 상기 다수의 스팸 필터 중 적어도 일부를 선택하는 단계를 더 포함하는 방법.
제47항에 있어서, 상기 다수의 스팸 필터들이 기계 학습 프로세스를 통해 트레이닝 데이터 세트들로 트레이닝되는 방법.
제53항에 있어서, 상기 스팸 필터들을 트레이닝하는 방법은

트레이닝 데이터의 세트를 생성하는 단계,

적어도 제1 서브세트의 트레이닝 데이터를 사용하여 적어도 제1 스팸 필터를 트레이닝하는 단계, 및

적어도 제2 서브세트의 트레이닝 데이터를 사용하여 적어도 제2 스팸 필터를 트레이닝함으로써, 상기 제2 서브세트가 제1 서브세트의 트레이닝 데이터와 같지 않게 되는 단계

를 포함하는 방법.
제53항에 있어서, 상기 스팸 필터를 트레이닝하는 방법은

트레이닝 데이터를 사용자 타입들의 클러스터에 대응하는 타입으로 클러스터링하는 단계,

적어도 제1 필터를 제1 클러스터의 데이터로 트레이닝하는 단계, 및

적어도 제2 필터를 제2 클러스터의 데이터로 트레이닝하는 단계

를 포함하는 방법.
제55항에 있어서, 상기 제1 필터는 관련 클러스터 타입에 속하는 사용자에 대해 배치되는 방법.
제35항의 방법을 포함하는 컴퓨터 판독가능 매체.
제47항의 방법을 포함하는 컴퓨터 판독가능 매체.
컴퓨터 실행가능 컴포넌트가 저장되어 있는 컴퓨터 판독 가능 매체로서,

상기 컴퓨터 실행가능 컴포넌트는 하나 이상의 스팸 필터들의 리버스 엔지니어링을 저지하도록 스팸 필터의 기능성을 혼란시키는 랜덤화 컴포넌트인 컴퓨터 판독 가능 매체.
제59항에 있어서, 상기 랜덤화 컴포넌트는 필터의 스코어들을 랜덤화시키는 컴퓨터 판독 가능 매체.
제59항에 있어서, 상기 랜덤화 컴포넌트는 난수 및 의사 난수 중 적어도 하나를 발생시키는 난수 발생기를 포함하는 컴퓨터 판독 가능 매체.
스팸 필터의 혼란을 용이하게 하는 시스템으로서,

메시지를 스팸 필터에 통과시키는 수단,

상기 메시지와 연관된 적어도 하나의 스코어를 계산하는 수단,

상기 메시지를 스팸 또는 비 스팸으로 분류하기 전에 상기 메시지의 스코어를 랜덤화하는 수단, 및

상기 메시지를 스팸 또는 비 스팸으로서 분류하는 수단

을 포함하는 시스템.
스팸을 최소화하는 시스템으로서,

스팸 필터의 리버스 엔지니어링을 경감시키고 필터를 일관되게 통과하는 특정 메시지를 스패머가 찾는 것을 경감시키도록 다수의 스팸 필터를 다수의 사용자들에 가로질러 배치하는 수단을 포함하는 시스템.