KR20040104902A

KR20040104902A - 스팸 방지를 위한 발신지/수신지 특징 및 리스트

Info

Publication number: KR20040104902A
Application number: KR1020040037227A
Authority: KR
Inventors: 굿맨조수아티.; 라운트와이트로버트엘.; 그워즈드즈다니엘; 메존디.; 하웰네이쓴디.; 루퍼스버그미카씨.; 스타벅크브라이언티.
Original assignee: 마이크로소프트 코포레이션
Priority date: 2003-06-04
Filing date: 2004-05-25
Publication date: 2004-12-13
Also published as: AU2004202268B2; EP1484893B1; US20040260922A1; EP1484893A3; JP4672285B2; US7665131B2; EP1484893A2; CA2467869C; US7409708B2; AU2004202268A1; BRPI0401849A; RU2378692C2; US7464264B2; PL368364A1; CA2467869A1; CN1573784B; TW200509615A; US20050022031A1; BRPI0401849B1; US20070118904A1

Abstract

본 발명은 메시지로부터 스팸 필터링을 위한 데이터의 추출을 용이하게 하는 시스템 및 방법에 관한 것이다. 추출된 데이터는, 기계 학습 시스템과 관련하여 향상된 필터를 구성하는데 이용될 수 있는 특징들의 형태일 수 있다. 메시지의 바디에 삽입된 다른 정보 뿐만 아니라, 메시지의 수신자가 메시지의 발신자에게 연락 및/또는 응답할 수 있게 하는 정보의 발신지와 관련된 데이터도 특징으로 추출될 수 있다. 특징 또는 그 서브세트는 기계 학습 시스템의 특징으로 이용되기 전에 표준화 및/또는 명료화될 수 있다. (명료화된) 특징은 스팸 검출 및 방지를 용이하게 하는 복수개의 특징 리스트를 채우는데 이용될 수 있다. 예시적 특징으로는 이메일 어드레스, IP 어드레스, URL, URL을 포인팅하는 삽입 이미지, 및/또는 그 일부를 들 수 있다.

Description

스팸 방지를 위한 발신지/수신지 특징 및 리스트{ORIGINATION/DESTINATION FEATURES AND LISTS FOR SPAM PREVENTION}

본 발명은 적합한 메일(양호한 메일)과 불필요한 메일 양자를 식별하는 시스템 및 방법에 관한 것으로, 보다 구체적으로는, 스팸 방지를 용이하게 하는 데이터를 추출하기 위해 전자 메시지를 프로세싱하는 시스템 및 방법에 관한 것이다.

인터넷과 같은 글로벌 통신 네트워크의 등장으로 다수의 잠재 고객에게 접근할 수 있는 상업적 기회가 제공되고 있다. 전자 메시지, 특히 전자 메일("이메일")이 네트워크 사용자들에게 ("스팸"이라고도 하는) 원치않는 광고와 판촉물을 배포하는 수단으로 널리 보급되고 있다.

컨설팅 및 시장 조사 회사인 Radicati Group, Inc.는 2002년 8월 현재 매일 20억통의 정크 메일이 송신되는 것으로 추정하며, 이 숫자는 2년마다 3배가 되는 것으로 예상하였다. 개인 및 주체(예를 들어, 회사, 관청)는 정크 메시지로 인해 점차 불편을 겪고 있으며 자주 방해를 받고 있다. 이와 같이, 머지 않아 스팸은 신뢰할 수 있는 컴퓨팅에 대한 주된 위협이 될 것이다.

스팸을 방지하는데 이용되는 주된 기술은 필터링 시스템/방법의 이용이다.한가지 입증된 필터링 기술은 입력 메시지에 그 메시지가 스팸일 확률을 할당하는 기계 학습 접근-기계 학습 필터(machine learning approach-machine learning filters)에 기초한다. 이 접근에서는, 통상적으로 2 부류의 예시적 메시지(예를 들어, 스팸 및 비-스팸(non-spam) 메시지)로부터 특징들이 추출되며 2 부류를 확률적으로 구분하기 위해 학습 필터가 적용된다. 많은 메시지 특징들이 내용(예를 들어, 메시지의 제목 및/또는 본문의 단어 및 문구)과 관련이 있기 때문에, 이러한 타입의 필터를 흔히 "내용-기반형 필터(content-based filters)"라 한다.

이러한 스팸 필터링 기술의 맹공으로, 많은 스패머들(spammers)은 스팸 필터를 회피 및/또는 우회하기 위해 그들의 실체를 위장하는 방법들을 강구해왔다. 따라서, 종래의 내용-기반형 및 적응적 필터는 위장된 스팸 메시지를 인식하고 블로킹하는데 비효율적일 수 있다.

이하에서는 본 발명의 일부 태양에 대한 기본적인 이해를 제공하기 위해 본 발명에 대한 간략화된 요약을 제공한다. 이 요약은 본 발명에 대한 광범위한 개관이 아니다. 이는 본 발명의 주된/결정적인 요소를 식별하거나 본 발명의 범위를 서술하려는 것이 아니다. 그것의 유일한 목적은 나중에 제시될 상세한 설명의 도입부로서 본 발명의 일부 개념을 간략화된 형태로 제공하는 것이다.

스패머들은 그들 메시지의 거의 모든 정보를 위장할 수 있다. 예를 들어, 이들은 기계 학습 시스템에 대한 특징으로 사용할 단어가 없도록 이미지를 삽입할 수 있다. 심지어, 이미지는 OCR 소프트웨어의 사용이 어려워지거나 적어도 시간-소비가 생기는 방식으로 왜곡될 수도 있다. 그럼에도 불구하고, 이들이 얼마나 많은 특징들을 제거하느냐에 상관없이, 여전히 유용한 정보가 존재한다. 첫번째, 스패머들은 어딘가에서 메시지를 송신해야 한다. 우리는 메시지가 송신된 IP 어드레스를 검출할 수 있다. 두번째, 스패머들은 거의 항상 무엇인가를 판매하려고 하므로 그들에게 접촉할 수 있는 방법을 포함시켜야 한다. 이는 무료 전화번호일 수 있지만, 스패머들은 고비용의 항의 전화 때문에 이것의 사용을 꺼릴 수 있다. 이는 유료 전화번호일 수 있지만, 스패머들은 낮은 응답률 때문에, 이것의 사용을 꺼릴 수 있다. 다른 방법으로, 이는 URL(예를 들어, http://www.spamcorp.com/buyenlarger.com)일 수 있다. 필터 및/또는 소프트웨어가 검출해 내는 것을 더 어렵게 하기 위해, 이 URL은 이미지에 삽입될 수 있다. 그러나, 사용자들이 그들의 브라우저에 URL을 타이핑해야 하며, 이는 응답률을 낮출 수 있기 때문에, 스패머들은 이것의 사용을 꺼릴 수 있다.

스패머들이 연락을 받을 수 있는 가장 가망있는 방법은 삽입된 링크, 또는 어떤 종류의 삽입된 이메일 어드레스를 통하는 것이다. 예를 들어, "click hereto learn more"에서 "click here"는 기계 학습 시스템이 검출하여 본 발명의 일 태양에 따라 사용할 수 있는 특정 웹 페이지로의 링크를 보유한다. 마찬가지로, 회신될 어드레스(예를 들어, 통상적으로는 "발신 어드레스(from address)"이지만, 간혹, 존재하는 경우라면 "답장(reply-to)" 어드레스), 또는 삽입되어 있는 임의의 mailto: 링크(링크상에서 클릭하는 것에 의해 메일 메시지가 송신되게 하는 링크), 또는 삽입되어 있는 임의의 다른 이메일 어드레스를 들 수 있다. 또한, 스패머들은 종종 메시지에 이미지를 포함시킨다. 큰 이미지를 반복해서 발송하는 것은 비용이 들기 때문에, 스패머들은 종종, 이미지가 다운로드되게 하는 이미지로의 특수 링크만을 삽입시킨다. 이들 링크가 포인팅하는 위치도 특징으로 사용될 수 있다.

메일 발신 어드레스, 메일 답장 어드레스, 삽입된 mailto: 어드레스, 외부 링크, 및 외부 이미지 링크로부터 끌어낸 정보를 참조하여, 이러한 정보의 적어도 일부를, 가중치 또는 확률과 관련이 있는 기계 학습 시스템의 특징으로 사용할 수 있거나 이 정보를 리스트에 부가할 수 있다. 예를 들어, 우리는 스팸만이 송신되거나, 양호한 메일만이 송신되거나, 90% 이상의 양호한 메일 등이 송신되는 IP 어드레스 또는 발신 어드레스의 리스트를 보유할 수 있다. 특정 링크 또는 어드레스가 이러한 리스트상에 존재한다 사실은 기계 학습 시스템의 특징이나 임의의 다른 스팸 필터링 시스템의 일부로서, 또는 그 양자로서 사용될 수 있다.

본 발명은, 메시지의 특정 부분을 조사하는 것에 의해, 위장된 스팸 메시지의 식별을 용이하게 하는 시스템 및 방법을 제공하는 것이다. 보다 구체적으로, 본 발명은 적합한 메시지(legitimate messages)로부터 스팸 메시지를 구별하는 발신지 및/또는 수신지 데이터를 추출하기 위해 전자 메일(이메일)과 같은 메시지를 프로세싱하는 것에 관한 것이다. 이 프로세싱은 IP 어드레스 정보, 이메일 어드레스 정보, 및/또는 URL(universal resource locator) 정보를 식별하고 분석하며 추출된 데이터를 스팸 속성(예를 들어, 양호한 사용자 대 불량한 사용자 또는 양호한 발신자 대 불량한 발신자)과 관련짓는 다양한 기술을 포함한다. 예를 들어, 불량한 사용자 또는 불량한 발신자는 (예를 들어, 스팸을 송신하는) 스패머로 간주된다.

추출된 데이터, 또는 적어도 그 일부는 기계 학습 시스템에 대한 특징 세트를 생성하는데 사용될 수 있다. 기계 학습 기술은 메시지가 스팸인지의 여부를 판정하기 위해 메시지의 내용을 조사한다. 스패머들은 그들 정보의 대부분을 프로세싱하기 어려운 이미지에 배치하는 것 등에 의해 대부분의 메시지 내용을 불명료하게 할 수 있다(can obfuscate). 그러나, 스패머들은 수신자가 그들에게 용이하게 접촉할 수 있는 어떤 방법을 제공해야 하기 때문에, 메시지의 출처를 완전히 위장할 수는 없다. 이러한 예로는 링크(예를 들어, URL) 및/또는 이메일 어드레스(예를 들어, IP 어드레스)의 사용을 들 수 있다. 이러한 타입의 정보 또는 그들의 변형이나 일부가 스팸 검출기의 특징으로 이용될 수 있다. 특히, 이 정보는 스팸 검출기 및/또는 스팸 필터를, 예를 들어, 기계 학습 시스템의 방식으로 트레이닝시키는데 사용될 수 있다.

또한, 본 발명은 모제어 시스템(parental control system)과 협조적일 수 있다. 모제어 시스템은 사용자에게 메시지가 부적절함을 통지할 수 있으며 포르노 소재를 포함하는 것과 같이 이러한 부적절성의 이유를 지시할 수도 있다. 본 발명의 일 태양에 따르면, 하나 이상의 추출되어 표준화된 특징(예를 들어, URL)은 모제어 시스템의 분류를 획득하기 위해 모제어 시스템 또는 필터를 통과할 수 있다. 이러한 분류는 스팸 필터의 구성 및/또는 향상을 용이하게 하기 위한 기계 학습 시스템의 부가적인 특징으로 이용될 수 있다.

또한, 추출된 특징은 타입에 의해 분류될 수 있고, 스팸성의 정도에 따라 가중화될 수 있으며, (예를 들어, 스팸일 것 같지 않은) 긍정적 또는 (예를 들어, 스팸일 것 같은) 부정적 특징으로 지정될 수 있다. 이 특징들은, 예를 들어, 비-스패머(non-spammer) 리스트 및 스패머 리스트와 같은 리스트를 생성하는데 이용될 수도 있다.

도 1은 본 발명의 일 태양에 따른, 스팸 방지를 용이하게 하는 시스템의 상위-레벨 블록도이다.

도 2는 본 발명의 일 태양에 따른, 입력되는 메시지로부터 하나 이상의 특징을 추출하는 것에 의해 스팸 방지를 용이하게 하는 시스템의 블록도이다.

도 3은 본 발명의 일 태양에 따른, IP 어드레스로부터 추출될 수 있는 복수개 특징의 개략도이다.

도 4는 본 발명의 일 태양에 따른, FQDN으로부터 추출될 수 있는 복수개 특징의 개략도이다.

도 5는 본 발명의 일 태양에 따른, 이메일 어드레스로부터 추출될 수 있는 복수개 특징의 개략도이다.

도 6은 본 발명의 일 태양에 따른, URL 또는 웹 어드레스로부터 추출될 수 있는 복수개 특징의 개략도이다.

도 7은 본 발명의 일 태양에 따른, 필터를 트레이닝하는 것에 관한 예시적 방법의 흐름도이다.

도 8은 본 발명의 일 태양에 따른, 트레이닝된 필터를 이용하는 것에 관한예시적 방법의 흐름도이다.

도 9는 본 발명의 일 태양에 따른, 리스트 생성에 관한 예시적 방법의 흐름도이다.

도 10은 본 발명의 일 태양에 따른, 필터를 트레이닝하기 위해 리스트를 이용하는 것에 관한 예시적 방법의 흐름도이다.

도 11는 본 발명의 일 태양에 따른, 적어도 도 7 및 도 8의 방법에서 인용된 프로세스의 흐름도이다.

도 12는 본 발명의 일 태양에 따른, 적합하게 수신된-발신 IP 어드레스와 위장 수신된-발신 IP 어드레스의 구별을 용이하게 하는 프로세스의 흐름도이다.

도 13은 본 발명의 일 태양에 따른, 입력 메시지로부터의 특징 생성 및/또는 추출에 모제어 시스템을 통합하는 방법의 흐름도이다.

도 14는 본 발명의 일 태양에 따른, 기계 학습 시스템에 이용될 특징 세트의 생성을 용이하게 하는 방법의 흐름도이다.

도 15는 본 발명의 다양한 태양들을 구현하기 위한 예시적 환경이다.

<도면의 주요 부분에 대한 부호의 설명>

110 : 입력 메시지

120 : 메시지 수신 컴포넌트

130 : 특징 추출, 명료화 컴포넌트

140 : 필터 트레이닝 컴포넌트

220 : 특징 추출기 컴포넌트

240 : 특징 표준화기

250 : 표준화된 특징 세트

260 : 트레이닝 시스템

300 : IP 어드레스

상기한 그리고 관련된 목적을 달성하기 위해, 여기에서는 아래의 설명과 첨부된 도면들을 참조하여, 본 발명에 대한 소정의 예시적 태양들은 설명한다. 그러나, 이들 태양들은 본 발명의 원리들이 이용될 수 있는 다양한 방법들 중 일부만을 나타내며, 본 발명은 이러한 태양들 모두와 그 등가물을 포함한다. 도면들을 참조하는 이하의 상세한 설명으로부터, 본 발명의 다른 이점들과 신규한 특징들을 보다 분명히 알 수 있다.

이하에서는, 유사한 참조 번호가 전체적으로 유사한 요소를 언급하는데 사용되는 도면을 참조하여 본 발명을 설명한다. 설명을 위한 다음의 기술에서 다수의 구체적인 세부사항은 본 발명에 대한 완전한 이해를 제공하기 위한 것이다. 그러나, 이들 구체적인 세부사항없이도 본 발명이 실행될 수 있다는 것을 알 수 있다. 다른 예들에서는, 본 발명의 설명을 용이하게 하기 위해, 널리 공지되어 있는 구조 및 장치를 블록도 형태로 나타낸다.

이 애플리케이션에 사용된 바와 같이, "컴포넌트" 및 "시스템"이라는 용어는 하드웨어, 하드웨어와 소프트웨어의 조합, 또는 실행시의 소프트웨어일 수 있는 컴퓨터-관련 엔티티를 의미한다. 예를 들어, 컴포넌트는 프로세서에서 실행 중인 프로세스, 프로세서, 객체, 실행문, 실행 쓰레드(thread of execution), 프로그램, 및/또는 컴퓨터일 수 있지만, 이에 한정되는 것은 아니다. 예로써, 서버상에서 실행 중인 애플리케이션과 서버 모두가 컴포넌트일 수 있다. 하나 이상의 컴포넌트가 프로세스 및/또는 실행 쓰레드내에 상주할 수 있으며 컴포넌트는 하나의 컴퓨터에 집중되거나 그리고/또는 2 이상의 컴퓨터들간에 분산될 수 있다.

본 발명은 기계 학습 스팸 필터링을 위한 트레이닝 데이터를 생성하는 것에 관한 다양한 추론 방식 및/또는 기술을 통합할 수 있다. 여기에서 사용되는 바와 같이, "추론"이라는 용어는 일반적으로, 이벤트 및/또는 데이터를 통해 포착된 바와 같은 한 세트의 관측치로부터 시스템, 환경, 및/또는 사용자의 상태를 추론하거나 그에 관해 추리하는 프로세스를 의미한다. 예를 들어, 추론은 특정 문맥 또는 동작을 식별하는데 이용되거나, 상태에 관한 확률 분포를 생성할 수 있다. 추론은 확률적일 수 있는데, 다시 말해, 데이터 및 이벤트의 고려에 기초한, 관심 상태에 관한 확률 분포의 계산일 수 있다. 추론을 한 세트의 이벤트 및/또는 데이터로부터 상위-레벨의 이벤트를 구성하는데 이용되는 기술이라고도 한다. 이러한 추론은, 이벤트가 밀접한 시간적 근접성으로 상관되어 있는지의 여부에 따라, 그리고 이벤트 및 데이터가 하나 또는 수개의 이벤트 및 데이터 소스에 기인하는지의 여부에 따라, 한 세트의 관측된 이벤트 및/또는 저장된 이벤트 데이터로부터 새로운 이벤트 또는 동작을 구성한다.

메시지라는 용어가 명세서 전체에 광범위하게 사용되긴 하지만, 이러한 용어는 본질적으로 전자 메일에 한정되는 것이 아니며, 임의의 적당한 통신 아키텍처를통해 배부될 수 있는 임의 형태의 전자 메시징을 포함하도록 적당히 변경될 수 있다는 것을 알 수 있다. 예를 들어, 2 이상의 사람들간의 회의를 용이하게 하는 회의 애플리케이션(예를 들어, 양방향 채팅 프로그램, 및 즉시 메시징 프로그램) 또한, 불필요한 텍스트가 정상적인 채팅 메시지에 사용자 교환 메시지로서 전자적으로 산재되거나 그리고/또는 시작 메시지, 종결 메시지, 또는 이 모두로서 전자적으로 삽입될 수 있기 때문에, 여기에 개시된 필터링 이점들을 이용할 수 있다. 이러한 특정 애플리케이션에서, 바람직하지 못한 내용(예를 들어, 광고 방송, 판촉물, 또는 광고)을 포착하여 스팸으로 태그하기 위해, 필터는 특정한 메시지 내용(텍스트 및 이미지)을 자동적으로 필터링하도록 트레이닝될 수 있다.

본 발명에서, "수신자(recipient)"라는 용어는 입력 메시지 또는 메일 아이템의 어드레스를 의미한다. "사용자"라는 용어는 문맥에 따라 수신자 또는 발신자를 의미할 수 있다. 예를 들어, 용어의 문맥과 애플리케이션에 따라, 사용자는 스팸을 송신하는 이메일 사용자를 의미할 수 있으며 그리고/또는 사용자는 스팸을 수신하는 이메일 수신자를 의미할 수도 있다.

IP(Internet Protocol) 어드레스는 통상적으로 인터넷상의 기계를 나타내는 32비트의 숫자이다. 이들 숫자는 2개의 기계가 통신할 때 사용된다. 이들은 통상적으로 "xxx.xxx.xxx.xxx"의 형태로 표시되는데, 여기서, 각각의 xxx은 0과 255 사이이다. 유감스럽게도, IP 어드레스는 외우기가 어렵다. 그 때문에, "도메인 네임" 및 "호스트 네임"의 규약이 생성되어 왔다. "도메인 네임"은 (단일 기계일 수도 있는) 인터넷상의 한 그룹의 기계들의 이름이며, 통상적으로 "x.com", "y.edu",또는 "courts.wa.gov"의 형태이다.

FQDN(Fully Qualified Domain Name)은 인터넷상의 특정 기계, 예를 들어, "b.x.com", "c.y.edu", 또는 "www.courts.wa.gov"이고, 도메인 네임 부분은 각각 "x.com", "y.edu", 또는 "courts.wa.gov"이다. "b", "c", 및 "www" 부분은 각각 FQDN의 호스트 네임 부분이라 한다. 일반적으로, IP 어드레스는 도메인 네임이 사용될 수 있는 임의의 상황에서 사용될 수 있다(예를 들어, "DN/IP"는 양자의 가능성이 존재한다는 것을 지시한다). 또한, 일반적으로, IP 어드레스는 FQDN이 사용될 수 있는 임의의 상황에서 사용될 수 있다(예를 들어, "FQDN/IP"는 양자의 가능성이 존재한다는 것을 지시한다). 이메일 어드레스는, 예를 들어, "a@x.com" 또는 "a@1.2.3.4"와 같이, 사용자 네임 및 도메인 네임 또는 IP 어드레스(DN/IP)로 구성된다. 양자의 예에서, 사용자 네임은 "a"이다.

URL은 통상적으로 "서비스-네임:FQDN/IP/URL-경로"의 형태이다. 예를 들어, "http://www.microsoft.com/windows/help.htm"은 URL이다. "http" 부분은 서비스 네임이다. "www.microsoft.com" 부분은 FQDN이고 "windows/help.htm"은 URL-경로이다. 이는 다소 간략화된 URL이지만, 본 논의를 위해서는 충분하다.

도 1을 참조하면, 본 발명의 일 태양에 따른 특징 추출 및 트레이닝 시스템(100)의 기본적인 블록도가 도시되어 있다. 특징 추출 및 트레이닝 시스템(100)은 메시지로부터 데이터 또는 특징을 추출하기 위해 입력 메시지(110)를 프로세싱하는 것을 포함한다. 이러한 특징은 메시지 및/또는 그 변형에 제공되어 있는 발신지 및/또는 목적지 정보의 적어도 일부로부터 추출될 수 있다. 특히,메시지 수신 컴포넌트(120)를 통해 하나 이상의 입력 메시지(110)가 시스템(100)에 의해 수신될 수 있다. 메시지 수신 컴포넌트(120)는, 예를 들어, 입력 메시지(110)를 수신하는 이메일 또는 메시지 서버상에 위치할 수 있다. (예를 들어, 하나 이상의) 일부 메시지가 기존 필터(예를 들어, 스팸, 정크 메일, 모제어 필터)에 취약하여, 휴지통 또는 정크 메일 폴더로 분류될 수 있지만, 발신지 및/또는 수신지 데이터의 적어도 일부가 기계 학습 시스템 또는 특징 리스트를 채우는 것에 관한 사용을 위해 추출되어 명료화될 수 있다(extracted and deobfuscated).

메시지 수신 컴포넌트(120)는 입력 메시지 또는 그 서브세트를 특징 추출 컴포넌트(130)로 전달할 수 있다. 특징 추출 컴포넌트(130)는 필터 트레이닝 및 궁극적인 스팸 검출을 용이하게 하기 위한 특징 세트를 생성하기 위해 개개의 메시지(110)로부터 데이터를 추출할 수 있다. 메시지로부터 추출된 데이터 또는 특징은 발견된 그리고/또는 그에 삽입되어 있는 발신지 및/또는 목적지 정보와 관련이 있다. 데이터 또는 특징의 예로는 수신된-발신 IP 어드레스(received-from IP address), 답장 이메일 어드레스, cc(예를 들어, 카본 카피): 이메일 어드레스, (텍스트-기반 링크, 이미지-기반 링크, 및 텍스트 형태의 URL 또는 그 일부를 포함하는) 다양한 종류의 URL, 유료 전화번호(예를 들어, 특히 지역 번호), 무료 전화번호, mailto: 이메일 어드레스 링크, 텍스트 형태의 이메일 어드레스, SMTP HELO 명령의 FQDN, SMTP MAIL FROM 어드레스/복귀 경로 어드레스, 및/또는 상기한 것들 중 적어도 일부를 들 수 있다.

특징 추출 컴포넌트(130)는 메시지(110)로부터 기계 학습 시스템에서 후속적으로 사용하기 위한 다양한 세트의 특징들을 추출하기 위해 임의의 적당한 횟수의 프로세스를 수행할 수 있다. 그에 부가하여 또는 다른 방법으로, 특징들의 세트는 다른 필터 트레이닝 기술을 위한 리스트를 채우는데 사용될 수 있다.

예를 들어, x.com과 같은 FQDN은 일반적으로 IP 어드레스라 하는 숫자로 변환될 수 있다. IP 어드레스는 통상적으로 숫자의 4개 블록을 구비하는 마침표로 구분된 10진수 포맷(dotted decimal format)으로 관찰된다. 각 블록은 마침표 또는 소수점으로 구분되고 각 블록의 수는 0 내지 255 범위일 수 있는데, 각각의 다른 숫자는 상이한 인터넷 네임에 대응한다. 예를 들어, a.x.com은 123.124.125.126으로 변환될 수 있는 반면, 121.124.125.126은 qrstuv.com을 나타낼 수 있다. 숫자는 단어만큼 쉽게 인식되거나 기억되지 않기 때문에, IP 어드레스는 대개 그들의 개별적인 FQDN으로 호칭된다. 마침표로 구분된 10진수 포맷의 동일한 IP 어드레스를 후술하는 다른 포맷으로 표현할 수도 있다.

본 발명의 일 태양에 따르면, 특징 추출 컴포넌트(130)는 메시지(110)에 포함되어 있는 수신된-발신 IP 어드레스에 초점을 맞출 수 있다. 수신된-발신 IP 어드레스는 수신된-발신 IP 정보에 적어도 부분적으로 기초한다. 일반적으로, 인터넷을 통해 송신된 메일은 때때로 2개의 서버(예를 들어, 발신자 및 수신자)와 관련하여 서버에서 서버로 전송된다. 보다 드물게는, 클라이언트가 직접 서버로 송신할 수도 있다. 일부 경우에서는, 예를 들어, 방화벽의 존재로 인해 하나의 서버로부터 다른 서버로 송신되는 메일 또는 메시지에 보다 많은 서버가 관련될 수 있다. 특히, 일부 서버는 방화벽내에 위치하여, 다른쪽 방화벽의 지정된 서버와만 통신할수 있다. 이로 인해, 메시지가 발신자로부터 수신자에 도달하는데 필요한 홉(hop) 수가 증가한다. IP 어드레스를 구비하는 수신된-발신 라인(received-from lines)은 메시지의 출처를 확인하기 위한 메시지의 경로 추적을 용이하게 한다.

메시지(110)가 서버에서 서버로 전달될 때, 접촉된 각 서버는 접속 중인 서버의 주장된 FQDN(alleged FQDN)의 네임 뿐만 아니라 메시지가 수신된 IP 어드레스의 고유 번호를 메시지의 수신된-발신 필드(즉, "Received:" 필드)에 프리펜드(prepend)한다. 이러한 FQDN은 SMTP 프로토콜의 HELO 명령을 통해 송신 서버에 의해 수신 서버로 전달되므로, 송신 중인 서버가 조직(organization) 외부에 있다면 신뢰할 수 없다. 예를 들어, 메시지는 프리펜드된 5개의 IP 어드레스 및 FQDN을 가진 5개의 수신된 발신 라인을 가질 수 있으므로, 프리펜드된 반대 순서의 (즉, 마지막이 처음인) 라인을 가진 6개의 상이한 서버를 통해 전달된 것(즉, 5번 전달된 것)을 나타낸다. 그러나, 각 서버는 임의의 더 낮은 (먼저 프리펜드된) 라인을 수정할 수 있다. 이는 메시지가 다수의 서버들 사이에서 전달될 경우에 특히 문제가 될 수 있다. 각각의 중간 서버는 임의의 먼저 기록되어 있는 (더 낮은) 수신된-발신 라인을 변경할 수 있기 때문에, 스패머들은 스팸 메시지의 수신된-발신 IP 정보 또는 발신자를 위장하기 위해 페이크 IP 어드레스(fake IP addresses)를 수신된-발신 라인에 프리펜드할 수 있다. 예를 들어, 수신자에게 메시지의 진정한 소스를 잘못 표시함으로써, 처음에는 스팸 메시지가 trusteddomain.com으로부터 송신된 것처럼 보일 수 있다.

스팸 소프트웨어는 조직 내부의 서버에 송신되어 있는 조직 외부의 IP 어드레스를 식별하는 것이 중요하다. 이 IP 어드레스는 조직 내부의 수신 서버에 의해 기입되기 때문에, 정확한 IP 어드레스로서 신뢰할 수 있다. 조직 외부의 모든 IP 어드레스는 조직 외부의 서버에 의해 기입됨으로써, 수정될 가능성이 있으므로, 신뢰할 수 없다. 수신자 조직으로의 경로와 관련하여 송신 서버의 많은 IP 어드레스가 존재할 수 있지만, 하나만을 신뢰할 수 있으므로, 우리는 이러한 신뢰할 수 있는 IP 어드레스를 "발신자의" IP 어드레스라 한다.

스팸 필터링 소프트웨어가 이러한 발신자의 IP 어드레스를 발견하는 일 방법이 조직의 메일 서버 구성에 공지되어 있다. 일반적으로, 어떤 기계가 어떤 상황에서 다른 어떤 기계로 전달하는지를 알면, 발신자의 IP 어드레스를 결정할 수 있다. 그러나, 특히, 이메일 클라이언트에 설치된 스팸 필터링 소프트웨어에 대해, 서버 구성을 기술하는 것이 불편할 수 있다. 다른 접근은 메시지의 진정한 소스를 결정하기 위해 MX 레코드를 이용하는 것과 관련이 있다. 각각의 도메인 네임에 대한 MX 레코드는 그 도메인에 대한 이메일 수신자의 FQDN을 열거한다. 도메인의 MX 레코드의 엔트리에 대응되는 FQDN에 대응되는 IP 어드레스가 발견될 때까지 수신된 발신 리스트 전체를 역추적(trace back)할 수 있다. 이 기계가 수신된 발신 IP 어드레스가 발신자의 IP 어드레스이다. 1.2.3.101이 x.com에 대한 유일한 MX 레코드라 가정한다. 그렇다면, 1.2.3.101로부터 수신된 라인을 발견함으로써, x.com의 입력 메일 서버에 대응되는 후속 라인, 및 그에 따라, x.com으로 송신되어 있는 IP 어드레스에 대응되는 라인의 IP 어드레스를 인지할 수 있다.

아래의 표는 메시지의 진정한 소스를 결정하는, 상술한 예시적 분석을 도시한다.

라인	주석
수신: 2003년 4월 22일 화요일 13:11:48 -0700에 b.x.com에 의해 a.x.com([1.2.3.100])으로부터	x.com 내부
수신: 2003년 4월 22일 화요일 12:11:48 -0700에 b.x.com에 의해 mailserver.x.com([1.2.3.101])으로부터	1.2.3.101은 x.com에 대한 MX 레코드이므로, 후속 라인이 처음으로 x.com의 내부임을 인지
수신: 2003년 4월 22일 화요일 11:11:48 -0700에 mailserver.x.com에 의해 outside.com([4.5.6.7])으로부터	x.com이 메시지를 수신한 곳: 신뢰할 수 있는 마지막 라인. 4.5.6.7을 발신자의 IP 어드레스로 사용
수신: 2003년 4월 22일 화요일 10:11:48 -0700에 outside.com에 의해 trustedsender.com([8.9.10.11])으로부터	이 라인은 4.5.6.7의 서버에 의해 구성된 페이크일 수 있음

현재, 출력 메일 서버를 열거하도록 허용된 표준은 없으며, 이러한 발견적 방법은, 예를 들어, 조직 내부의 IP 어드레스가 조직 외부의 IP 어드레스와 상이하거나, 조직이 MX 레코드에 열거된 일 기계로부터 MX 레코드에 열거된 다른 기계로 간접적으로 메일을 송신한다면, 실패할 수 있다. 또한, MX 레코드의 일 기계가 MX 레코드의 다른 기계로 송신되는 경우에 발생할 수 있는 바와 같이, 상기에서 발견된 바와 같은 발신자의 IP 어드레스가 조직에 속하는 특수한 경우에, 프로세스는 상기와 같이 계속된다. 또한, (이들이 내부 IP 어드레스로만 사용되는 10.x.y.z 또는 172.16.y.z 내지 172.31.y.z 또는 192.168.0.z 내지 192.168.255.z 형태이기 때문에) 소정의 IP 어드레스들이 내부인 것으로 검출될 수 있으며: 조직 내부의 임의 어드레스는 신뢰할 수 있다. 마지막으로, 수신된 발신 라인이 "a.x.com [1.2.3.100]으로부터 수신된" 형태이고 a.x.com의 IP 어드레스 룩업(lookup)이 1.2.3.100을 산출하거나 1.2.3.100의 역방향 IP 어드레스 룩업이 a.x.com을 산출하면, 그리고 x.com이 조직이면, 후속 라인 또한 신뢰할 수 있다.

이러한 관측치를 사용하면, 대개는 발신자의 IP 어드레스를 찾는 것이 가능하다. 예시적인 의사코드는 다음과 같다.

다른 발신 및 수신 특징과 같이, 발신자의 IP 어드레스를 이용해 많은 일을 할 수 있다. 먼저, 이들은 흔히 블랙 리스트라고 하는 한결같은 불량 발신자의 리스트에 부가될 수 있다. 블랙 리스트는 신뢰할 수 없는 메시지를, 이들을 추가적으로 조사할 수 있는 적절한 폴더 또는 위치로 필터링, 블로킹(blocking), 또는 리다이렉팅(redirecting)하는데 후속적으로 이용될 수 있다.

또한, 다른 타입의 리스트도 생성되어 클라이언트- 및 서버-기반 아키텍처상의 필터로서 구현될 수 있다. 클라이언트 아키텍처에서, 사용자는 그가 메일을 수신해야 할 사람(예를 들어, 메일링 리스트, 개개인, 등)에게 클라이언트 이메일 소프트웨어를 통지할 수 있다. 신뢰할 수 있는 이메일 어드레스에 대응되는 레코드의 리스트는 수동으로 또는 자동으로 사용자에 의해 생성될 수 있다. 따라서, 'b@zyx.com'의 이메일 어드레스를 가진 발신자가 사용자에게 이메일 메시지를 송신한다고 가정한다. 발신자의 이메일 어드레스 b@zyx.com는 사용자 네임 'b', 및 FQDN/IP 'zyx.com'을 구비한다. 클라이언트가 발신자(b@zyx.com)로부터 입력 메시지(110)를 수신할 경우, 클라이언트는 사용자가 'b@zyx.com'를 유효하고 신뢰할 수 있는 어드레스로 지시했는지를 판정하기 위해 사용자의 이메일 어드레스에 대한 신뢰할 수 있는 발신자 리스트를 검색할 수 있다. 서버 아키텍처의 경우, 리스트는 서버상에 직접적으로 위치할 수 있다. 따라서, 메시지가 메시지 서버에 도달할 때, 이들의 개별적인 특징(예를 들어, 발신자의 IP 어드레스, MAIL FROM 또는 HELO 필드의 도메인 네임(들), 및 다른 발신지 및/또는 목적지 정보)을 메시지 서버상에 위치하는 리스트와 비교할 수 있다. 유효한 발신자로부터 발신된 것으로 판정된메시지는 클라이언트-기반 또는 서버-기반 전달 프로토콜에 따라 소정 수신자(intended recipient)에게 전달될 수 있다. 그러나, 의심스럽거나 불량한 특징 리스트의 발신지 또는 수신지 특징을 포함하는 것으로 판정된 메시지는 파기를 위해 스팸 또는 정크 메일 폴더로 이동되거나 특별하게 처리될 수 있다.

신뢰할 수 있는 또는 불량한 발신 특징의 리스트를 채우는 다른 방법으로서, 발신자의 발신 특징(예를 들어, IP 어드레스, 주장된 발신 어드레스)를 하나 이상의 특징으로 추출한 다음 필터 구성 및/또는 트레이닝을 위한 기계 학습 기술과 관련하여 사용할 수 있다.

IP 어드레스는 메시지 헤더 임의 부분의 이메일 어드레스로부터 또는 메시지 바디에 삽입된 URL 링크의 도메인 네임 부분에 대한 IP 어드레스 룩업으로부터, 또는 URL의 FQDN/IP 부분으로 발생한다면 IP 어드레스로부터 직접 유도될 수 있다. 또한, 후술하는 바와 같이, IP 어드레스는 각각이 기계 학습 시스템의 특징 또는 사용자-채움형 리스트(user-populated list)의 요소로서 이용될 수 있는 수개의 속성을 갖는다. 따라서, 제 2 접근으로서, 특징 추출 컴포넌트(130)는 IP 어드레스(들)의 많은 서브파트를 이용하여 부가적인 특징들을 생성할 수 있다.

상술한 특징들의 임의적인 조합을 각각의 입력 메시지(110)로부터 추출할 수 있다. 통상적으로 모든 메시지가 사용될 수 있지만, 메시지는 랜덤하게, 자동적으로, 그리고/또는 수동적으로 선택되어 특징 추출에 참여할 수 있다. 다음으로, 추출된 특징들의 세트는 기계 학습 시스템과 같은 필터 트레이닝 컴포넌트(140) 또는 스팸 필터와 같은 필터(150)를 구성 및/또는 트레이닝하는 임의의 다른 시스템에인가된다.

도 2를 참조하면, 본 발명의 일 태양에 따른, 입력 메시지(210)에 대한 하나 이상의 특징 명료화 또는 표준화를 용이하게 하는 특징 추출 시스템(200)이 도시되어 있다. 궁극적으로, 필터(들)는 하나 이상의 표준화된 특징의 적어도 일부에 기초하여 구성될 수 있다. 시스템(200)은 입력 메시지(210)를 도시한 바와 같이 직접적으로 또는, 예를 들어, 메시지 수신기(도 1)를 이용하여 간접적으로 수신하는 특징 추출 컴포넌트(220)를 구비한다. 특징 추출을 위해 선택되거나 특징 추출에 참여하는 입력 메시지는 사용자 기호에 따라 시스템(200)에 제시될 수 있다. 다른 방법으로, 실질적으로 모든 입력 메시지가 특징 추출에 이용될 수 있으며 특징 추출에 참여할 수 있다.

특징 추출은 메시지(210)로부터 발신지 및/또는 목적지 정보와 관련된 (FEATURE₁232, FEATURE₂234, FEATURE_M236(여기서 M은 1 이상의 정수)이라고도 하는) 하나 이상의 특징(230)을 끌어내는 것을 포함한다. 발신지 정보는 서버 도메인 네임 뿐만 아니라 발신자를 지시하는 요소와 관련될 수 있으며 메시지가 어디로부터 왔는지를 특정하는 식별 정보와 관련될 수도 있다. 목적지 정보는 수신자가 메시지에 대한 그의 응답을 누구에게 또는 어디로 송신할 수 있는지를 지시하는 메시지의 요소와 관련될 수 있다. 발신지 및 목적지 정보는 메시지 수신자에게 (예를 들어, 텍스트로 삽입되거나 이미지에 삽입된) 보이거나 보이지 않는 메시지의 바디 뿐만 아니라 메시지의 헤더에서도 발견될 수 있다.

스패머들은 종래의 스팸 필터에 의한 검출을 회피하기 위해 그들의 식별성을 위장 및/또는 불명료하게 하는 경향이 있기 때문에, 시스템(200)은 하나 이상의 추출된 특징 또는 적어도 그 일부의 명료화를 용이하게 하는 특징 표준화 컴포넌트(240)를 구비한다. 특징 표준화 컴포넌트(240)는 추출된 특징(230)을 분석(예를 들어, FQDN -- 블록의 디렉토리 및 MX 레코드를 참고하고 그리고/또는 그것의 현재 포맷에 따라 FQDN을 변환)한 다음, 예를 들어, 기존의 스패머 리스트, 비-스패머 리스트, 및/또는 모제어 리스트의 데이터베이스(들)와 비교하는 것과 같이, 추출된 특징들(230)을 프로세스 및/또는 분해할 수 있다. 추출된 특징이 URL인 경우와 같은, 도 4에서 후술하는 일부 경우에서, 접두사 및/또는 접미사 또한 특징의 표준화 및, URL이 스패머의 웹 사이트를 가리키는지 또는 적합한 소스를 가리키는지의 식별을 용이하게 하기 위해 제거될 수 있다.

특징이 표준화되고 나면, 적어도 이들의 서브세트(250)는 기계 학습 시스템과 같은 트레이닝 시스템(260)에 의해 필터(들)(270)를 구성 및/또는 업데이트하는데 이용될 수 있다. 필터(들)는, 예를 들어, 스팸 필터 및/또는 정크-메일 필터로 사용하기 위해 트레이닝될 수 있다. 또한, 필터(들)는 스패머를 식별하고 스패머와 관련되는 부정적인 특징들 뿐만 아니라 비-스팸 소스 및/또는 비-스팸 발신자를 지시하는 특징들과 같은 긍정적인 특징들(예를 들어, 발신자의 발신 이메일 어드레스, 발신자의 IP 어드레스, 삽입된 전화번호, 및/또는 URL)로 구성 및/또는 트레이닝될 수 있다.

다른 방법으로 또는 부가적으로, 특징들의 세트는 기존의 스팸 특징리스트(280)에 새로운 것을 채우거나 부가하는데 이용될 수 있다. 양호한 어드레스의 리스트, 불량한 어드레스의 리스트, 양호한 URL의 리스트, 불량한 URL의 리스트, 양호한 전화번호의 리스트, 및 불량한 전화번호의 리스트와 같이, 특정한 추출 특징에 대응되는 다른 리스트가 생성될 수도 있다. 양호한 특징의 리스트는 비-스패머들, 계층적으로 적합한 발신자, 및/또는 비-스팸성이 높은 (스팸 소스가 아닐 가능성이 90% 이상인) 발신자를 식별할 수 있다. 반대로, 불량한 특징 리스트는 스패머, 잠재적 스패머, 및/또는 스팸성이 비교적 높은 (예를 들어, 스팸 소스일 가능성이 90% 이상인) 발신자에 대응될 수 있다.

도 3 내지 도 6을 참조하면, 각각 본 발명의 수 개 태양에 따른 스팸 검출 및 방지를 용이하게 하는 IP 어드레스, FQDN, 이메일 어드레스 및 URL로부터 유도 및 추출될 수 있는 예시적 특징들이 도시되어 있다.

도 3은 본 발명의 일 태양에 다른 IP 어드레스(300)의 예시적 분해(breakdown)를 도시한다. IP 어드레스(300)는 마침표로 구분되는 10진수 포맷으로 표현될 경우 32 비트 길이이고 (예를 들어, 각각이 최대 3개 숫자인 4개 블록으로서, 각 블록은 마침표로 구분되고 3개 숫자의 각 블록은 0과 255 사이의 임의 숫자인) 블록(예를 들어, 네트블록)으로 할당된다. 블록은 클래스 A, 클래스 B, 및 클래스 C와 같은 클래스에 할당된다. 각 블록은 IP 어드레스의 세트 번호를 구비하는데, 블록 마다의 IP 어드레스 번호는 클래스에 따라 달라진다. 즉, 클래스(즉, A, B, 또는 C)에 따라, 각 블록에 할당된 얼마간의 어드레스(more or less addresses)가 존재할 수 있다. 블록 사이즈는 일반적으로 2의 지수이고, 동일 블록의 IP 어드레스 세트는 처음의 k개 이진수를 공유하며 마지막의 32-k(예를 들어, 32 마이너스 k)개 이진수가 상이하다. 따라서, 각 블록은 공유하는 처음의 k개 비트에 따라 식별될 수 있다(블록 ID;302). 특정한 IP 어드레스(300)와 관련된 블록 ID(302)를 판정하기 위해, 사용자는 arin.net과 같은 블록의 디렉토리를 참고할 수 있다. 또한, 블록 ID(302)는 특징으로 추출되어 이용될 수 있다.

그러나, 일부의 경우, 블록내의 IP 어드레스 그룹이 임의 횟수만큼 분할되어 처분되고 재처분될 수 있기 때문에, 블록 ID(302)는 arin.net을 참조하더라도 쉽게 판정될 수 없다. 이런 경우, 사용자 또는 추출 시스템은 개개의 IP 어드레스에 대한 블록 ID(302)를 한번 이상 추측할 수 있다. 예를 들어, 사용자가 적어도 처음의 1개 비트(304), 적어도 처음의 2개 비트(306), 적어도 처음의 3개 비트(308), 적어도 처음의 M개 비트(310)(즉, M은 1 이상의 정수) 및/또는 최대한 적어도 처음의 31개 비트(312)를 기계 학습 시스템에 의한 후속 사용을 위한 개별적인 특징 및/또는 특징 리스트(들)(예를 들어, 양호한 특징 리스트, 스팸 특징 리스트 등)상의 요소로서 추출할 수 있다.

실제로, 예를 들어, IP 어드레스의 처음의 1 비트는 추출되어 IP 어드레스가 스패머 또는 비-스패머를 가리키는지를 판정하기 위한 특징으로 이용될 수 있다. 다른 메시지로부터 추출된 다른 IP 어드레스의 처음의 1 비트는 하나 이상의 블록 ID 판정을 용이하게 하기 위해 비교될 수 있다. 하나 이상의 블록 ID 식별은 메시지가 스패머로부터 온 것인지의 여부를 식별하는데 도움이 된다. 또한, 처음의 M개 비트를 공유하는 IP 어드레스를 IP 어드레스가 적합한 발신자로 온 것인지의 여부 및/또는 개개의 메시지가 스팸인지의 여부를 확인하기 위해 다른 추출된 특징과 비교할 수 있다.

또한, IP 어드레스는 계층적으로(hierarchically) 배열될 수 있다(314). 즉, 높은 레벨의 비트 세트가 특정 국가에 할당될 수 있다. 그 국가는 ISP(Internet Service Provider)의 서브세트를 할당할 수 있으며, 그 ISP는 특정 회사에 서브세트를 할당할 수 있다. 따라서, 동일한 IP 어드레스에 대한 다양한 레벨이 의미를 가질 수 있다. 예를 들어, IP 어드레스가 한국에 대해 할당된 블록으로 온 것이라는 사실은 IP 어드레스가 스패머와 관련된 것인지의 여부를 판정하는데 유용할 수 있다. IP 어드레스가 스패머에 대해 엄격한 정책을 가진 ISP에 할당된 블록의 일부라면, 이 또한, 그 IP 어드레스가 스패머와 관련되지 않았다는 것을 판정하는데 유용할 수 있다. 따라서, IP 어드레스의 처음의 1 내지 31개 비트 각각을 적어도 IP 어드레스의 서브세트에 대한 계층적 배열(314)과 조합하여 이용함으로써, 사용자는 IP 어드레스가 할당된 방식을 실제로 인지하지 않은 상태에서(예를 들어, 블록 ID를 인지하지 않은 상태에서), 자동적으로 상이한 레벨의 정보를 학습할 수 있다.

상술한 특징들에 부가하여, 예를 들어, 입력 메시지의 샘플링에서 그 특징이 나타나는 빈도 또는 계수를 비교하는 적절한 계산을 수행하거나 그리고/또는 통계적 데이터를 이용함으로써, 특징의 희귀성(316;예를 들어, 특징의 발생이 충분히 빈번하지 않음)이 판정될 수 있다. 실제로, 흔치 않은 IP 어드레스(300)는 이메일을 전달하는데 사용 중인 다이얼-업 라인(dial-up line)의 일례일 수 있는데, 이는스패머들에 의해 종종 사용되는 전술이다. 스패머들은 그들의 실체 및/또는 위치를 자주 수정하는 경향이 있다. 따라서, 특징이 평범하거나 평범하지 않다는 사실은 유용한 정보일 수 있다. 따라서, 특징의 희귀성(316)은 기계 학습 시스템의 특징 및/또는 하나 이상의 리스트(예를 들어, 희귀한 특징 리스트)에 대한 일부로서 사용될 수 있다.

도 4는, 예를 들어, b.x.com과 같은 FQDN(400)의 예시적 특징 분해를 도시한다. FQDN(400)은, 예를 들어, HELO 필드(예를 들어, 발신자의 주장된 FQDN)로부터 추출될 수 있으며, 통상적으로 호스트 네임(402) 및 도메인 네임(404)을 구비한다. 본 예에 따르면 "b"인 호스트 네임(402)은 특정한 컴퓨터를 의미한다. 도메인 네임(404)은 인터넷상의 하나 이상의 기계 또는 기계들의 그룹을 의미한다. 본 예에서는, "x.com"이 도메인 네임(404)을 나타낸다. FQDN(400)의 계층적 분해는 406으로 표시된다. 특히, B.X.COM(408)(전체 FQDN;400)은 X.COM(410;부분적 FQDN)으로 분해될 수 있고, 이는 다시 COM(412;부분적 FQDN)으로 분해될 수 있으며, 그에 따라, 각각의 부분적 FQDN은 특징으로 이용될 수 있다.

수신된-발신 정보와 같은 일부 특징들은 주로 IP 어드레스로서 존재한다. 따라서, 새로운 IP 어드레스를 획득하는 것은 비교적 어렵지만 새로운 호스트 네임과 도메인 네임을 생성하기는 비교적 용이하기 때문에, FQDN(400)을 (도 3에 나타낸 바와 같은) 추가적 특징으로 분해될 수 있는 IP 어드레스(300)로 변경하는 것이 유용할 수 있다.

유감스럽게도, 도메인의 소유자는 외관상으로 상이한 기계 모두를 동일한 장소에 매핑할 수 있다. 예를 들어, "a.x.com"이라고 명명된 기계의 소유자는 "x.com"의 동일한 소유자일 수 있는 "b.x.com"의 소유자와 동일할 수 있다. 따라서, 스패머는 용이하게, 종래의 필터로 하여금 메시지가 도메인(404;"x.com") 대신에 FQDN(400;"b.x.com")로부터 온 것이라고 믿도록 잘못 유도함으로써, 실제로 도메인(404;"x.com")이 그 메시지를 스팸 또는 스팸일 수 있다고 지시한 경우에도 그 메시지가 스팸 필터를 통과하게 할 수 있다. 따라서, 메시지의 발신지 및/또는 목적지 정보를 추출할 경우, 어드레스를 단순히 도메인 네임(404)으로 분해하는 것이 유용할 수 있다. 다른 방법으로 또는 부가적으로, 전체 FQDN(400)이 특징으로 추출될 수도 있다.

일부의 경우, 모제어 시스템과 같은 부가적 리소스가 이용가능하다. 이들 리소스는 종종 호스트 네임 및/또는 URL에 포르노 또는 폭력과 같은 "타입" 또는 품질 평가를 할당할 수 있다. 추출된 특징은 이러한 리소스를 사용하여 추가적으로 분류될 수 있다. 특징의 특징 타입(414)은 필터와 관련하여 향상된 스팸을 구성 및/또는 트레이닝하는 것에 관한 부가적인 특징으로 사용될 수 있다. 다른 방법으로, 이전에 식별된 상이한 특징 타입에 대응되는 리스트가 생성될 수 있다. 특징 타입(414)은 메시지의 일반적인 주제를 식별하는 섹스 또는 포르노 관련 특징, 인종 및/또는 혐오적 표현과 관련된 특징, 육체적 향상 특징, 수입 또는 경제적 해결 특징, 집-구매 특징 등을 포함할 수 있지만, 이에 한정되는 것은 아니다.

마지막으로, 특징(316) 또는 특징 타입의 희소성(상기 도 3 참조)은 도 3에서 상술한 바와 같이 또 하나의 특징이 될 수 있다. 예를 들어,FQDN(400)("b.x.com")으로부터의 호스트 네임(402;"B")과 같이 메시지로부터 추출된 특징은 특징 타입:포르노 소재의 평범한 예일 수 있다. 따라서, 이 특징이 메시지로부터 추출된 다음 포르노 소재의 특징 리스트에서 발견될 경우, 메시지는 스팸일 수 있거나 모든 연령에 대해 부적당/부적절하거나 성인 컨텐츠(예를 들어, 성인 등급) 등을 구성한다는 결론을 내릴 수 있다. 따라서, 각각의 리스트는 그러한 특정 타입에 대한 보다 평범한 특징을 구비할 수 있다. 다른 방법으로, 대응되는 IP 어드레스는 일반적으로 스팸 메시지에서 흔히 발견할 수 있으므로 스팸의 공통적인 특징으로 지정될 수 있다. 또한, 특징의 평범성 및/또는 희귀성은 기계 학습 또는 다른 규칙-기반 시스템에 대한 개별적인 특징으로 이용될 수 있다.

도 5는 사용자 네임(502)과 같은 수개의 부가적인 특징 뿐만 아니라 FQDN(400)을 포함하는 이메일 어드레스(500;a@b.x.com)의 예시적인 특징 분해를 도시한다. 이메일 어드레스(500)는 메시지 바디에서의 임의의 mailto: 링크(예를 들어, mailto: 링크는 클릭될 경우 특정 어드레스로의 메일을 생성하는 특수한 종류의 링크이다) 및, 이용가능하다면, SMTP 프로토콜에 사용되는 MAIL FROM 명령으로부터 뿐만 아니라 메시지의 발신 필드(From field), cc(카본 카피) 필드, 및 답장 필드(reply-to field)로부터 추출될 수 있다. 이메일 어드레스(500)는 메시지의 바디에 텍스트로서 삽입될 수 있다. 일부의 경우, 메시지 내용은, 메시지에 응답할 경우 '전체 응답(reply all)' 기능을 사용하기 위해 수신자에게 다이렉트될 수 있다. 이러한 경우, cc 필드의 어드레스 및/또는 (하나 이상의 수신자가 열거되어 있다면) '수신(to)' 필드에 포함된 어드레스의 적어도 일부에도 답장될 수 있다.따라서, 이들 어드레스 각각은 스패머 식별 및 방지를 용이하게 하기 위한 하나 이상의 특징으로서 추출될 수 있다.

이메일 어드레스(500;a@b.x.com)는 다양한 요소 또는 서브파트로 분해될 수 있으며, 이들 요소는 특징으로 추출되어 이용될 수도 있다. 특히, 이메일 어드레스는 사용자 네임(502) 및 부가적인 특징으로 더 분해될 수 있는 FQDN(504;예를 들어, 도 4의 FQDN 참조)을 구비한다. 사용, 인식, 및 재수집의 용이성과 같은 몇가지 실용적인 이유에서, 이메일 어드레스는 일반적으로 IP 어드레스 보다는 FQDN을 사용해 기록된다.

현재의 예에서, 'a@b.x.com'은 사용자 네임(502;"a")을 구비한다. 따라서, "a"는 하나의 특징으로 추출될 수 있다. 마찬가지로, FQDN(504;"b.x.com")은 이메일 어드레스로부터 하나 이상의 다른 특징으로서 추출될 수 있다. 이메일 어드레스(504)의 FQDN(504) 부분은, 상기 도 4에서 보다 상세히 설명한 특징 타입(414)의 판정을 용이하게 하기 위해 모제어 필터를 통과할 수 있다. 따라서, 특징 타입은 이메일 어드레스(500)의 FQDN 부분에 관련되기 때문에 부가적인 특징으로 사용될 수 있다.

이메일 어드레스 이외에, 스패머들은 종종 URL을 통해 접촉된다. 도 6은 본 발명의 일 태양에 따른 예시적 URL(600;예를 들어, x.y.com/a/b/c)과 함께 그로부터 추출된 복수개 특징들을 도시한다. URL(600)은 메시지의 바디에 텍스트로서 그리고/또는 메시지의 바디에 이미지로서 삽입될 수 있다. 예를 들어, 스팸 메시지는 웹 사이트로의 포인터를 포함함으로써 수신자를 스패머의 웹페이지 또는 관련사이트에 다이렉트한다.

URL은 IP 어드레스와 유사한 방식으로 명료화될 수 있다. 처음에, 예를 들어, http://, https://, ftp://, telnet://과 같은 임의의 접두사(예를 들어, 서비스 네임)가 URL(600)을 명료화하기 전에 제거될 수 있다. 또한, URL의 중간에 "@" 심볼(예를 들어, 육진 표기의 %40)이 나타나면, 접두사(예를 들어, http://)와 "@" 심볼 사이의 것도 URL(400)을 표준화하기 전에 제거될 수 있다. 접두사와 "@" 심볼간의 텍스트를 통합하는 것은, 수신자가 진짜 페이지 위치(true page location)로 다이렉트 중인 것으로 메시지 수신자를 혼동시키는 스패머들의 다른 전술 또는 속임수의 형태일 수 있다.

예를 들어, http://www.amazon.com@121.122.123.124/info.htm은 메시지 수신자에게 이 페이지가 www.amazon.com에 위치하는 것처럼 보인다. 따라서, 수신자는 링크를 그리고 더 중요하게는, 메시지 발신자를 더 신뢰하게 될 수 있다. 한편, 진짜 페이지 위치는 실제로 스팸 관련 웹페이지에 대응될 수 있는 "121.122.123.124"이다. 그러나, 일부 경우에, 적합한 발신자는 자동적인 로그인을 용이하게 하기 위해 URL(400)의 이 부분에 로그인 네임 및 패스워드와 같은 인증 정보를 포함할 수 있다.

표준화되고 명료화되면, URL(600)은 본질적으로 x.y.com/a/b/c로 표현될 수 있는데, 이 경우, x.y.com(630)은 기계(FQDN)의 이름이고 a/b/c(예를 들어, 접두사(들))는 그 기계상의 파일의 위치이다. x.y.com/a/b/c(600)이 스패머(들)를 식별하면, x.y.com/a/b(610) 및 x.y.com/a(620) 또한 동일한 스패머(들) 또는 관련스패머(들)를 식별할 가능성이 크다. 따라서, URL(600)의 끝부분 또는 경로는, 예를 들어, 기계 학습 시스템 또는 리스트에 대한 부가적인 특징을 획득하기 위해 단번에 제거될 수 있다. 이로 인해, 스패머들은, 패턴을 인식하지 못하는 방식으로 모든 사람들을 실제로 그들에게 유도하는 상이한 많은 위치들을 생성하기가 더 어려워진다.

접미사가 제거되면, FQDN(630)은 도 4에서 상술한 바와 같은 부가적인 특징을 획득하기 위해 더 분해될 수 있다. 또한, FQDN(630)은 상기 도 3에 나타낸 바와 같은 IP 어드레스로 변경될 수 있다. 따라서, IP 어드레스에 관한 다양한 특징들도 특징으로 사용될 수 있다.

일부 URL은 nnn.nnn.nnn.nnn/a/b/c와 같이 FQDN 대신에 IP 어드레스(예를 들어, 마침표로 구분된 10진수 포맷)로 기입된다. 접미사는 "c"로 시작하는 연속적인 순서로 제거될 수 있으며, 각 단계에서, 얻어진 (부분적) URL은 특징으로 사용될 수 있다(예를 들어, nnn.nnn.nnn.nnn/a/b: nnn.nnn.nnn.nnn/a: 및 nnn.nnn.nnn.nnn 모두는 마침표로 구분된 10진수 포맷의 URL로부터 추출될 수 있는 특징이다). 그에 따라, (예를 들어, 접미사 및 접두사가 없는) IP 어드레스가 특징으로 사용될 수 있다. 그 다음, 이것은 네트블록에 매핑될 수 있다. 네트블록을 정할 수 없으면, IP 어드레스의 처음의 1개, 2개,..., 및 최대한 처음의 31개 비트 각각을 개별적인 특징으로 사용해 다수의 추측이 수행될 수 있다(도 3 참조).

마침표로 구분된 10진수 포맷 이외에, IP 어드레스는 2배 워드(double word) 포맷(예를 들어, 베이스 10의 16 비트 각각에 대한 2개의 2진 단어), 8진 포맷(예를 들어, 베이스 8), 및 16진 포맷(예를 들어, 베이스 16)으로 표현될 수 있다. 실제로, 스패머들은, 예를 들어, %nn 표기법(여기서 nn은 한쌍의 6진수)을 사용해 도메임 네임을 부호화함으로써 IP 어드레스, URL, MAILTO 링크, 및/또는 FQDN을 불명료하게 할 수 있다.

일부 URL은 사용자를 혼란스럽게 하거나 속이는데 이용될 수 있는 리다이렉터(redirectors)를 포함할 수 있다. 리다이렉터는 브라우저 자체를 다른 웹페이지로 리다이렉트하도록 지시하는, URL의 IP 어드레스에서 "?"에 수반되는 파라미터 또는 파라미터의 세트이다. 예를 들어, URL은 "www.intendedpage.com?www.actualpage.com"과 같이 나타나는데, 이 경우, 브라우저는 실제로 "www.actualpage.com"을 지시하며 기대되는 "www.intendedpage.com" 페이지 대신에 그 페이지를 로딩한다. 따라서, URL 내에 포함된 파라미터도 특징으로서의 추출을 위해 고려될 수 있다.

본 발명에 따른 다양한 방법을 일련의 액트(acts)를 통해 설명한다. 본 발명은 액트의 순서에 의해 한정되지 않으며, 본 발명에 따른 일부 액트들은 상이한 순서로 그리고/또는 여기에 나타내고 설명한 다른 액트와 동시에 발생할 수 있다는 것을 알 수 있다. 예를 들어, 당업자는, 방법이 상태도와 같이 일련의 상호 관계를 가진 상태 또는 이벤트로서 다르게 표시될 수 있다는 것을 알 수 있다. 또한, 도시되어 있는 모든 액트가 본 발명에 따른 방법을 구현하는데 필요한 것은 아니다.

도 7을 참조하면, 본 발명의 일 태양에 따른, 필터의 트레이닝을 용이하게하는 예시적인 프로세스(700)의 흐름도가 도시되어 있다. 프로세스(700)는 단계 710에서 메시지(예를 들어, 하나 이상의 메시지)를 수신하는 것으로 시작할 수 있다. 메시지(들)는, 예를 들어, 기존의 필터(예를 들어, 스팸 필터)가, 필터에 의해 이전에 학습된 한 세트의 기준들 중 적어도 일부에 기초하여, 메시지가 스팸일 것 같은지 또는 스팸일 것 같지 않은지를 분류할 수 있는 서버에 의해 수신될 수 있다. 메시지는, 단계 720에서, 그로부터 하나 이상의 특징을 추출하기 위해 분해될 수 있다. 특징의 추출은 (아래 도 11의) 725에서 보다 상세히 설명한다. 특징의 예로는 메시지 바디의 텍스트 뿐만 아니라 수신된 발신 필드, 답장 필드, cc 필드, mailto 필드, MAIL FROM SMTP 명령, HELO 필드, 텍스트 또는 이미지로서 삽입된 URL 어드레스, 및/또는 유료 전화번호(예를 들어, 지역으로 매핑하는 지역 번호)에 위치하는 정보(예를 들어, 발신자의 IP 어드레스)를 들 수 있지만, 이에 한정되는 것은 아니다.

메시지의 분류(예를 들어, 스팸 또는 비-스팸) 뿐만 아니라 추출된 (그리고/또는 표준화된) 특징은, 730에서, 트레이닝 세트에 부가될 수 있다. 740에서는, 다른 모든 입력 메시지가 상기 단계(예를 들어, 710, 720 및 730)에 따라 프로세싱될 때까지, 실질적으로 다른 모든 입력 메시지에 대해 상기 단계가 반복될 수 있다. 750에서는, 트레이닝 세트(들)로부터 유용해 보이는 특징들 또는 가장 유용한 특징들이 선택될 수 있다. 이렇게 선택된 특징들은, 예를 들어, 760에서 기계 학습 알고리즘에 의해, 기계 학습 필터와 같은 필터를 트레이닝하는데 이용될 수 있다.

일단 트레이닝되면, 기계 학습 필터는 도 8의 예시적 방법(800)에 의해 설명한 바와 같이 스팸 검출을 용이하게 하는데 이용될 수 있다. 본 방법(800)은 810에서 메시지를 수신하는 것으로 시작할 수 있다. 820에서는, 도 11을 참조하여 후술하는 바와 같이 메시지로부터 하나 이상의 특징들이 추출된다. 830에서는, 추출된 특징들이, 예를 들어, 기계 학습 시스템에 의해 트레이닝된 필터를 통과한다. 그에 따라, "스팸", "비-스팸", 또는 메스지가 스팸일 확률과 같은 판정이 기계 학습 시스템으로부터 획득된다. 메시지의 내용에 관한 판정이 획득되면, 적절한 동작이 취해질 수 있다. 동작의 타입으로는 메시지 삭제, 특수 폴더로의 메시지 이동, 메시지 보증, 및 수신자에 대한 메시지로의 액세스 허용을 들 수 있지만, 이에 한정되는 것은 아니다.

다른 방법으로, 메시지로부터 추출된 특징을 이용하여 리스트-기반의 활동들을 수행할 수 있다. 도 9를 참조하면, 수신된 메시지에서 추출된 특징 및 스팸 또는 비-스팸(또는 스팸일 것 같거나 비-스팸일 것 같은)으로 분류되는 이들의 횟수(occurrence) 중 적어도 일부에 기초하여 리스트를 구성하고 채우는 예시적 프로세스(900)의 흐름도가 도시되어 있다. 프로세스(900)는 910에서 메시지를 수신하는 것으로 시작한다. 그에 따라, 예를 들어, 메시지 발신자의 IP 어드레스와 같이, 관심있는 어떤 특징이 920에서 추출된다. 가끔 메시지가 수신된 후, 메시지는, 예를 들어, 기존 필터에 의해 스팸 또는 비-스팸으로 분류될 수 있다. 930에서, 특징은 메시지의 분류(예를 들어, 스팸 또는 비-스팸)에 따라 점진적으로 계수될 수 있다. 실질적으로 모든 메시지가 프로세싱될 때까지 940에서 이것(예를 들어, 910, 920 및 930)이 반복될 수 있다. 그 후, 950에서, 특징들의 리스트가 생성될 수 있다. 예를 들어, 90% 양호한(예를 들어, 시간의 90%가 비-스팸이거나 입력 메시지의 90%가 비-스팸인) 발신자 IP 어드레스에 대해 하나의 리스트가 생성될 수 있다. 마찬가지로, 90%가 불량한(스팸인) 발신자 IP 어드레스에 대해 또 하나의 리스트가 생성될 수 있다. 유사한 방식으로 다른 특징에 대한 다른 리스트가 생성될 수 있다.

이들 리스트는 동적일 수 있다는 것을 알아야 한다. 즉, 이들은 새로운 메시지의 부가적인 그룹이 프로세싱됨에 따라 업데이트될 수 있다. 따라서, 일부 스패머들은 처음에 양호한 메일(예를 들어, 수신자 뿐만 아니라 필터의 "신용"을 얻기 위해)을 발신한 다음 실질적으로는 스팸만을 발신하기 시작하는 것이 대부분이기 때문에, 발신자의 IP 어드레스가 처음에는 양호한 리스트에서 발견되고, 약간의 시간이 지난 후, 불량한 리스트에서 발견될 수 있다.

이들 리스트는 다양한 방법으로 이용될 수 있다. 예를 들어, 이들은 기계 학습 시스템에 의해 필터를 트레이닝하는데 사용하기 위한 트레이닝 세트를 생성하는데 사용될 수 있다. 이것이 도 10에서 후술하는 예시적 프로세스(1000)에 도시되어 있다. 도 10에 따르면, 프로세스(1000)는 1010에서 메시지를 수신하는 것으로 시작될 수 있다. 메시지는, 예를 들어, 스팸 또는 비-스팸으로 분류될 수 있다. 1020에서, 발신자의 IP 어드레스를 포함하지만 그에 한정되지 않는 특징들이 메시지로부터 추출될 수 있다. 1030에서, 추출된 특징과 메시지의 분류는 기계 학습 시스템을 트레이닝하는데 후속적으로 사용되는 트레이닝 세트에 부가된다.

그에 따라, 1040에서는, 발신자 IP 어드레스가 속하는 특정 리스트에 대응되는 특수한 특징이 트레이닝 세트에 포함된다. 예를 들어, 발신자 IP 어드레스가 "90% 양호한" 리스트에 속하면, 트레이닝 세트에 부가되는 특징은 "90% 양호한 리스트"일 것이다. 1050에서는, 선행하는 단계(예를 들어, 1010, 1020, 1030 및 1040)가 실질적으로 모든 입력 메시지를 프로세싱하기 위해 반복될 수 있다. 필터 트레이닝 목적을 위해 다른 것들보다 일부 특징들이 보다 유용할 수 있으므로, 1060에서는 사용자 선호도에 부분적으로 기초하여 가장 유용한 특징 또는 특징들이 선택되어, 기계 학습 알고리즘을 사용해 스팸 필터와 같은 필터(들)를 트레이닝하는데 이용된다.

또한, 예를 들어, IP 어드레스의 동적 리스트가 테스트 메시지, 새로운 메시지, 및/또는 의심스러운 메시지와의 비교를 위해 구성될 수 있다. 그러나, 이 경우, IP 어드레스 자체는 특징이 아니다. 그 대신, IP 어드레스의 품질이 특징이다. 다른 방법으로 또는 부가적으로, 리스트가 다른 방법으로 이용될 수 있다. 실제로, 예를 들어, 의심스러운 IP 어드레스의 리스트가 발신자를 불량으로 플래그하는데 사용되고, 그에 따라, 그들의 메시지를 의심스럽게 처리할 수 있다.

도 11을 참조하면, 도 7 내지 도 10에서 각기 상술한 프로세스들(700, 800, 900 및 1000)과 관련하여 메시지로부터 특징을 추출하는 예시적 방법(1100)의 흐름도가 도시되어 있다. 본 방법(1100)은 1110에서 수신된-발신 IP 어드레스 또는 그 일부가 추출되어 표준화되는 것으로 시작할 수 있다. 또한 1110에서, IP 어드레스는 수신된-발신 IP 어드레스로부터 부가적인 특징을 추출하기 위해 비트식 프로세싱(예를 들어, 도 3에서 설명한 바와 같이, 처음의 1개 비트, 처음의 2개 비트, ..., 최대 처음의 31개 비트)을 경험할 수 있다. 또한, 발신자의 주장된 호스트 네임도 1110에서 추출될 수 있다. 표준화되어 있는 수신된-발신 IP 어드레스 및 발신자 호스트 네임 특징이 이제는 기계 학습 시스템 또는 관련된 트레이닝 시스템의 특징으로 사용될 수 있다.

선택적으로, 1120에서는, "발신" 라인의 내용을 추출 및/또는 표준화한 다음 특징으로 이용할 수 있다. 1130에서는, "MAIL FROM SMTP" 명령의 내용도 특징으로서의 사용을 위해 마찬가지로 추출 및/또는 표준화될 수 있다.

그 다음, 본 방법(1100)은 계속해서 메시지에 포함되어 있을 수 있는 가능한 다른 특징들을 찾는다. 예를 들어, (필요하다면) 1140에서는 응답 필드의 내용을 선택적으로 추출하고 표준화할 수 있다. 1150에서는, cc 필드의 내용이 하나 이상의 특징으로서의 사용을 위해 선택적으로 추출 및/또는 표준화될 수 있다. 1160에서는, 유료 전화번호가 메시지의 바디로부터 선택적으로 추출되어 특징으로서 할당될 수 있다. 전화번호의 지역 번호 및/또는 처음 3개 숫자는 스패머의 위치를 매핑하는데 사용될 수 있으므로, 비-전화번호가 스패머를 식별하는데 유용할 수도 있다. 메시지에 하나 이상의 유료 전화번호가 존재하면, 1160에서, 각각의 번호가 추출되어 개별적인 특징으로 사용될 수 있다.

마찬가지로, 하나 이상의 URL 및/또는 MAILTO 링크, 또는 그 일부가 각각 1170 및 1180에서 선택적으로 추출 및/또는 표준화될 수 있다. 특히, URL은 경로(예를 들어, URL의 파일 네임 부분) 제거(pathway stripping)를 경험할 수 있는데,URL의 FQDN 부분의 끝에 부착된 하나 이상의 접미사가 제거될 수 있다. 이로 인해, 경로의 접미사 수에 따라, 하나 이상의 부분적 URL이 발생할 수 있다. 각각의 부분적 URL은 본 발명에 따른 개별적인 특징으로 이용될 수 있다.

본 방법(1100)은 적합한 메시지보다 스팸 메시지에서 더 많이 발견될 수 있거나 또는 그 반대인 (예를 들어, 이전에 선택되거나 판정된) 키워드 및/또는 문구 뿐만 아니라 다른 이메일 어드레스를 찾기 위해 메시지의 바디에 대한 스캔을 계속할 수 있다. 각각의 단어 또는 문구가 추출되어 기계 학습 시스템에 대한 특징으로서 또는 리스트의 요소로서, 또는 그 양자로서 사용될 수 있다.

앞서 논의한 바와 같이, 인터넷을 통해 송신된 메시지는 관련된 2개의 서버를 이용해 서버에서 서버로 송신된다. 방화벽 및 관련된 네트워크 아키텍처의 존재로 인해 메시지와 접촉하는 서버의 수가 증가한다. 메시지가 서버에서 서버로 전달됨에 따라, 각 서버는 자신의 IP 어드레스를 수신된-발신 필드에 프리펜드한다. 또한, 각각의 서버는 앞서 프리펜드되어 있는 임의의 수신된-발신 어드레스를 수정할 수 있는 능력을 가진다. 유감스럽게도, 스패머들은 이러한 능력을 이용할 수 있으며 그들의 위치 및/또는 실체을 위장하여 수신자를 메시지의 소스로 잘못 유도하기 위해 수신된-발신 필드에 페이크 어드레스를 입력할 수 있다.

도 12는 입력 메시지의 수신된-발신 라인에 프리펜드되어 있는 적합한 서버 IP 어드레스와 페이크(예를 들어, 스패머) 서버 IP 어드레스를 구별하기 위한 예시적 프로세스(1200)의 흐름도를 도시한다. 프리펜드되어 있는 수신된-발신 어드레스는 이들이 부가된 순서(예를 들어, 첫번째는 가장 최근에 부가된 것)로 검사될수 있다. 따라서, 사용자는 1210에서 마지막으로 신뢰했던 서버 IP 어드레스를 판정하기 위해 발신 중인 서버 IP 어드레스의 체인을 통해 역추적할 수 있다. 1220에서는, (조직 바로 외부의) 마지막으로 신뢰했던 서버 IP 어드레스가 기계 학습 시스템에 의해 사용되기 위한 특징으로 추출될 수 있다. 마지막으로 신뢰했던 IP 어드레스 이후의 임의의 다른 IP 어드레스는 의심할 수 있거나 신뢰할 수 없는 것으로 간주되어 무시될 수 있지만, (거의) 양호한 IP 어드레스 및 (거의) 불량한 IP 어드레스의 리스트와 비교될 수 있다.

또한, 1230에서는, 발신자의 주장된 FQDN도 발신자가 적합한지 또는 스패머인지의 판정을 용이하게 하기 위해 추출될 수 있다. 보다 구체적으로, 주장된 FQDN은 도메인 분해에 의해 분해되어 하나 이상의 부분적 FQDN을 산출할 수 있다. 예를 들어, 주장된 FQDN이 a.b.c.x.com이라고 가정한다. 이러한 주장된 FQDN은 산출을 위해 b.c.x.com → c.x.com → x.com → com의 방식으로 분해된다. 따라서, 전체 FQDN 뿐만 아니라 각각의 부분적 FQDN 세그먼트는 페이크와 적합한 발신자의 판정을 돕기 위한 개별적인 특징으로 이용될 수 있다.

본 발명은 또한 모제어 시스템을 이용할 수 있다. 모제어 시스템은 적어도 부분적으로 메시지의 내용에 기초하여 메시지를 확인하기(viewing)에 부적합한 것으로 분류하고 부적합한 분류에 대한 이유를 제공할 수 있다. 예를 들어, URL은 (텍스트 또는 이미지-기반의) 클릭가능한 링크로서, 또는 메시지 바디내의 텍스트로서 메시지내에 삽입될 수 있다. 모제어 시스템은 메시지의 적합한 분류를 판정하기 위해 삽입된 URL(들)을 모제어 시스템에 저장되어 있는 하나 이상의 양호 및/또는 불량 URL 리스트와 비교하거나 모제어 분류를 위한 다른 기술을 사용할 수 있다. 그 다음, 이 분류는 기계 학습 시스템이나 특징 리스트상의 부가적인 특징으로, 또는 그 양자로 사용될 수 있다.

도 13에는, 모제어 시스템의 하나 이상의 태양을 본 발명에 통합하는 예시적 프로세스(1300)의 흐름도가 도시되어 있다. 1310에서 한 세트의 메시지를 수신한 후, 1320에서는, URL, mailto 링크, 또는 URL, mailto 링크, 또는 URL의 어떤 부분을 닮은 다른 텍스트를 위해 메시지를 스캔할 수 있다. 1330에서 메시지가 상술한 것 중 어떤 것도 포함하지 않는 것처럼 보이면, 프로세스(1300)는 1310으로 복귀한다. 그러나, 메시지가 이러한 것을 지시하면, 검출된 특성의 적어도 일부는 1340에서 하나 이상의 모제어 시스템으로 전달될 수 있다.

1350에서, 모제어 시스템은 (예를 들어, URL의 FQDN 부분, 이메일 어드레스 등과 같은) URL, mailto 링크, URL 서비스 네임, URL 경로, 및 FQDN의 하나 이상의 데이터베이스를 참고함으로써 mailto 링크, URL, 또는 그 일부를 분류할 수 있다. 예를 들어, 메시지는 포르노, 채무에서 벗어나기, 도박, 및 유사한 다른 소재 중 하나 이상을 보유하는 것으로 분류될 수 있다. 이러한 분류는 1360에서 부가적인 특징으로 추출될 수 있다. 대다수 스팸 메시지의 주제는 이러한 소재를 포함하기 때문에, 모제어 시스템의 통합은, 기계 학습 시스템이 향상된 필터를 트레이닝하고 구성하는데 사용할 수 있는 부가적인 특징을 획득하는데 유용할 수 있다. 혐오스러운 말, 섹스 소재, 총기-폭력, 및 마약-관련 소재를 포함하지만 이에 한정되는 것은 아닌 다른 분류도 존재하는데, 이러한 분류도 특징으로 사용될 수 있다. 스팸 메시지는 이러한 타입의 소재에 관한 주제에 관련되거나 관련되지 않을 수 있지만, 사용자는 여전히 이러한 타입의 메시지를 블로킹하고 싶어한다.

실제로, 상이한 분류가 상이한 정도의 스팸성을 지시할 수 있다. 예를 들어, 혐오스러운 말로 분류된 메시지가 (예를 들어, 스팸이 아닐 가능성이 높기 때문에) 실질적으로 비-스팸성을 나타낼 수 있다. 반대로, 성적인 내용/소재로 분류된 메시지가 비교적 높은 정도의 스팸성(예를 들어, 메시지가 스팸일 ~90% 확실성)을 반영할 수 있다. 기계 학습 시스템은 스팸성의 정도를 설명하는 필터를 구성할 수 있다. 따라서, 필터는 사용자 기호를 만족시키기 위해 맞춤화 및 개별화될 수 있다.

상술한 바와 같이, 무수한 특징들이 메시지로부터 추출되어 기계 학습 시스템에 의한 트레이닝 데이터로 또는 양호 및 불량 특징을 식별하는 리스트(들)상의 요소로 사용될 수 있다. 특징 자체 뿐만 아니라 특징의 품질도 스팸의 검출 및 방지에 유용할 수 있다. 예를 들어, 하나의 특징이 발신자의 이메일 어드레스라고 가정한다. 이메일 어드레스는 하나의 특징으로 사용될 수 있고 새로운 입력 메시지에 나타나는 그 이메일 어드레스의 빈도 또는 계수(frequency or count)는 다른 특징으로 사용될 수 있다.

도 14는 (예를 들어, 추출된 특징의 평범성 또는 희귀성에 관련된) 이러한 타입의 특징을 추출하는 예시적 프로세스(1400)의 흐름도를 도시한다. 스패머들은 종종 그들의 위치를 재빨리 변경하고자 하며, 그 결과, 사용자들은, 예를 들어, 이전에 보지 못한 어드레스로부터 메일을 발신하거나 이전에 인지하지 못한 기계를포인팅하는 URL을 가진 메일을 발신한다. 따라서, 각 타입에 대한 특징들의 리스트가 유지되고 있음을 가정하여, 추출된 각각의 특징 타입(예를 들어, 수신된-발신 IP 어드레스, URL, 이메일 어드레스, 도메인 네임 등)에 대해, 소정 특징의 발생율, 빈도, 또는 계수가 추적될 수 있다.

프로세스(1400)는 1410에서 입력 메시지로부터 하나 이상의 특징들을 추출하고 그리고/또는 그 특징(들)을 표준화하는 것으로 시작할 수 있다. 그 다음, 1420에서, 특징은 이전의 복수개 메시지에서 추출되거나 관찰된 하나 이상의 특징 리스트와 비교될 수 있다. 그 다음, 프로세스(1400)는 현재의 특징이 평범한지를 판정할 수 있다. 현재 및/또는 이전의 입력 메시지에 나타나는 특징의 계산된 빈도에 의해 특징의 평범성이 판정될 수 있다. 1430에서 메시지가 평범하지 않거나 충분히 평범하지 않으면 (예를 들어, 평범성 임계치를 만족시키는데 실패하면), 1440에서 그 희귀성이 부가적인 특징으로 사용될 수 있다. 그렇지 않으면, 특징의 평범성 또한 1450에서 특징으로 사용될 수 있다.

상술한 본 발명에 따르면, 다음의 의사-코드를 이용하여 본 발명의 하나 이상의 태양을 수행할 수 있다. 변수명들은 모두 대문자로 표시된다. 부가적인 주석문(additional note)으로서, 2개의 함수, add-machine-features 및 add-ip-features가 의사-코드의 끝에 정의되어 있다. 변수 MACHINE의 내용과 연결되어 있는(concatenated) 단어 "machine"과 연결되어 있는 변수 PREFIX의 내용으로 이루어진 스트링을 표시하기 위해, "PREFIX-machine-MACHINE"과 같은 표기를 사용한다. 마지막으로, 함수 add-to-feature-list는 특징을 현재의 메시지와 관련된 특징 리스트에 기입한다. 예시적인 의사-코드는 다음과 같다.

본 발명의 다양한 태양에 대한 부가적인 내용을 제공하기 위해, 도 15 및 다음의 논의는 본 발명의 다양한 태양이 구현될 수 있는 적당한 동작 환경(1500)에 대한 간략하고 일반적인 설명을 제공하고자 한다. 하나 이상의 컴퓨터 또는 다른 장치에 의해 실행되는 프로그램 모듈과 같은 컴퓨터-실행가능 명령의 일반적인 문맥으로 본 발명을 설명하지만, 당업자는 다른 프로그램 모듈의 조합 및/또는 하드웨어와 소프트웨어의 조합으로도 본 발명이 구현될 수 있다는 것을 알 수 있다.

그러나, 일반적으로, 프로그램 모듈은 특정 태스크를 수행하거나 특정 데이터 타입을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 동작 환경(1510)은 적당한 동작 환경의 일례일 뿐이며 본 발명의 사용 또는 기능성 범위를 한정하려는 것이 아니다. 본 발명에 사용하기에 적당할 수 있는 널리 공지되어 있는 다른 컴퓨터 시스템, 환경, 및/또는 구성으로는 퍼스널 컴퓨터, 핸드-헬드 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 프로그램가능한 상용 전자장치, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기 시스템 또는 장치를 포함하는 분산 컴퓨팅 환경 등을 들 수 있지만, 이에 한정되는 것은 아니다.

도 15를 참조하면, 본 발명의 다양한 태양을 구현하기 위한 예시적 환경(1510)은 컴퓨터(1512)를 포함한다. 컴퓨터(1512)는 프로세싱 유닛(1514), 시스템 메모리(1516), 및 시스템 버스(1518)를 포함한다. 시스템 버스(1518)는 시스템 메모리(1516)를 포함하지만 그에 한정되는 것은 아닌 시스템 컴포넌트들을 프로세싱 유닛(1514)에 결합시킨다. 프로세싱 유닛(1514)은 이용가능한 다양한 프로세서 중 하나일 수 있다. 듀얼 마이크로프로세서 및 다른 멀티프로세서 아키텍처 또한 프로세싱 유닛(1514)으로 이용될 수 있다.

시스템 버스(1518)는 한정이 아닌 일례로써, 11-비트 버스, ISA(Industry Standard Architecture), MCA(Micro Channel Architecture), EISA(Enhanced ISA), IDE(Intelligent Drive Electronics), VLB(VESA 로컬 버스), PCI(Peripheral Component Interconnect), USB(Universal Serial Bus), AGP(Advanced Graphics Port), PCMCIA(Personal Computer Memory Card International Association bus), 및 SCSI(Small Computer Systems Interface)를 포함하는 이용가능한 다양한 버스 아키텍처 중 임의의 것을 사용하는 메모리 버스 또는 메모리 컨트롤러, 주변장치 버스 또는 외부 버스, 및/또는 로컬 버스를 포함하는 여러가지 타입의 버스 구조 중 어느 하나일 수 있다.

시스템 메모리(1516)는 휘발성 메모리(1520) 및 비휘발성 메모리(1522)를 포함한다. 예를 들어, 스타트-업 동안에, 컴퓨터(1512)내의 요소들 사이에서 정보 전달을 돕는 기본적 루틴을 보유하는 기본적 입/출력 시스템(BIOS)은 비휘발성 메모리(1522)에 저장된다. 한정이 아닌 일례로써, 비휘발성 메모리(1522)는 ROM(read only memory), PROM(programmable ROM), EPROM(electrically programmable ROM), EEPROM(electrically erasable ROM), 또는 플래시 메모리를 포함할 수 있다. 휘발성 메모리(1520)는 외부 캐시 메모리로 동작하는 RAM(random access memory)을 포함한다. 한정이 아닌 일례로써, RAM은 SRAM(synchronous RAM), DRAM(dynamic RAM), SDRAM(synchronous DRAM), DDR SDRAM(double data rateSDRAM), ESDRAM(enhanced SDRAM), SLDRAM(Synchlink DRAM), 및 DRRAM(direct Rambus RAM)과 같은 많은 형태로 이용가능하다.

컴퓨터(1512)는 또한 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체를 포함한다. 도 15는, 예를 들어, 디스크 저장 장치(1524)를 도시한다. 디스크 저장 장치(1524)는 자기 디스크 드라이브, 플로피 디스크 드라이브, 테이프 드라이브, 재즈 드라이브, 짚 드라이브, LS-100 드라이브, 플래시 메모리 카드, 또는 메모리 스틱과 같은 장치를 포함하지만, 이에 한정되는 것은 아니다. 또한, 디스크 저장 장치(1524)는 개별적으로 또는, CD-ROM(compact disk ROM device), CD-R 드라이브(CD recordable drive), CD-RW 드라이브(CD rewritable drive) 또는 DVD-ROM(digital versatile disk ROM drive)를 포함하지만 그에 한정되는 것은 아닌 다른 저장 매체와 조합으로 저장 매체를 포함할 수 있다. 디스크 저장 장치(1524)의 시스템 버스(1518)로의 접속을 용이하게 하기 위해, 통상적으로 분리형 또는 비분리형 인터페이스가 인터페이스(1526)로서 사용된다.

도 15는 적당한 동작 환경(1510)에서 설명된 기본적인 컴퓨터 리소스와 사용자간의 매개자로서 동작하는 소프트웨어를 설명한다는 것을 알 수 있다. 이러한 소프트웨어는 오퍼레이팅 시스템(1528)을 포함한다. 디스크 저장 장치(1524)상에 저장될 수 있는 오퍼레이팅 시스템(1528)은 컴퓨터 시스템(1512)의 리소스를 제어하고 할당하는데 사용된다. 시스템 애플리케이션(1530)은 시스템 메모리(1516) 또는 디스크 저장 장치(1524)에 저장되어 있는 프로그램 모듈(1532) 및 프로그램 데이터(1534)를 통해 오퍼레이팅 시스템(1528)에 의한 리소스 관리를 이용한다. 다양한 오퍼레이팅 시스템 또는 오퍼레이팅 시스템의 조합으로 본 발명이 구현될 수 있다는 것을 알 수 있다.

사용자는 입력 장치(들)(1536)를 통해 컴퓨터(1512)로 명령 또는 정보를 입력한다. 입력 장치(1536)는 마우스, 트랙볼, 철필, 터치패드, 키보드, 마이크로폰, 조이스틱, 게임 패드, 위성 안테나, 스캐너, TV 튜너 카드, 디지털 카메라, 디지털 비디오 카메라, 웹 카메라 등과 같은 포인팅 장치를 포함하지만, 이에 한정되는 것은 아니다. 이들 및 다른 입력 장치가 인터페이스 포트(들)(1538)를 매개로 시스템 버스(1518)를 통해 프로세싱 유닛(1514)에 접속된다. 인터페이스 포트(들)(1538)는, 예를 들어, 직렬 포트, 병렬 포트, 게임 포트, 및 USB를 포함한다. 출력 장치(들)(1540)는 입력 장치(들)(1536)와 동일한 타입의 일부 포트를 사용한다. 따라서, 예를 들어, USB 포트가 컴퓨터(1512)에 입력을 제공하는데, 그리고, 컴퓨터(1512)로부터의 정보를 출력 장치(1540)에 출력하는데 사용될 수 있다. 다른 출력 장치들(1540) 사이에 특수한 어댑터를 요하는 모니터, 스피커, 및 프린터와 같은 몇가지 출력 장치(1540)가 존재한다는 것을 나타내기 위해 출력 어댑터(1542)가 제공된다. 출력 어댑터(1542)는, 한정이 아닌 일례로써, 출력 장치(1540)와 시스템 버스(1518) 사이에 접속 수단을 제공하는 비디오 및 사운드 카드를 포함한다. 다른 장치들 및/또는 장치들의 시스템이 원격 컴퓨터(들)(1544)와 같은 입력과 출력 기능 모두를 제공한다는 것을 알 수 있다.

컴퓨터(1512)는 원격 컴퓨터(들)(1544)와 같은 하나 이상의 원격 컴퓨터로의 논리적 접속을 사용하는 네트워크 환경에서 동작할 수 있다. 원격컴퓨터(들)(1544)은 퍼스널 컴퓨터, 서버, 라우터, 네트워크 PC, 워크스테이션, 마이크로프로세서 기반의 제품, 피어 장치 또는 다른 평범한 네트워크 노드 등일 수 있으며, 통상적으로 컴퓨터(1512)와 관련하여 설명한 많은 요소들 또는 모든 요소들을 포함한다. 간략화를 위해, 원격 컴퓨터(들)(1544)에는 메모리 저장 장치(1546)만이 도시되어 있다. 원격 컴퓨터(들)(1544)는 네트워크 인터페이스(1548)를 통해 컴퓨터(1512)에 논리적으로 접속된 다음 통신 접속(1550)을 통해 물리적으로 접속된다. 네트워크 인터페이스(1548)는 LAN(local-area networks) 및 WAN(wide-area networks)과 같은 통신 네트워크를 포함한다. LAN 기술은 FDDI(Fiber Distributed Data Interface), CDDI(Copper Distributed Data Interface), 이더넷/IEEE 102.3, 토큰 링/IEEE 1102.5 등을 포함한다. WAN 기술은 점-대-점 링크, ISDN(Integrated Services Digital Networks) 및 그 변형과 같은 회로 스위칭 네트워크, 패킷 스위칭 네트워크, 및 DSL(Digital Subscriber Lines)을 포함하지만, 그에 한정되는 것은 아니다.

통신 접속(들)(1550)은 네트워크 인터페이스(1548)를 버스(1518)에 접속하는데 이용되는 하드웨어/소프트웨어를 의미한다. 간략한 도시를 위해 통신 접속(1550)을 컴퓨터(1512)내에 나타내지만, 컴퓨터(1512) 외부에 있을 수도 있다. 네트워크 인터페이스(1548)로의 접속에 필요한 하드웨어/소프트웨어는, 단지 예로써, 일반 전화 등급의 모뎀, 케이블 모뎀 및 DSL 모뎀을 포함하는 모뎀, ISDN 어댑터, 및 이더넷 카드와 같은 내장형 및 외장형 기술을 포함한다.

상술한 것은 본 발명의 예들을 포함한다. 물론, 본 발명을 설명하기 위한목적으로 컴포넌트 또는 방법의 고려가능한 모든 조합을 설명할 수는 없지만, 당업자는 본 발명에 대한 추가적인 조합 및 변경이 가능하다는 것을 알 수 있다. 따라서, 본 발명은 첨부된 청구범위의 정신 및 범위내에 속하는 이러한 모든 변경, 수정 및 변형을 포함한다. 또한, "구비한다"는 용어가 상세한 설명 또는 청구범위에 사용될 때의 의미에 관해서는, 이 용어는, "포함하는" 이라는 용어가 청구항에서 전이 단어로 채택될 때 해석되는 "포함하는"이 뜻하는 바와 유사하게 포괄적인 의미로 쓰인 것이다.

따라서, 본 발명에 따르면, 메시지의 특정 부분을 조사하는 것에 의해, 위장된 스팸 메시지의 식별을 용이하게 하는 시스템 및 방법을 제공할 수 있다.

Claims

스팸 프로세싱과 관련하여 데이터의 추출을 용이하게 하는 시스템으로서,

아이템을 수신하고, 메시지의 발신지 또는 그 일부와 관련된 한 세트의 특징들 및/또는 소정 수신자가 메시지와 관련하여 접촉, 응답 또는 수신할 수 있게 하는 정보를 추출하는 컴포넌트; 및

필터를 구성하는 것과 관련하여 추출된 특징들의 서브세트를 이용하는 컴포넌트

를 포함하는 데이터 추출 시스템.
제 1 항에 있어서,

서브세트의 특징들을 명료화하는 표준화 컴포넌트를 더 포함하는 데이터 추출 시스템.
제 1 항에 있어서,

필터는 스팸 필터인 데이터 추출 시스템.
제 1 항에 있어서,

필터는 모제어 필터인 데이터 추출 시스템.
제 1 항에 있어서,

명료화된 특징들을 하나 이상의 스팸 및 비-스팸을 학습하는데 이용하는 기계 학습 시스템 컴포넌트를 더 포함하는 데이터 추출 시스템.
제 1 항에 있어서,

특징들의 서브세트는 하나 이상의 IP 어드레스를 포함하고, 하나 이상의 IP 어드레스는 메시지에 위치하는 답장 어드레스, 카본 카피 어드레스, mail-to 어드레스, 수신된-발신 어드레스, 및 URL 중 어느 하나의 적어도 일부인 데이터 추출 시스템.
제 6 항에 있어서,

IP 어드레스는 블록 ID를 포함하고, 블록 ID는 하나 이상의 특징으로 추출될 수 있는 데이터 추출 시스템.
제 7 항에 있어서,

블록 ID는 블록 디렉토리를 참고하는 것에 의해 적어도 부분적으로 판정되는 데이터 추출 시스템.
제 8 항에 있어서,

블록 디렉토리는 arin.net인 데이터 추출 시스템.
제 7 항에 있어서,

블록 ID는 추측에 의해 적어도 부분적으로 판정됨으로써, IP 어드레스의 적어도 처음의 1개 비트, 적어도 처음의 2개 비트, 적어도 처음의 3개 비트, 내지 최대한 적어도 처음의 31개 비트 중 어느 하나를 특징으로 추출하는 데이터 추출 시스템.
제 1 항에 있어서,

특징들의 서브세트는 IP 어드레스의 처음의 1개 내지 처음의 31개 비트 각각을 포함하는 데이터 추출 시스템.
제 1 항에 있어서,

특징들의 서브세트는 URL을 포함하는 데이터 추출 시스템.
제 12 항에 있어서,

URL 어드레스는 메시지에 텍스트로 삽입된 메시지의 바디 및 메시지의 이미지에 삽입된 메시지의 바디 중 적어도 하나에 위치하는 데이터 추출 시스템.
제 1 항에 있어서,

하나 이상의 특징 리스트를 채우기 위해 적어도 추출된 특징들의 서브세트를이용하는 컴포넌트를 더 포함하는 데이터 추출 시스템.
제 14 항에 있어서,

하나 이상의 특징 리스트는 양호한 사용자들의 리스트, 스패머들의 리스트, 적합한 발신자를 지시하는 긍정적인 특징들의 리스트, 및 스팸을 지시하는 특징들의 리스트 중 어느 하나인 데이터 추출 시스템.
제 1 항에 있어서,

특징들의 서브세트는 하나 이상의 URL을 포함하는 데이터 추출 시스템.
제 16 항에 있어서,

URL은 메시지의 바디에 텍스트로 삽입되는 데이터 추출 시스템.
제 16 항에 있어서,

URL은 메시지 바디에서의 링크의 적어도 일부인 데이터 추출 시스템.
제 16 항에 있어서,

URL은 메시지에 이미지로 삽입된 링크의 적어도 일부인 데이터 추출 시스템.
제 1 항에 있어서,

특징들의 서브세트는 이메일 어드레스로부터 추출된 호스트 네임 및 도메인 네임 중 하나 이상을 포함하는 데이터 추출 시스템.
제 1 항에 있어서,

특징들의 서브세트는 이메일 어드레스 및 URL 중 어느 하나로부터 추출된 FQDN의 적어도 일부를 포함하는 데이터 추출 시스템.
제 1 항에 있어서,

특징들의 서브세트는 이메일 어드레스 및 URL 중 어느 하나로부터 추출된 도메인 네임의 적어도 일부를 포함하는 데이터 추출 시스템.
제 1 항에 있어서,

추출된 특징들에 대한 서브세트의 적어도 일부는 기계 학습 시스템과 관련하여 사용되기 전에 표준화되는 데이터 추출 시스템.
제 1 항에 있어서,

추출된 특징들에 대한 서브세트의 적어도 일부는 하나 이상의 특징 리스트를 채우는데 사용되기 전에 표준화되는 데이터 추출 시스템.
제 1 항에 있어서,

URL, 이메일 어드레스, 및 IP 어드레스 중 하나 이상의 적어도 일부를 성인용, 성인용-컨텐츠, 부적합, 일부 연령에 대해 부적합, 모든 연령에 대해 적합, 부적당, 및 적당 중 어느 하나로 분류하는 분류 컴포넌트를 더 포함하는 데이터 추출 시스템.
제 25 항에 있어서,

분류 컴포넌트는 모제어 시스템인 데이터 추출 시스템.
제 25 항에 있어서,

분류 컴포넌트는 URL, 웹사이트 어드레스, 및 IP 어드레스 중 하나 이상의 분류된 부분에 하나 이상의 특징 타입을 할당하는 데이터 추출 시스템.
제 1 항에 있어서,

특징들의 세트는 하나 이상의 유료 전화번호를 포함하고, 이 전화번호는 메시지와 관련된 발신자 또는 접촉에 대한 지역적 위치의 매핑을 용이하게 하는 지역 번호를 포함하는 데이터 추출 시스템.
제 1 항의 컴퓨터 실행가능 컴포넌트들을 저장하는 컴퓨터 판독가능 매체.
제 1 항의 시스템을 이용하는 컴퓨터.
스팸 프로세싱과 관련하여 데이터의 추출을 용이하게 하는 방법으로서,

메시지를 수신하는 단계;

메시지의 발신지 또는 그 일부와 관련된 한 세트의 특징들 및/또는 소정 수신자가 메시지와 관련하여 접촉, 응답 또는 수신할 수 있게 하는 정보를 추출하는 단계; 및

필터를 구성하는 것과 관련하여 추출된 특징들의 서브세트를 이용하는 단계

를 포함하는 데이터 추출 방법.
제 31 항에 있어서,

특징들의 세트는 IP 어드레스의 적어도 일부를 포함하는 데이터 추출 방법.
제 32 항에 있어서,

IP 어드레스의 적어도 일부를 추출하는 단계는,

블록 ID가 부가적인 특징으로 추출되도록 IP 어드레스에 대응되는 하나 이상의 블록 ID를 판정하기 위해 블록 ID 디렉토리를 참고하는 액트; 및

IP 어드레스로부터 적어도 처음의 1개 비트 내지 처음의 31개 비트 각각을 추출하는 액트 중 하나 이상을 수행하는 단계를 포함하는 데이터 추출 방법.
제 32 항에 있어서,

하나 이상의 추출된 IP 어드레스는 하나 이상의 서버에 대응되는 데이터 추출 방법.
제 34 항에 있어서,

하나 이상의 서버를 부가적인 특징으로 추출하는 단계를 더 포함하는 데이터 추출 방법.
제 31 항에 있어서,

메시지로부터 추출된 특징들의 하나 이상의 서브세트를 명료화하는 단계를 더 포함하는 데이터 추출 방법.
제 31 항에 있어서,

메시지로부터 추출된 하나 이상의 특징의 적어도 일부를 명료화하는 단계를 더 포함하는 데이터 추출 방법.
제 37 항에 있어서,

메시지로부터 추출된 수신된-발신 IP 어드레스를 명료화하는 단계는 첨부된 IP 어드레스의 실체를 확인하기 위해 복수개의 첨부된 IP 어드레스를 역추적하는 단계를 포함하는 데이터 추출 방법.
제 37 항에 있어서,

한번에 하나 이상의 접미사를 제거함으로써 개개의 부가적인 특징들을 산출하는 액트; 및

한번에 하나 이상의 접두사를 제거함으로써 개개의 부가적인 특징들을 산출하는 액트 중 하나 이상을 수행하는 단계를 포함하는, 웹사이트 어드레스로부터 부가적인 특징들을 추출하는 단계를 더 포함하는 데이터 추출 방법.
제 37 항에 있어서,

특징들의 세트는 답장 어드레스, 카본 카피 어드레스, mail-to 어드레스, URL, 링크, 및 수신된-발신 어드레스 중 어느 하나의 적어도 일부를 포함하는 데이터 추출 방법.
제 31 항에 있어서,

추출된 특징들의 하나 이상의 서브세트는 메시지의 바디에 텍스트 및 이미지 중 하나로서 삽입되는 데이터 추출 방법.
제 31 항에 있어서,

특징들의 세트는 호스트 네임 및 도메인 네임을 포함하는 데이터 추출 방법.
제 31 항에 있어서,

메시지와 관련된 내용이 적당한지 그리고 부적당한지를 지시하기 위해 하나 이상의 추출된 특징들 및/또는 그 일부를 분류하고 이러한 분류를 부가적인 특징으로 사용하는 단계를 더 포함하는 데이터 추출 방법.
제 31 항에 있어서,

개개의 추출된 특징들의 적어도 일부에 기초하여 사용자에게 메시지 내용을 통지하기 위해, 개개의 추출된 특징들에 특징 타입을 할당하고 그 특징 타입을 부가적인 특징으로 사용하는 단계를 더 포함하는 데이터 추출 방법.
제 44 항에 있어서,

하나 이상의 특징 타입 및 특징이 희귀한 것인지 그리고 평범한 것인지를 판정하고 특징의 희귀성 및 평범성을 부가적인 특징으로 사용하는 단계를 더 포함하는 데이터 추출 방법.
제 31 항에 있어서,

특징들의 서브세트는 기계 학습 시스템을 통해 필터를 구성하는 것과 관련하여 이용되는 데이터 추출 방법.
제 31 항에 있어서,

필터는 스팸 필터인 데이터 추출 방법.
제 31 항에 있어서,

필터는 모제어 필터인 데이터 추출 방법.
제 31 항에 있어서,

메시지로부터 추출된 특징들의 하나 이상의 서브세트를 하나 이상의 특징 리스트를 채우는데 이용하는 단계를 더 포함하는 데이터 추출 방법.
제 49 항에 있어서,

특징 리스트는 비-스패머들을 지시하는 긍정적인 특징 리스트 및 스패머들을 지시하는 불량한 특징 리스트 중 하나 이상을 포함하는 데이터 추출 방법.
제 31 항에 있어서,

추출된 특징들은 기계 학습 시스템의 특징으로 이용되기 전에 적어도 부분적으로 명료화되는 데이터 추출 방법.
제 31 항에 있어서,

추출된 특징들은 특징 리스트를 채우기 위한 특징으로 이용되기 전에 적어도 부분적으로 명료화되는 데이터 추출 방법.
메시지로부터의 데이터 추출을 용이하게 하는 2 이상의 컴퓨터 프로세스 사이에서 전송되도록 구성된 데이터 패킷으로서,

메시지를 수신하고, 메시지의 발신지 또는 그 일부와 관련된 한 세트의 특징들 및/또는 소정 수신자가 메시지와 관련하여 접촉, 응답 또는 수신할 수 있게 하는 정보를 추출하며, 추출된 특징들의 서브세트를 필터 구성과 관련하여 이용하는 것에 관한 정보를 포함하는 데이터 패킷.
스팸 프로세싱과 관련하여 데이터의 추출을 용이하게 하는 시스템으로서,

메시지를 수신하는 수단;

메시지의 발신지 또는 그 일부 및/또는 소정 수신자가 메시지와 관련하여 접촉, 응답 또는 수신할 수 있게 하는 정보를 추출하는 수단; 및

필터 구성과 관련하여 추출된 특징들의 서브세트를 이용하는 수단

을 포함하는 시스템.