KR101045452B1 - 개선된 스팸 검출 시스템, 및 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법 및 컴퓨터-판독가능 기록 매체 - Google Patents

개선된 스팸 검출 시스템, 및 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법 및 컴퓨터-판독가능 기록 매체 Download PDF

Info

Publication number
KR101045452B1
KR101045452B1 KR1020040036088A KR20040036088A KR101045452B1 KR 101045452 B1 KR101045452 B1 KR 101045452B1 KR 1020040036088 A KR1020040036088 A KR 1020040036088A KR 20040036088 A KR20040036088 A KR 20040036088A KR 101045452 B1 KR101045452 B1 KR 101045452B1
Authority
KR
South Korea
Prior art keywords
message
features
header
delete delete
spam
Prior art date
Application number
KR1020040036088A
Other languages
English (en)
Other versions
KR20050000309A (ko
Inventor
브라이언티. 스타벅크
로버트엘. 룬트웨이트
데이비드이. 헥커만
조슈아티. 굿맨
엘리어트씨. 길룸
나단디. 호웰
케니쓰알. 알딘저
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20050000309A publication Critical patent/KR20050000309A/ko
Application granted granted Critical
Publication of KR101045452B1 publication Critical patent/KR101045452B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Operations Research (AREA)
  • Computer Hardware Design (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Information Transfer Between Computers (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Burglar Alarm Systems (AREA)
  • Paper (AREA)

Abstract

본 발명은 개선된 강건한 스팸 검출 시스템 및 방법을 개시하고 있다. 본 시스템 및 방법은 스패머들이 회피하기 곤란한 특성을 찾아내고 스패머들이 복제하기 곤란한 비스팸성 특성을 찾아내는 것을 개선 내지 촉진시키는 컴포넌트 및 동작을 포함한다. 상기한 특성의 예로는, 출처 특징 쌍을 조사하고, 문자열 및/또는 숫자열(스트링 또는 서브스트링)을 분석하고, 메시지 및/또는 특징의 사이즈에 대한 분석뿐만 아니라, 하나 또는 그 이상의 문자열(스트링 및/또는 서브스트링)의 여러 엔트로피 레벨을 검출하는 것을 포함한다.
Figure R1020040036088
스팸, 문자 N-그램, 문자열, 엔트로피, 속임문자

Description

개선된 스팸 검출 시스템, 및 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법 및 컴퓨터-판독가능 기록 매체{ADVANCED SPAM DETECTION TECHNIQUES}
도 1은 본 발명의 태양에 따른 스팸 방지를 도모하는 시스템을 개략적으로 나타낸 블록도.
도 2는 본 발명의 태양에 따른 HELO 커맨드로부터의 특징 분기(break down)를 개략적으로 나타낸 블록도.
도 3은 본 발명의 태양에 따른 MAIL FROM 커맨드로부터의 특징 분기를 개략적으로 나타낸 블록도.
도 4는 본 발명의 태양에 따른 DATA 커맨드로부터의 특징 분기를 개략적으로 나타낸 블록도.
도 5는 본 발명의 태양에 따른 Received 라인 및 Message From 라인의 쌍으로부터의 특징 분기를 개략적으로 나타낸 블록도.
도 6은 본 발명의 태양에 따른 한 주행길이의(a run of) 문자열 및/또는 문자열 및/또는 이들 문자열의 엔트로피에 관련된 특징을 생성하기 위한 시스템을 개략적으로 나타낸 블록도.
도 7은 본 발명의 태양에 따른 메시지 헤더 컨텐트 및/또는 사이즈 관련 특징 및/또는 메시지 내에 존재하는 이미지에 관련된 특징을 생성하기 위한 시스템을 개략적으로 나타낸 도면.
도 8은 본 발명의 태양에 따른 필터의 트레이닝을 위한 특징 쌍들을 포함하는 특징을 생성하기 위한 방법의 예를 나타낸 순서도.
도 9는 스팸 및/또는 스팸성 메시지의 식별에 도 8의 트레이닝 필터를 이용하기 위한 방법의 예를 나타낸 순서도.
도 10은 본 발명의 태양에 따른 필터의 트레이닝에 이용하기 위한 한 주행길이의 문자열 및/또는 상기한 문자열의 엔트로피에 기초하여 특징을 생성하기 위한 방법의 예를 나타낸 순서도.
도 11은 스팸 및/또는 스팸성 메시지의 식별에 도 10의 트레이닝 필터를 이용하기 위한 방법의 예를 나타낸 순서도.
도 12는 본 발명의 태양에 따른 필터의 트레이닝에 이용하기 위한 특징을 생성하기 위한 방법의 예를 나타낸 순서도.
도 13은 스팸 및/또는 스팸성 메시지의 식별에 도 12의 트레이닝 필터를 이용하기 위한 방법의 예를 나타낸 순서도.
도 14는 본 발명에 따른 통신 환경의 예를 개략적으로 나타낸 블록도.
<도면의 주요 부분에 대한 부호의 설명>
100: 전체 시스템
110: 발신자
120: SMTP 커맨드
130: 메일 서버
140: 메시지
150: 출처 정보
160: 메시지 파싱 컴포넌트
170: 특징 짝짓기-비교 컴포넌트
180: 필터 트레이닝 컴포넌트
본 발명은 스팸 메시지의 식별을 위한 시스템 및 방법에 관한 것으로, 스패머(spammer)들이 회피 및 복제하기 어려운 특성을 나타내는 스팸 메시지 식별 시스템 및 방법에 관한 것이다.
인터넷과 같은 글로벌 통신 네트워크의 등장에 의해 대규모의 잠재 고객들에 접근할 수 있는 상업적인 기회를 제공하게 되었다. 전자메일("email")과 같은 전자 메시징은 네트워크 사용자들에게 원하지 않는 광고나 홍보물("스팸"이라고도 함)을 유포하기 위한 보편적인 수단이 되고 있다.
컨설팅 및 시장조사 회사인 'Radicati Group, Inc.'에 따르면, 2002년 8월 기준으로, 매일 20억의 정크 메일 메시지가 보내지고 있으며, 이 숫자는 2년마다 3배로 증대할 것으로 예측하고 있다. 개인 및 단체(예컨대, 기업, 정부기관)들은 이들 정크 메시지로 인한 불편이 증대되고 있으며 때로는 불쾌감을 느끼기도 한다. 따라서, 머지않아 스팸은 신뢰적 컴퓨팅에 대한 주요한 위협이 될 것이다.
스팸 차단(thwart)에 사용되는 일반적인 방법은 필터링 시스템/방법을 채용 하고 있다. 검증된 필터링 방법의 하나는 머신 러닝 기법(machine learning approach)에 기초하고 있다. 머신 러닝 필터는 인입 메시지에 대하여 그 메시지가 스팸일 확률을 지정(assign)한다. 이 방법에서는, 일반적으로 2분류의 샘플 메시지(예컨대, 스팸 메시지와 스팸이 아닌 메시지)로부터 특징을 추출한 다음, 러닝 필터를 적용하여 이들 2분류의 메시지를 확률적으로 구분한다. 메시지의 특징은 컨텐츠(예컨대, 제목 내의 전체 단어 및 구문 및/또는 메시지의 본문)와 관련되어 있으므로, 이러한 유형의 필터는 일반적으로 "컨텐츠-기반 필터"라고 한다. 이러한 유형의 머신 러닝 필터는 일반적으로 정상(good) 메시지에서 스팸 메시지를 검출하여 구별해내기 위하여 완전일치(exact match) 기법을 채용하고 있다.
그러나, 스패머들은 스팸 메시지를 정상 메일처럼 보이도록 수정하여 통상의 머신 러닝 및/또는 컨텐트-기반 필터를 무능화시키거나 또는 메시지에 여러가지 잘못된 문자를 포함시켜 문자 인식 시스템을 혼동키는 경우도 있다. 따라서 이러한 통상의 필터들은 스팸에 대한 제한된 보호를 제공하고 있다.
다음은 본 발명의 일부 태양을 이해하는데 기초가 되는 본 발명의 개요를 설명한 것이다. 본 개요는 본 발명에 대한 넓은 의미의 개략을 제공하는 것은 아니다. 즉, 본 개요는 본 발명의 필수(key/critical) 구성요소를 확인하거나 본 발명의 범주를 설명하기 위한 것이 아니다. 본 개요는 후술하게 될 상세한 설명에 앞서 본 발명의 일부 개념을 서두로서 간략하게 설명하기 위함이다.
스팸 필터는, 그것이 머신 러닝에 기초한 것이든 기타의 기법에 기초한 것이 든 무관하게, 그 메시지가 스팸인지의 여부를 판정하기 위하여 메시지의 컨텐트를 확인해야만 한다. 그러나, 스패머들은 메시지의 많은 부분에 대해 속임수(disguise)를 부릴 수 있는 경우가 있다. 이들은 스팸성 단어를 오기입하거나 동의어를 사용하거나 단어를 이미지화하여 사용할 수 있다. 스팸 필터는 그 이미지 내의 단어를 광학문자인식(OCR) 소프트웨어를 사용하여 식별해낼 수 있지만, 스패머들이 고의로 OCR 시스템으로는 곤란한 이미지를 사용하는 경우에는, 이에 대한 비용이 너무 많이 소요된다. 스패머들이 메시지에 대하여 속임수를 부릴 수 있는 여지를 줄이기 위해서, 스패머들이 날조(fake)하기 어려운 특징을 생성할 수 있다.
상기한 특징은 이메일 또는 메시지 파싱 컴포넌트에 의해 검출된 사실(fact)과 관련된다. 상기한 메시지 파싱 컴포넌트는 메시지 내의 각 단어의 특징을 생성할 수 있다. 또한, 상기한 컴포넌트는 사용된 구두점의 유형에 무관하게 구두점이 사용된 때마다 특징을 생성할 수 있다. 상기한 특징은 머신 러닝 필터에서 이용되거나 또는 핸드빌트(hand-built) 규칙의 일부분으로서 다른 방식으로 이용될 수도 있다.
본 발명은 스패머들이 날조하기 어렵고 통상의 스팸 필터에서 사용된 것과는 다른 추가의 특징을 포함시킴으로써 스팸을 검출 및 방지하도록 한 시스템 및 방법을 제공한다. 이러한 특징의 일례로는 메시지의 특징 쌍들을 확인하는 것을 들 수 있다. 스팸의 일부 특징들은 떼어놓고 보면 위조(forge)가 용이하고 무가치한 것이지만, 이들을 모아놓고 보면 매우 귀중한 것이 될 수 있다. 쌍으로 취급할 수 있는 특징의 예로는 해당 메시지의 출처 정보에 관한 것 또는 그로부터 유도된 것을 들 수 있다. 특히, SMTP(Simple Mail Transfer Protocol)에서의 도메인 및 호스트 네임; HELO 커맨드에서의 도메인 및 호스트 네임; 'Received from' 헤더 내의 IP 어드레스 또는 서브넷(subnet); 디스플레이 네임에서의 도메인 또는 호스트 네임; 'Message From' 필드 내의 도메인 또는 호스트 네임; 및 최후의 received from 헤더 내의 타임존(time zone)은 모두 어떤 방식으로든(또는 그 조합한 경우) 일치해야 한다. 따라서, 상기한 것들의 임의의 쌍은 머신 러닝 필터 또는 기타의 규칙-기반 필터의 트레이닝에 유용할 수 있다.
두번째 특징으로는 한 주행길이의(a run of) 문자열을 조사하는 것이다. 메시지들의 가장 일반적인 특징은 메시지 내의 단어들에 관련되어 있으며, 특히 스페이스에 의해 분리된 단어에 관련되어 있다. 그러나, 메시지의 일부에 일정한 문자열(스페이스의 유무 포함)이 존재한다는 사실은 스팸의 표시일 수 있다. 따라서, 본 발명은 각 문자열 또는 구두점과 스페이스를 포함한 가능한 모든 문자열에 대해 생성된 특징을 이용하는 시스템 및 방법을 제공한다. 일부 스패머들은 제목란 또는 메시지의 시작 또는 끝에 속임문자(chaff)를 포함시켜 대부분의 스팸 필터링 시스템에서 발견되는 완전일치 기법을 무력화시킬 수 있다. 상기한 속임문자에는 정상적인 메일에서는 좀처럼 나타나지 않는 "xz" 또는 "qp" 등의 문자 N-그램(character n-gram)이 포함된다. 따라서, 속임문자 또는 문자 N-그램이 존재하거나 나타난다는 것은 악성 메시지(즉, 스팸)일 확률이 높음을 나타낸다. 상 기한 문자 N-그램은 위치 종속적(position-dependent)일 수 있다. 따라서, 본 발명에서는 이와 같은 위치 종속성을 포함하는 특징을 생성하여 이용할 수 있다.
머신 러닝 시스템에 사용될 수 있는 세번째 유형의 특징은 상기한 속임문자의 검출에 희귀 문자열을 이용하는 것에 대한 대안에 관한 것이다. 상기한 세번째 특징은 예컨대 문자 N-그램 언어모델을 이용하는 높은 엔트로피의 문자를 검출하는 것과 관련된다. 이 모델에서는, 각 문자에 대해 출현 빈도를 지정하여, 소정의 문자열이 다른 문자열에 비해 보다 자주 나타남을 나타낸다. 예를 들어, 문자열 "he"(예컨대 "the", "hear", "she", "threat" 등에서 나타남)는 임의의 주행길이의 문자열 또는 임의의 문자 스트링에서 시퀀스 "xz"보다 자주 나타날 것이다. 따라서, 상기한 문자열 "xz"에 대한 엔트로피는 상기한 시퀀스 "he"에 대한 엔트로피보다 높을 것이다.
높은 엔트로피와 더불어, 메시지 또는 제목란의 시작과 끝 등에서 문자의 평균 엔트로피도 검출할 수 있다. 또한, 문자들의 상대 엔트로피에 관한 특징도 유용할 수 있다. 예를 들어, 제목란의 시작에서의 평균 엔트로피가 제목란의 중간에서의 평균 엔트로피보다 0.5 높은 경우에 대해 특징을 부여(designate)할 수 있다. 또다른 특징의 예로는 메시지의 중간보다 1.0 높은 메시지 본문 끝에서의 평균 엔트로피에 대해 특징을 부여할 수도 있다. 또한, 이들 검출된 높은, 평균 및/또는 상대 엔트로피의 이벤트는 개별적인 특징으로서 이용될 수 있다.
네번째 유형의 유용한 특징은 일반(generic) 헤더에 관련된 것이다. 전형적인 머신 러닝 알고리즘은 메시지의 제목란과 본문에 공통의 특징을 사용하거나 또 는 메시지 헤더에서 발견된 다른 공통 필드에 기초한 특징들을 사용하고 있을 뿐이다. 본 발명에서는, 전형적인 필터에서와는 달리, 헤더 라인 유형의 유무를 포함한, 실질적으로 모든 헤더를 이용한다. 특히, 본 발명의 머신 러닝 시스템은 모든 유용한 헤더 특징을 자동 식별할 수 있으며, 경우에 따라서는 일부 헤더 라인을 제외시킬 수도 있다.
본 발명의 또다른 태양에 따르면, 머신 러닝 기술에서 유용한 전자메일(이메일) 통신의 추가 특징으로서, 이미지 특징뿐만 아니라 특징의 확장된 사이즈도 포함한다. 대부분의 스팸은 사이즈가 크지 않기 때문에, 전술한 특징들 중 하나와 결합한 특징들의 서로 다른 사이즈들은 스팸의 식별에 도움이 된다. 예를 들어, 메시지의 사이즈에 대응되도록 특징을 생성할 수 있다. 즉, 100 바이트 및 200 바이트 이상, b 바이트(b는 1 이상) 미만의 메시지 사이즈에 대해, 각 사이즈에 대한 특징을 생성하거나 또는 그 사이즈 범위에 대한 특징을 생성할 수도 있다. 스패머들은 메시지의 출처를 혼동시키거나 속이기 위하여 매우 긴 디스플레이 네임을 사용하기도 하므로, 이를 제목란 및 디스플레이 네임의 사이즈에도 적용할 수 있다. 마찬가지로, 일부 사용자들은 메시지를 열지 않고 오직 제목란에 의지하는 경우도 있으므로, 스팸의 제목란에 그 메시지의 주요부분이나 본문 전체를 포함시키기도 한다.
전술한 특징들은 머신 러닝 시스템에서 정크메일 및/또는 스팸 필터의 트레이닝 및 개선에 사용됨으로써, 이러한 필터에 대해서는 스패머들이 메시지를 수정하기 곤란하도록 한다. 또한, 스패머들이 자신의 메시지를 메시징 시스템을 통과 시킬 가능성은 거의 없게 된다.
전술한 목적 및 이와 관련된 것들을 실현하기 위하여, 첨부 도면을 참조하여 설명하고 있는 상세한 설명을 통하여 본 발명의 태양에 대해 설명하기로 한다. 그러나, 이들 태양은 본 발명의 원리가 적용될 수 있는 여러가지 방식들 중 일부에 대한 예시일 뿐이며, 본 발명은 전술한 태양 및 그 균등물을 포함하는 것으로 이해되어야 한다. 본 발명의 다른 장점 및 신규한 특징들은 도면을 참조하여 설명하고 있는 하기의 상세한 설명으로부터 명백하게 될 것이다.
<실시예>
이하, 유사한 구성요소에 대해 유사한 참조번호로써 지칭하고 있는 도면을 참조하여 본 발명에 대해 상세하게 설명하기로 한다. 이하에서는, 본 발명의 이해를 도모하기 위하여, 설명의 편의상, 특정한 예에 대해 기술하기로 한다. 그러나, 이들 특정한 예에 의하지 않더라도 본 발명을 실시할 수 있는 것으로 이해되어야 한다. 또한, 본 발명을 보다 잘 설명하기 위하여 공지의 구조 및 장치는 블록도로서 도시하고 있다.
본 명세서에서, 용어 "컴포넌트" 및 "시스템"은 컴퓨터 관련 실체로서, 하드웨어, 하드웨어와 소프트웨어의 결합, 소프트웨어를 의미할 수도 있으며, 소프트웨어에 의해 실행되는 것을 의미할 수도 있다. 예를 들어, 이것에 국한되지는 않지만, 컴포넌트는 프로세서에서 실행되는 프로세스, 프로세서, 오브젝트, 실행가능물(executable), 일련의 실행(execution), 프로그램 및/또는 컴퓨터일 수 있다. 예를 들어, 서버에서 실행되는 애플리케이션이나 상기한 서버도 컴포넌트일 수 있다. 일련의 실행 및/또는 프로세스 내에 하나 또는 그 이상의 컴포넌트가 존재할 수 있으며, 하나의 컴포넌트가 하나의 컴퓨터 상에 로컬화되거나 및/또는 2개 또는 그 이상의 컴퓨터 사이에 분산될 수도 있다.
본 발명은 머신 러닝 스팸 필터링을 위한 트레이닝 데이터의 생성과 관련한 각종의 추론(inference) 방식 및/또는 기술을 포함시킬 수 있다. 여기서, 용어 "추론"은 이벤트 및/또는 데이터를 통해 포획된 일조의 관측으로부터 시스템의 상태, 환경 및/또는 사용자에 관한 추리(reasoning) 또는 유추(inferring) 프로세스를 말한다. 상기한 추론은 특정한 정황(context)이나 액션을 식별하는데 이용될 수 있으며, 또는 예를 들어 상태에 대한 확률분포를 생성할 수 있다. 상기한 추론은 확률적인 것으로, 데이터 및 이벤트를 고려한 주목 상태에 대한 확률분포의 연산이다. 또한, 상기한 추론은 일조의 이벤트 및/또는 데이터로부터의 보다 높은 레벨의 이벤트를 구성하는데 이용된 기술을 참조할 수도 있다. 상기한 추론의 결과, 상기한 이벤트가 서로 시간적으로 근접하여 상관되어 있는지의 여부에 무관하게, 또한 상기한 이벤트 및 데이터가 하나 또는 수개의 이벤트 및 데이터 소스로부터 온 것인지에 무관하게, 일조의 관찰된 이벤트 및/또는 저장된 이벤트 데이터로부터 신규 이벤트 또는 액션을 구성하게 된다.
여기서, 상기한 용어 '메시지'는 명세서에서 많이 사용되고 있지만, 상기한 용어는 전자메일에만 국한되지 않으며, 임의의 적절한 통신구조를 통해 배포될 수 있는 임의의 형태의 전자 메시징을 포함하는 것으로 이해되어야 한다. 예를 들어, 2명 또는 그 이상의 사람들 간의 회의를 가능케 하는 컨퍼런스 애플리케이션(인터 랙티브 채팅 프로그램 및 인스턴트 메시징 프로그램)의 경우에도, 사용자들이 메시지를 교환하는 도중에 정상적인 채팅 메시지에 원하지 않는 텍스트가 전자적으로 끼어들어오거나, 및/또는 문두(lead-off) 메시지나 문말(closing) 메시지 또는 이들 양자 모두에 삽입될 수도 있으므로, 본 명세서에 개시된 필터링의 장점을 이용할 수 있다. 상기한 특정 애플리케이션의 경우에는, 상기한 필터는 상기한 바람직하지 않은 컨텐트(예컨대, 광고, 홍보물 또는 선전 등)를 정크로서 포획 및 태그처리하기 위하여 특정 메시지 컨텐트(텍스트 및 이미지)를 자동적으로 필터링하도록 트레이닝될 수 있다. 또다른 예로서, 셀룰러폰의 SMS 메시지도 필터링할 수 있다.
도 1은 본 발명의 태양에 따른 스팸 검출을 도모하기 위해 특징 쌍들의 이용을 가능케 하는 시스템(100)을 개략적으로 나타낸 블록도를 예시하고 있다. 일부 특징들은 이미 개별적으로 이용되었다하더라도 쌍으로서 사용된 경우 특히 유용하다. 일반적으로, 메일이 어디에서 온 것인지에 대해 일치하는 정보가 존재한다. 예를 들어, IP 어드레스를 위조하는 것은 실용적이지 않다. 따라서, 다른 특징들이 IP 어드레스 특징과 합치하는지를 체크하도록 스팸 필터를 트레이닝할 수 있다. 일반적인 의미로 일치판정(match)을 이용할 수도 있다. 예를 들어, 동일한 서버를 사용하여 2개의 도메인(즉, Hotmail 및 MSN)으로부터 메일을 발신한 경우, HELO 커맨드 및 "from" 커맨드는 동일한 도메인을 제공할 필요가 없지만, 일반적으로 소정의 유효한 쌍으로만 나타날 것이다.
도 1에 도시된 바와 같이, 하나 또는 그 이상의 발신자(110)로부터의 메시지는 이들 각각의 발신자(들)로부터 시스템(100) 내에 포함된 SMTP 서버 등의 메일 서버(130)에 전달된다. 상기한 메시지의 전달은 예를 들어 다수의 SMTP 커맨드(120)를 통해 실현될 수 있다. 다른 메일 전달 프로토콜도 가능하며 본 발명에 유사한 방식으로 적용될 수 있다.
따라서, 상기한 메시지(140)가 상기한 배달의 수신자에 의해 받아들여지기 전에 일련의 SMTP 커맨드가 발행되어 분석될 수 있다. 특히, 상기한 특징 쌍들을 확립하는데 필요한 출처(origination) 정보(150)는 SMTP 커맨드(120)에서 찾을 수 있다. 상기한 출처 정보(150)로부터 특징을 유도하기 위하여, 상기한 정보(150)를 메시지 파싱 컴포넌트(160)에서 평가 및 파싱한다. 상기한 메시지(140)의 출처 정보(150) 중 적어도 일부가 파싱되면, 이 파싱된 부분 또는 특징은 특징 파싱 컴포넌트(170)에 통신된다. 상기한 특징 파싱 컴포넌트(170)는 상기한 특징의 임의의 가능한 조합을 분석하여, 그 결과의 특징 쌍이 추가의 특징으로서 사용되도록 한다. 이 특징 쌍들은 예들 들어 스팸 필터의 트레이닝 시, 상기한 시스템(100)에 연동하는 필터 트레이닝 컴포넌트(180)에 의해 이용된다.
상기한 필터가 충분히 트레이닝되면, 머신 러닝 시스템과 함께 사용될 수 있으며, 또다른 그룹의 메일 메시지에 적용되어 그 그룹으로부터 스팸성 메시지를 필터링한다. 상기한 필터는 정기적으로 갱신될 수 있으며, 및/또는 필요한 경우 적법한 메일과 스팸 메일을 효과적으로 구분하기 위하여 새로운 필터를 형성할 수도 있다.
도 2 내지 도 4는 본 발명의 태양에 따른 SMTP 커맨드에서 발견되는 출처 정보로부터 파싱되며, 다수의 유용한 쌍들(예컨대, 도면에서 화살표로 표시된 것들) 에 결합될 수 있는 여러가지 특징들을 나타낸 것이다. 예를 들어, 도 2에서, 제1 SMTP 커맨드는 HELO 커맨드(200)로서, 발신측 머신이 자신이 네임을 예컨대 'HELO x.y.z'임을 말해주고 있다. 여기서, 상기한 'x.y.z'가 'mail1.ddd.com'의 형태인 경우, "mail1.ddd.com"은 호스트 네임(210)이며, "ddd.com"은 도메인 네임(220)이라고 할 수 있다. 따라서, 호스트 네임(210)에서 도메인 네임(220)을 떼어낼 수 있다.
또한, 발신자 IP 어드레스를 검출할 수 있다: 상기한 SMTP 프로토콜은 일반적으로 TCP/IP에서 사용되므로 이 통신에 사용된 IP 어드레스는 수신자에게 알려진다. 또한, 상기한 IP 어드레스(230)는 서브넷(240)이라고 하는 그룹으로서 판매 또는 사용되는 것이 보통이다. 서브넷(240)은 여러가지 방식으로 규정될 수 있지만, 실제로는 서브넷의 일례는 최초 24 비트를 공유하는 모든 IP 어드레스를 포함하는 것으로 규정된 것일 수 있다. 따라서, 상기한 HELO 커맨드(200)가 'HELO ddd.com'라고 말하고 있는 경우, 'ddd.com'으로부터 발신하고 있는 다수의 머신이 존재하 수 있지만, 이들 대부분의 발신측 머신은 동일한 서브넷(240)에 존재할 것이다.
일반적으로, 일부 특징의 쌍들은 다른 것들에 비해 이해가 되지 않을 수도 있다. 예를 들어, HELO 호스트 네임(210)과 HELO 도메인 네임(220)의 짝짓기(pairing)는 이들 중 하나는 다른 하나로부터 유도된 것이므로 보다 덜 유용하다. 그러나, 서브넷(240)과 HELO 도메인 네임(220)의 짝짓기는, 이들 특징의 적어도 일부가 정상적인 환경에서 일치해야만 하므로 매우 유용한 것이다.
상기한 HELO 커맨드(200)의 다음에, 그 메시지의 발신측 IP 어드레스 및 'x.y.z'를 포함하는 라인과 표시된(alleged) 타임존을 포함한 시각이 해당 메시지의 수신측의 'Received from' 라인에 첨부될 수 있다. 스팸 필터는 상기한 헤더를 스캔하여 HELO 커맨드(200)에서 보여주는 것들을 확인할 수 있다. 상기한 발신자측의 표시된 타임존(하나의 특징)은 상기한 메시지의 타임스탬프(또다른 특징)와 일치해야 한다. 또한, 표시된 타임존은 상기한 HELO 커맨드(200) 내에 표시된 발신자의 머신 네임 또는 IP 어드레스와 일치해야 한다. 이들이 불일치하는 경우 스팸임을 나타내게 된다.
일반적으로, HELO 커맨드(200)에서의 IP 어드레스(예컨대, HELO x.y.z)는 'Received from' 라인 내의 IP 어드레스 또는 표시된 머신 네임과 동일 또는 일치해야 하지만, 스패머들은 자신의 IP 어드레스에 대하여 올바른 호스트 또는 도메인 네임을 사용하지 않음으로써 메일을 위조할 수 있다. 따라서, 이것이 불일치하면 스팸인 것을 나타내게 된다. 여기서, IP 어드레스(230)의 서브넷(240)이 도메인 네임(220)과 일치하지 않을 확률은, IP 어드레스(230)가 도메인 네임(220)과 일치하지 않을 확률보다 낮다.
도메인에 따라서는 자신의 머신에 대하여 HELO 커맨드(200)에 올바른 머신 네임을 정확하게 제공하도록 구성하고 있지 않은 경우도 있으며, 이러한 경우에 대해서, 필터는 특정 쌍을 후속 메시지에서 다시 발견한 경우 해당 쌍을 올바른 매치로서 받아들이도록 함으로써 무엇이 특정 쌍인지에 대해 학습(러닝)할 수 있다. 따라서, 상기한 필터는 필터의 트레이닝과 필터의 이용 시에 소정의 일관성이 유지 되는 한, 출처 정보에서의 사소한 에러나 불일치뿐만 아니라 개인적 선호도도 수용하도록 트레이닝될 수 있다. 또한, 예컨대 유효한 호스트 네임과 유효한 IP 어드레스로 채워진 가능한 쌍들의 리스트를 생성하여, 이 리스트에 존재하지 않는 것으로 검출된 출처 정보는 스팸일 가능성이 높게 된다.
본 발명의 태양에 따르면, 도 3에 나타낸 바와 같이 다음 커맨드로서 MAIL FROM 커맨드(300)가 예시되고 있다. 상기한 MAIL FROM 커맨드는 'Envelope From'으로서도 알려져 있으며 MAIL FROM 'a@b.c.d'의 형태를 갖는다. 여기서, 'b.c.d'는 상기한 'x.y.z'와 동일 또는 상이할 수도 있지만, 본 예시에서는 서로 동일해야 한다. 특히, 호스트 네임(310) 부분은 일치해야 한다. 예를 들어, 상기한 필터에서 유효한 일치를 나타내기 위해서는 'c.d' 부분은 'y.z' 부분과 동일 내지 대응되어야 한다. 상기한 호스트 네임(310)에서 도메인 네임(320)을 떼어내어, 상기한 HELO IP 어드레스(230)(도 2 참조)에서와 마찬가지로, 추가의 특징 쌍들을 제공할 수도 있다.
DATA 커맨드(400)에서와 같이, 상기한 메시지의 다음에 'From: e@f.g.h' 형태의 라인이 추가될 수 있다. 또한, 호스트 네임(410) 'f.g.h'는 상기한 'x.y.z' 및 'b.c.d'와 동일할 수 있다. 이와 달리, 적어도 도메인 네임(420) 'g.h'는 'y.z' 및 'c.d'와 일치해야 하지만, 항상 그럴 필요는 없다. 상기한 From 라인은 'Message from'이라고도 한다. 또한, 상기한 라인이 'From: "i"<e@f.g.h>'의 형태로 된 경우도 있다. 여기서, "i"는 디스플레이 네임(430)이라고 한다. 실제로, 많은 이메일 클라이언트에서는 'e@f.g.h 대신에 상기한 디스플레이 네임 "i"만을 표시하고 있다. 그러나, 상기한 "i"를 "j@k.l.m"과 같은 형태로 표시하여, 사용자로 하여금 메시지 발신자의 실체를 오인하도록 하는 경우도 있다. 이러한 디스플레이 네임은 일반적인 경우가 아니므로, 이것만으로도 스팸이라고 할 수 있다. 그러나, "i"가 "j@k.l.m"의 형태로 존재한다면, 'k.l.m'이 다른 호스트 네임과 일치해야 하며, 또는 적어도 도메인 네임들이 일치(예컨대 'l.m'이 'g.h'에 대응함)해야 한다.
경우에 따라서는, 특정한 3자릿글자(triple)(예컨대, x.y.z)가 호스트 네임 또는 도메인 네임인지를 밝히기 어렵거나 마땅하지 않은 경우가 있을 수도 있다. 때로는, 추측(guess)이 필요한 경우도 있다. 예를 들어, HELO 커맨드가 'x.y.z' 형태의 어드레스를 제공하고, MAIL FROM 커맨드가 'y.z' 형태의 어드레스를 갖는다면, 'x.y.z'는 호스트 네임이며 'y.z'는 도메인 네임이다라고 어느 정도의 확신을 가질 수 있다. HELO 커맨드가 'x.y.z' 형태의 어드레스를 제공하고, MAIL FROM 커맨드가 'b.c.d' 형태의 어드레스를 갖는다면, 'x.y.z' 및 'b.c.d'는 모두 호스트 네임 및 도메인 네임이며 'y.z' 및 'c.d'는 도메인 네임이다라고 추측할 수 있을 것이다. 최선의 추측만을 특징으로서 채용하는 것이 아니라, 모든 추측을 특징으로서 채용할 수 있다. 다른 방법으로, 최선의 추측을 이용할 수도 있다. 이러한 추측을 수행하기 위한 간단하고 다양한 발견적 학습법을 추론해낼 수 있다. 일반적으로, 머신 러닝 시스템의 취급에 있어서, 상기한 추측이 주어진 유형의 메일에 대해 일관적인 한 상기한 추측이 항상 옳다고 하는 것은 중요하지 않으며, 동일한 특징 쌍들은 일관되게 일어난다.
또한, SMTP MAIL FROM 커맨드 내의 도메인 및 호스트 네임에 관련된 특징; HELO 커맨드 내의 도메인 및 호스트 네임에 관련된 특징; Received from 헤더 내의 IP 어드레스 또는 서브넷에 관련된 특징; 디스플레이 네임 내의 도메인 또는 호스트 네임에 관련된 특징; 'Message From'에서의 도메인 또는 호스트 네임에 관련된 특징; 최후의 Received from 헤더 내의 타임존에 관련된 특징; 및 발신자가 사용한 메일링 소프트웨어의 종류에 관한 특징은 모두 어떻게든 일치해야 한다. 상기한 IP 어드레스와 서브넷을 제외하고는, 스패머들에 의해 리스트되어 있는 속성들의 거의 대부분이 위조될 수 있으므로, 전술한 특징들 중 임의의 쌍들은 유용하다. 따라서, IP 어드레스 또는 서브넷을 포함하고 있는 쌍들은 다른 임의의 특징들과 결합된 경우 매우 효과적이고 유용하다.
도 5는 메일 메시지의 Message From 라인 및 Received from 헤더(전체적으로 500으로 지칭함)로부터 유도될 수 있는 특징 쌍들을 예시하고 있다. 도시된 바와 같이, 도메인 네임 "domain.com"(510)은 IP 어드레스(520), 발신자측의 표시된 타임존(530), 및/또는 IP 어드레스(520)의 서브넷(540)과 일치하도록 짝짓기될 수 있다. 또한 다른 방법으로, 상기한 발신자측의 표시된 타임존(530)은 발신자측의 표시된 IP 어드레스(520)와 일치하도록 짝짓기될 수 있다. 도면에 예시되지 않은 다른 특징 쌍들뿐만 아니라 본 명세서에 도시되지 않은 다른 특징들에 대해서도 전술한 내용이 적용될 수 있다.
도 6 및 도 7은 개선된 스팸 검출을 도모하는 추가의 특징 생성 시스템을 도시하고 있다. 도 6은 한 주행길이의 문자열에 관련된 특징과 적어도 이들 문자열 의 엔트로피에 부분적으로 기초하고 있는 특징들을 생성하기 위한 시스템(600)의 일례에 대한 블록도를 나타낸 것이다.
메시지 내의 대부분의 특징은 그 메시지에서 발견된 단어에 관련되어 있다. 그러나, 메시지 또는 메시지의 일부분에 소정의 문자열이 존재하고 있다는 사실도 유용할 수 있다. 예를 들어, 스패머들은 "rich" 또는 "RICH"에 대신하여 "R.I.C.H." 등과 같은 문자열을 사용하기도 한다. 패턴-매칭 기술을 이용하면, 이와 같이 "R.I.C.H."로 기록된 단어로부터 기본 단어 "RICH"를 용이하게 추출하여 찾아낼 수 있다.
또한, 스패머들은 제목란 또는 메시지의 시작 또는 끝에 무작위 문자들(letters)을 속임문자로서 추가시키기도 한다. 이는 통상의 필터에서 사용하고 있는 완전일치 기술을 무능화시킨다. 이들 무작위 문자열은 정상적인 메일에서는 거의 찾아볼 수 없는 "xz" 또는 "qp" 등의 문자 N-그램을 포함하고 있을 가능성이 있기 때문에, 메시지에 이러한 것들이 나타난다는 것은 그 메시지가 악성(예컨대 스팸)이다는 강한 표시자일 수 있다. 또한, 스패머들은 기호나 마침표 및 하이픈 등의 구두점을 임의로 추가하여, 스팸의 특성으로서 알려져 있는 단어 및/또는 구문을 변형시킴으로써, 전형적인 스팸 필터를 빠져 나갈 수 있다.
이러한 의도적인 조작을 둔화시키기 위하여, 상기한 시스템(600)에서는 의도적인 문자의 치환, 삽입 및 오기입을 식별 및 검출하기 위하여 가능한 문자열 각각에 대한 특징을 생성한다. 이를 위해, 상기한 시스템(600)은 텍스트를 하나의 문자씩 답보(walk through)해 가면서 주행길이 n(예컨대, n은 1 이상의 정수) 각각에 대한 특징을 생성하며, 그 결과 단어, 구두점, 스페이스 및 기타 컨텐트를 효과적으로 포착(pick up)하게 된다.
예를 들어, 발신자(610)는 도시된 바와 같이 메시지(620)를 발신한다. 상기한 메시지(620)는 메시지 서버(630)에 전달되며, 상기 서버(630)에서 상기 메시지(620)는 문자 시퀀싱 컴포넌트(640)에 의해 처리되어 하나 또는 그 이상의 특징을 얻게 된다. 상기한 문자 시퀀싱 컴포넌트(640)는 스팸을 나타내는 특정 문자열, 스트링 및/또는 서브스트링을 검색함으로써 상기한 메시지의 적어도 일부분을 분석한다. 상기한 문자열, 스트링 및/또는 서브스트링은 완전한 단어 또는 스페이스로 분리된 단어일 필요는 없다.
예를 들어, 상기한 메시지(620)가 다음을 포함하고 있다고 가정해 보자.
"Get Rich ~-quick-~ by Calling now!!!!!"
주행길이가 6인 경우, 다음의 문자열(650)의 예를 생성할 수 있다.
"Get Ric"
"et Rich"
"t Rich "
" Rich ~-"
주행길이가 7인 경우, 다음의 문자열(650)의 예를 생성할 수 있다.
"Rich ~-q"
"ich ~-qu"
"now!!!!"
상기한 문자열(650)이 식별 및 생성되면, 특징 생성 컴포넌트(660)는 각 문자열에 대한 특징(670)을 생성하게 된다. 그러면, 이 특징(670)은 필터 트레이닝 컴포넌트(680)에서의 예를 들어 스팸 필터의 트레이닝에 이용되게 된다.
동일 메시지에 대해, 하위길이(sublength)(서브스트링)와 개별길이(스트링) 양방을 추종(keep track of)하기 위하여, 예를 들어 1 내지 n까지의 복수의 주행길이를 사용할 수도 있다.
문자 N-그램에 관해서는, 상기한 N-그램이 어디에 나타나는지에 따라서 동일 또는 다른 특징을 사용할 수 있다. N-그램은 From 어드레스, 제목란, 텍스트 본문, html 본문 및/또는 첨부물에 위치할 수도 있다. 또한, N-그램 특징은 메시지 내에서의 위치에 따라서 생성되도록 할 수도 있다. 예를 들어, 속임문자(예를 들어 N-그램을 포함함)는 제목의 시작 또는 끝에 나타나는 경향이 있으므로, 제목란의 시작 또는 끝에 있는 희귀한 문자열은 중간에 위치하는 경우에 비해 보다 스팸이 가능성이 높다. 따라서, 제목란의 시작과 끝과 같이 원하는 위치에서만 속임문자 및/또는 N-그램을 검출하도록 상기한 시스템(600)을 프로그램할 수 있다. 마찬가지로, N-그램 특징도 메시지의 시작 또는 끝에 대해 위치 종속적일 수 있다.
상기한 시스템(600)은 외국어에 대해서도 유용하며, 특히 한국어 및 일본어(예컨대 히라가나 및 가타카나)와 같이 스페이스로 단어를 분리하고 있지 않은 경우에는 특히 유용하다. 전술한 바와 같이, 서로 다른 문자 길이의 거의 대부분의 문자열을 용이하게 검출할 수 있다. 또한, 상기한 시스템(600)은 스페이스가 거의 없는 경우, 영어에서 좀처럼 사용되지 않는 문자들이 다수 검출된 경우(즉, 큰 바 이트의 문자), 또는 소정의 유니코드(unicode) 문자 타입이 검출된 경우와 같이, 해당 텍스트가 외국어로 된 것으로 의심되는 경우에만 호출될 수도 있다. 따라서, 상기한 문자 N-gram은 대문자(uppercase), 소문자(lowercase), 구두점 또는 스페이스 특성을 갖지 않는 것으로 판정된 문자에 대해서만 사용된다. 예를 들어, 메시지를 스캔해 본 결과, 스페이스가 거의 없고 및/또는 큰 바이트의 긴 스트링의 문자열이 검출된 경우에, 상기한 N-그램 시퀀싱을 호출(invoke)한다. 이와 같이 문자 N-그램을 제한적으로 사용하게 되면, 전술한 바와 같이, 모든 이메일에 대해서 무제한(full) N-그램을 사용하기 위해서는 비용이 많이 소요되며 많은 시간이 걸리므로, [예컨대 모든 메시지에 대한] 무제한 N-그램보다 유익하다.
희귀 문자열을 사용하는 것은 속임문자를 검출하는 한 방법이지만, 많이 있을 수 있는 희귀 문자열 각각에 대한 리스트를 작성할 필요가 있다. 본 발명의 또다른 태양에 따르면, 속임문자를 검출하는 또다른 방법은 높은 엔트로피의 문자열을 검출하는 것과 관련된다. 높은 엔트로피의 문자열을 검출하는 것은 보다 비용면에서 효과적이며 보다 유효한 스팸 식별 방법일 수 있다.
도 6을 참조하면, 상기한 시스템(600)은 속임문자의 검출을 위한 또다른 및/또는 추가의 기술을 제공하는 엔트로피 검출 컴포넌트(690)를 구비하고 있다. 상기한 엔트로피 검출 컴포넌트는 해당 메시지가 스팸임을 나타내는 무작위 문자열의 실례(instances)를 검색함으로써 메시지의 적어도 일부분을 분석한다.
문자열의 엔트로피는 본질적으로 해당 문자열의 비유사성 또는 무작위성과 같다. 일반적으로, 문자열 "abc...z"의 확률 P를 P(abc...z)라고 하면, 이 문자열 의 엔트로피는 다음과 같다.
-log2P(abc...z)
평균 엔트로피 또는 문자(a, b, c, ..., z)별 엔트로피는 다음과 같이 표현되며,
Figure 112004021377525-pat00001
이것은 속임문자의 인식 및 식별과 유사한 방식으로 사용될 수 있다. 엔트로피 측정 단위는 "비트"이다.
문자열의 확률을 얻는 방법은 여러가지가 있을 수 있다. 예를 들어, 정상 및 악성 이메일 전체를 이용하거나, 및/또는 이메일 이외의 데이터베이스를 이용함으로써, 기존의 정상 이메일에 대해 문자 N-그램 언어 모델을 트레이닝할 수 있다. 다른 발견적 학습법을 이용하여 높은 엔트로피 또는 평균 엔트로피를 검출할 수도 있다. 예를 들어, 공통(common) 문자 쌍 또는 3자릿글자(예컨대 유효 문자열 또는 2 및 3개 문자, 각각)의 리스트를 작성할 수도 있다. 또한, 상기한 리스트에 나타나지 않는 임의의 주어진 문자열 내에서의 상기한 문자 쌍 또는 3자릿글자의 비율을 해당 문자열의 엔트로피 판정에 포함시킬 수도 있다.
실제로, 개선된 강건한 스팸 검출 시스템을 제공하기 위해서는 상대 엔트로피가 매유 유용할 수 있다. 보다 구체적으로, 제목란의 시작과 끝에서는 중간에 비해 평균 엔트로피가 높게 또는 비교적 높게 검출될 수 있다. 실제로, 예를 들어, 제목란의 시작에서는 중간에 비해 평균 엔트로피가 0.5 비트 높게 나타난다.
또한 다른 방법으로, 메시지의 시작 또는 끝에서의 평균 엔트로피는 메시지 전체의 평균 엔트로피, 또는 메시지의 중간에서의 평균 엔트로피에 비해 높을 수 있다. 예를 들어, 메시지의 끝에서의 평균 엔트로피는 메시지의 중간에서 보다 적어도 1 비트 높다(예를 들어, 단위를 비율 또는 인수(factor)로 변환할 수도 있음). 따라서, 많은 특징들이 사용될 수 있다.
무작위 문자열뿐만 아니라, 대부분의 스팸은 텍스트 대신에 이미지를 포함하고 있다. 이들 이미지는 단지 1이나 0 또는 다른 숫자의 시퀀스이다. 이 때문에, 스패머들은 이미지 숫자열에 최소량의 스테틱(static)을 입력함으로써 통상의 스팸 필터링 시스템을 통과하는데 성공할 수 있다. 따라서, 이미지의 엔트로피도 문자열의 엔트로피와 유사한 방식으로 판정될 수 있다. 또한, 하나 이상의 메시지에서 검출되게 될 이미지들을 서로 비교할 수도 있다. 이들이 실질적으로 유사한 것으로 판정되면, 동일한 또는 실질적으로 동일한 이미지를 포함하는 모든 메일을 차단할 수 있다.
마지막으로, 문자열 및 이미지열의 엔트로피 이벤트에 관련된 특징(670)은 필터 트레이닝 컴포넌트(680)에서의 머신 러닝 필터의 트레이닝에 이용될 수 있다.
도 7을 참조하면, 본 발명의 일면에 따른 스팸 검출을 가능케 하는 특징 생성 시스템(700)의 일례를 블록도로서 도시하고 있다. 시스템(700)은 메시지 서버(710)를 구비하고 있으며, 발신자(720)가 메시지(730)를 발신하면 그 수신측에 도달하기 전에 상기한 메시지 서버(710)에 전달된다. 메시지 서버(710)에서, 상기한 메시지는 메시지 헤더 분석 컴포넌트(740), 이미지 프로세싱 컴포넌트(750) 및/ 또는 메시지 및 특징 사이징 컴포넌트(760)에 의해 파싱되어 다수의 특징을 얻게 된다.
상기한 메시지 헤더 분석 컴포넌트(740)는 머신 러닝 필터의 트레이닝과 연계하여 메시지 헤더의 실질적으로 모든 특징을 분석한다. 특히 상기한 머신 러닝은 모든 유용한 헤더 특징을 자동적으로 식별하도록 채용될 수 있다. 이러한 방법의 일례로는, "X-Priority: 3" 등의 특정한 헤더뿐만 아니라, "X-Priority" 등의 헤더 라인 타입의 존부에 적어도 일부 기초하여 특징을 생성하는 것을 포함한다. 또한, 탈퇴(unsubscribing)에 관한 헤더 라인은 스팸의 식별에 보다 유용하다.
일부 헤더 라인은 사용자의 선호도에 따라서 제외시킬 수도 있다. 또한, 발신자가 사용한 메일 소프트웨어의 종류 등과 같은 헤더 라인 컨텐트는 스팸의 검출에 유용하다. 도든 헤더 라인에 대해 그 존부, 및/또는 컨텐트를 조사 및 분석하는 것은, 종래의 제목란과 메시지 본문에서의 특징만을 이용하고 있는 전형적인 머신 러닝 알고리즘에 비해 개선된 점들이다. 일부 머신 러닝 알고리즘에서도 이메일 헤더에 기초하여 특정한 특징을 채용하고 있지만, 이전의 방식에서는 헤더 라인 내의 모든 또는 실질적으로 거의 대부분의 특징을 사용하고 있지는 않다.
스패머들은 이미지의 경우 텍스트에 비해 필터에서 분석하기가 보다 곤란하고 많은 시간이 소요된다는 이유로 텍스트 보다는 이미지를 사용하고자 하기 때문에, 이미지 프로세싱 컴포넌트(750)는 메시지 내에 포함된 이미지에 기초한 각종의 특징을 파싱해 낼 수 있도록 적용된다. 예를 들어, 이미지의 갯수, 위치(예컨대 메시지에 임베드되거나 외부로 링크됨) 및/또는 타입(예컨대, JPGs 및/또는 GIFs) 을 메시지로부터 확인하여 특징으로서 사용할 수 있다. 또한, 이미지의 X-Y 치수뿐만 아니라 그 사이즈(예컨대 바이트)도, 메시지 내에 임베드된 이미지에 대해 최소의 프로세싱을 통해 판별해 낼 수 있다.
개인 디지털 사진을 포함하는 정당한 메일이 차단되는 것을 방지하기 위하여, 이미지의 사이즈가 일반적인 디지털 카메라에 의해 제작된 사이즈 및/또는 치수와 일치하도록 특수한(일반적으로 포지티브) 특징을 생성할 수도 있다. 이미지의 총 넓이뿐만 아니라 바이트 단위의 이미지 사이즈에도 특징을 관련시킬 수 있다. 마지막으로, 메시지 내의 이미지가 다른 곳(예컨대 메시지 외부)으로 링크하고 있는지의 여부에 관련된 특징은, 대부분의 스패머들은 자신의 스팸에 외부로의 링크(external link)를 포함시키고 있으므로, 스팸임을 나타낼 수 있다.
또다른 방법으로, 메시지에 클릭가능한(clickable) 이미지를 포함하고 있어, 이미지 자체가 외부로 링크된 이미지가 아니라 클릭가능한 하이퍼링크로서 사용될 수도 있다. 이 경우, 메시지 내의 HTML 텍스트는 <A HREF="first URL"><IMG SRC="second URL"></A>와 같은 태그 패턴을 포함하고 있다. 여기서, 'first URL'과 'second URL'은 서로 다르다. 따라서, 상기한 태그 패턴의 적어도 일부에 관ㄹ녀된 특징을 스팸 필터의 트레이닝에 이용할 수 있다. 일반적으로, HTML 속성 및 태그 패턴 내에서의 개별 위치는, 대부분의 스패머들이 텍스트가 아닌 이미지를 사용하여 스팸 필터를 피하고자 하므로, 스팸임을 나타낼 수 있다. 따라서, 이러한 정보를 추출하여 필터의 트레이닝에 이용할 수 있다.
대부분의 스팸은 사이즈가 크지 않기 때문에, 많은 서로 다른 사이즈 특징들 을, 메시지 사이징 컴포넌트(760)에서 그 사이즈를 하나 또는 그 이상의 버킷(bucket)으로 분할(granularize)하여 이용할 수 있다. 한 방법으로는 특징들을, 메시지 사이즈가 100, 200, 400 및 b 바이트(여기서 b는 1 이상의 정수)를 넘는 경우로 분할하는 것이다. 이 분할은 사이즈가 500 바이트인 메시지는 사이즈가 100, 200, 400을 넘는 특징들과 연관되도록 중첩하는 버킷들에 기초할 수 있다. 다른 방법으로, 중첩하지 않는 버킷에 기초할 수도 있다. 즉, 각 버킷들이 특정 한 사이즈의 메시지에 속하게 하여, 하나의 사이즈 특징이 각 메시지에 연관되도록 한다. 예를 들어, 메시지 사이즈가 100 바이트 미만인 버킷과, 100 이상 200 바이트 미만의 버킷과, 200 이상 400 바이트 미만의 버킷과, b 바이트 미만의 버킷이 존재할 수 있다.
두번째 방법으로, 스팸 및/또는 스팸성 메시지는 예컨대 속임문자 등이 존재하므로 제목란과 디스플레이 네임이 큰 경향이 있으므로, 상기한 메시지 사이징 컴포넌트를 보다 작은 사이즈 규모를 갖는 제목란 및 디스플레이 네임에 적용할 수도 있다.
또한, 메시지를 식별하여 정보 비트를 식별하는 과정에서, 특징 생성 컴포넌트(770)가 상기한 정보로부터 특징들을 생성한 다음, 이들 또는 그 중 선택된 부분을 필터 트레이닝 컴포넌트(780)에서 연계하여 사용하도록 통신할 수도 있다.
본 발명에 따른 각종의 방법들을 일련의 동작을 통해 설명하기로 한다. 그러나, 본 발명에 따르면 일부 동작들이 도시된 순서와는 다른 순서로 일어날 수 있으며, 및/또한 다른 동작들과 동시에 일어날 수도 있으므로, 상기한 동작의 순서에 국한되지는 않는 것으로 이해되어야 한다. 예를 들어, 본 기술분야의 전문가라면, 방법들을 상태도(state diagram)와 같이 서로 연관된 일련의 상태 또는 이벤트로서 표현할 수도 있음을 이해할 것이다. 또한, 본 발명에 따른 방법을 구현함에 있어서 반드시 예시된 모든 동작을 수행할 필요는 없다.
도 8은 개선된 스팸 검출과 관련하여 특징 생성을 도모하는 방법(800)의 일례를 나타낸 흐름도이다. 상기한 방법(800)은 단계 810에서 메시지를 수신함으로써 개시된다. 단계 820에서, 적절한 이메일 파싱 컴포넌트에 의해 적어도 메시지의 일부분이 파싱되어, 그 메시지의 출처 정보에 대응하는 특징이 생성된다. 상기한 특징은 단계 830에서 쌍으로 결합된다. 단계 840에서, 가장 유용한 특징 쌍들이 선택되며, 단계 850에서 이러한 특징 쌍들에 의해 필터가 머신 러닝 알고리즘을 이용하여 트레이닝되게 된다. 상기한 방법(800)은 상기한 필터를 트레이닝하기에 충분한 정도로 원하는 만큼 반복 수행된다.
메시지의 출처 정보로부터 유도되는 정보는 많지만, 이들 특징들 중에는 정당한 메일과 스팸을 구분함에 있어서 다른 것들에 비해 보다 유용한 것들이 있다. 특히, IP 어드레스와 그 관련 서브넷 등과 같은 특징들은 스패머들이 수정 또는 속임수를 부리기가 매우 어렵다. 따라서, 정당한 사용자의 경우, 이들 특징은 발신자의 표시된 머신 네임 및/또는 발신자의 표시된 타임존 등과 같은 다른 특징들과 일치해야 한다. 따라서, 이들 특징 쌍들을 조사하는 경우, 각 특징 쌍들이 일치한다는 것은 해당 메시지가 (예컨대 스팸이 아닌) 정당할 가능성이 보다 높음을 나타낸다. 반대로, 이들 쌍들이 일치하지 않는다면 해당 메시지가 스팸일 가능성이 높 음을 나타낸다.
도 9는 본 발명에 따른 도 8에 도시된 트레이닝 필터를 채용하는 방법(900)의 일례에 대한 흐름도이다. 특히, 상기한 방법(900)은 메시지를 수신하는 단계 910; 하나 이상의 출처 특징을 생성하는 단계 920; 및 이들 쌍들을 짝짓기하여 보다 유용한 특징 쌍을 획득하는 단계 930을 포함한다. 단계 940에서, 상기한 특징 쌍들은 머신 러닝 필터에 패스되어 특정 메시지의 스팸성 여부를 판정한다. 단계 950에서, 해당 메시지의 스팸성에 대해 상기한 머신 러닝 시스템으로부터의 판정을 얻게 된다. 예를 들어, 상기한 판정은 해당 메시지가 스팸일 가능성에 대한 확률 형태로 주어질 수 있다.
도 10에 도시된 바와 같이 스팸 검출을 개선하기 위한 추가의 특징이 생성될 수 있다. 도 10은, 방법(1000)의 일례에 대한 흐름도를 도시한 것으로서, 상기한 방법(1000)은 하나 또는 그 이상의 메시지를 수신하는 단계 1010; 메시지 및/또는 제목란의 텍스트를 답보하여 최대 주행길이 n까지의 문자열 각각에 대한 특징을 생성하는 단계 1020; 하위길이의 문자열 각각에 대한 특징을 생성하는 단계 1030을 포함한다.
또한, 단계 1040에서, N-그램의 위치[예를 들어, 제목란 및/또는 메시지 본문의 시작, 끝, 중간]에 기초하여 문자 N-그램의 특징을 생성할 수 있다. 단계 1050에서, 상기한 제목란 및/또는 메시지 본문의 중간과 비교하여 그 시작 및/또는 끝에서 문자열이 나타날 수 있으므로, 상기한 문자열의 상대적 엔트로피에 관련된 특징도 생성할 수 있다. 단계 1050에서, 문자열에 대한 높은 엔트로피 및 문자별 엔트로피(예컨대 평균 엔트로피)를 판정하여 특징으로서 채용할 수도 있다. 마지막으로, 단계 1060에서 상기한 특징들을 이용하여 머신 러닝 필터의 트레이닝을 수행한다. 상기한 방법(1000)은 원하는 수의 메시지, 엔트로피 이벤트 및/또는 문자열에 대해 실질적으로 트레이닝될 때까지 반복 수행될 수 있다.
도 11은 스팸 검출을 실현하기 위하여 도 10에 따라 트레이닝된 필터를 채용하는 방법(1100)의 일례에 대한 흐름도이다. 상기한 방법(1100)은 메시지를 수신하는 단계 1110; (예컨대 복수의 길이로 된) 유효 문자열 리스트에 일치 및/또는 불일치하는 문자열을 찾기 위해 상기한 메시지의 적어도 일부를 스캔하는 단계 1120; 및 상기한 유효 문자열 리스트에서 발견되지 않은 문자열을 포함하여, 메시지 및/또는 제목란의 문자열의 적어도 일부에 대한 엔트로피를 검출하는 단계 1130를 포함한다. 단계 1140에서, 검출된 이벤트들은 특징으로서 사용되며 머신 러닝 필터에 패스된다. 단계 1150에서, 상기한 머신 러닝 시스템으로부터 상기한 메시지의 스팸성 여부에 대한 판정을 획득한다.
도 12 및 도 13을 참조하면, 본 발명의 또다른 태양에 따른 머신 러닝 알고리즘에서 사용하기 위한 개선된 특징 생성을 가능케 하는 프로세스(1200 및 1300)의 일례에 대한 흐름도가 각각 도시되어 있다. 먼저, 상기한 방법(1200)은 하나 또는 그 이상의 메시지를 수신하는 단계 1210; 및 헤더 라인을 파싱 및 분석하여 특징을 생성하는 단계 1220를 포함한다. 또한, 단계 1230에서는, 선택적으로, 메시지 및/또는 특징의 사이즈(예컨대 메시지 사이즈, 디스플레이 네임 길이, 제목란의 길이)에 관련된 특징이 생성될 수도 있다. 단계 1240에서, 메시지 내의 임의의 이미지에 대해서는, 우선, 그 사이즈, 위치(메시지 내부 또는 외부 링크) 및/또는 수량을 분석하여 추가 특징을 생성할 수 있다. 단계 1250에서는, 생성된 거의 대부분의 특징들을 머신 러닝 시스템을 이용하여 필터의 트레이닝에 사용한다.
도 12에 도시된 트레이닝 필터는 도 13에 예시된 프로세스(1300)에 기재된 바와 같이 새로운 메시지에도 적용될 수 있다. 단계 1310에서, 하나 또는 그 이상의 메시지가 수신된다. 단계 1320에서, 메시지로부터 헤더 특징을 파싱해낸다. 단계 1320 및 단계 1330에서는, 선택적으로, 메시지 및/또는 특징 사이즈 및/또는 이미지 특성에 대응하는 특징들을 상기한 메시지로부터 각각 파싱할 수도 있다. 단계 1340에서, 이들 특징들은 머신 러닝 필터에 패스되거나 또는 조사되게 된다. 단계 1350에서는, 적어도 부분적으로 파싱된 특징들에 기초하여 해당 메시지의 스팸성에 대한 정도(amount) 또는 확률을 나타내는 판정을 획득한다.
본 발명의 다양한 태양에 대한 이해를 도모하기 위하여, 도 14 및 하기의 설명을 통해 본 발명의 각종 태양이 구현될 수 있는 적합한 오퍼레이팅 환경(1410)에 대해 간략하게 설명하기로 한다. 본 발명에서는 하나 또는 그 이상의 컴퓨터 또는 기타 장치에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령문의 일반 형태로 기술하고 있지만, 본 기술분야의 전문가라면 다른 프로그램 모듈과 결합한 현태 및/또는 하드웨어와 소프트웨어의 결합물로서 구현될 수도 있음을 이해할 것이다.
그러나, 일반적으로 프로그램 모듈은 특정 태스크를 수행하거나 특정 데이터 타입을 구현하는 루틴, 프로그램, 오브젝트 컴포넌트, 데이터 구조 등을 포함한다. 상기한 오퍼레이팅 환경(1410)은 적합한 오퍼레이팅 환경의 일례일 뿐이며, 본 발명의 기능이나 용도 범위에 대한 어떠한 제한을 두기 위한 것은 아니다. 본 발명에 사용하기에 적합한 다른 알려져 있는 컴퓨터 시스템, 환경 및/또는 구성에는 개인용 컴퓨터, 핸드헬드 또는 랩탑 디바이스, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 프로그래머블 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 및 상기한 시스템 또는 디바이스를 구비하는 분산형 컴퓨팅 환경 등을 포함하며, 이것에 국한되지는 않는다.
도 14를 참조하면, 본 발명의 각종 태양을 구현하기 위한 환경(1410)의 일례를 나타낸 것으로서, 상기한 환경(1410)은 컴퓨터(1412)를 포함한다. 상기한 컴퓨터(1412)는 프로세싱 유닛(1414), 시스템 메모리(1416) 및 시스템 버스(1418)를 포함한다. 상기한 시스템 버스(1418)는 이것에 국한되지는 않지만 시스템 메모리(1416)를 포함하는 시스템 구성요소들을 상기한 프로세싱 유닛(1414)에 연결시킨다. 상기한 프로세싱 유닛(1414)은 임의의 가용한 프로세서일 수 있다. 듀얼 마이크로프로세서 및 기타의 멀티프로세서 구조도 상기한 프로세싱 유닛(1414)으로서 이용될 수 있다.
시스템 버스(1418)는 임의의 이용가능한 버스 구조를 이용하는 메모리 버스 또는 메모리 컨트롤러, 주변 버스 또는 외부 버스 및/또는 로컬 버스를 포함하는 임의의 종류의 버스 구조로 구성될 수 있으며, 상기한 이용가능한 버스 구조로는, 이것에 국한되지는 않지만, 11비트 버스, ISA(Industrial Standard Architecture), MSA(Micro-Channel Architecture), EISA(Extended ISA), IDE(Intelligent Drive Electronics), VLB(VESA Local Bus), PCI(Peripheral Component Interconnect), USB(Universal Serial Bus), AGP(Advanced Graphics Port), PCMCIA(Personal Computer Memory Card International Association bus) 및 SCSI(Small Computer Systems Interface)가 포함된다.
상기한 시스템 메모리(1416)는 활성 메모리(1420) 및 불활성 메모리(1422)를 포함한다. 기동시와 같이, 컴퓨터(1412) 내의 엘리먼트들 사이의 정보의 교환을 위한 기본 루틴을 포함하고 있는 BIOS(basic input/output system)는 불활성 메모리(1422)에 저장되어 있다. 상기한 불활성 메모리(1422)의 예로는, 이것에 국한되지는 않지만, ROM(read only memory), PROM(programmable ROM), EPROM(electrically programmable ROM) 또는 플래시 메모리를 포함한다. 활성 메모리(1420)는 외부 캐시 메모리로서 기능하는 RAM(random access memory)를 포함한다. 상기한 RAM의 예로는, 이것에 국한되지는 않지만, SRAM(synchronous RAM), DRAM(Dynamic RAM), SDRAM(synchronous DRAM), DDR SDRAM(double data rate SDRAM), ESDRAM(enhanced SDRAM), SLDRAM(Synchlink DRAM) 및 DRRAM(direct Rambus RAM) 등과 같은 형태로 이용된다.
또한, 상기한 컴퓨터(1412)는 착탈식/비착탈식, 활성/불활성 컴퓨터 스토리지 매체를 포함한다. 도 14는 디스크 스토리지(1424)를 예시하고 있다. 상기한 디스크 스토리지(1424)는, 이것에 국한되지는 않지만, 자기 디스크 드라이브, 플로피 디스크 드라이브, 테이프 드라이브, Jaz 드라이브, Zip 드라이브, LS-100 드라이브, 플래시 메모리 카드 또는 메모리 스틱을 포함한다. 또한, 디스크 스토리지(1424)는 개별 스토리지 매체를 포함할 수도 있으며, 또는 이것에 국한되지는 않지만, CD-ROM, CD-R 드라이브, CD-RW 드라이브, DVD-ROM 등과 같은 광학 디스크 드라이브를 포함하는 다른 스토리지 매체와 결합될 수도 있다. 상기한 디스크 스토리지 디바이스(1424)와 시스템 버스(1418) 사이의 접속을 제공하기 위하여, 인터페이스(1426)로서 일반적으로 착탈식 또는 비착탈식 인터페이스가 사용된다.
도 14는 적합한 오퍼레이팅 환경(1410)에서의 사용자와 기본 컴퓨터 리소스 사이의 중재자로서 기능하는 소프트웨어를 기술하고 있다. 이러한 소프트웨어는 오퍼레이팅 시스템(1428)을 포함한다. 상기한 오퍼레이팅 시스템(1428)은 디스크 스토리지(1424)에 저장될 수 있으며, 컴퓨터 시스템(1412)의 리소스를 제어 및 할당하도록 동작한다. 그러면, 시스템 애플리케이션(1430)은 시스템 메모리(1416) 또는 디스크 스토리지(1424) 중 어느 하나에 저장된 프로그램 모듈(1432) 및 프로그램 데이터(1434)를 통하여 상기한 오퍼레이팅 시스템(1428)에 의한 리소스 관리를 이용한다. 본 발명은 각종의 오퍼레이팅 환경에서 구현될 수 있으며, 결합된 형태의 오퍼레이팅 환경에서도 구현될 수 있는 것으로 이해되어야 한다.
사용자는 입력 장치(1436)를 통해 상기한 컴퓨터(1412)에 정보 또는 커맨드를 입력한다. 상기한 입력 장치(1436)의 예로는, 이것에 국한되지는 않지만, 마우스, 트랙볼, 스타일러스, 터치패드, 키보드, 마이크로폰, 조이스틱, 게임패드, 위성 수신기, 스캐너, TV 튜너 카드, 디지털 카메라, 디지털 비디오 카메라, 웹 카메라 등을 들 수 있다. 이들 및 기타의 입력 장치는 인터페이스 포트(1438)를 매개로 시스템 버스(1418)를 통해 프로세싱 유닛(1414)에 접속되어 있다. 인터페이스 포트(1438)로는 예를 들어 시리얼 포트, 패러렐 포트, 게임 포트 및 USB(universal serial bus)를 들 수 있다. 출력 장치(1440)는 일부 입력 장치(1436)와 동일한 타입의 포트를 사용할 수도 있다. 따라서, 예를 들어 USB 포트는 컴퓨터(1412)에 입력을 제공할 뿐만 아니라, 상기한 컴퓨터(1412)로부터 출력 장치(1440)에 정보를 출력하는데 이용할 수도 있다. 출력 어댑터(1442)는 출력 장치(1440)들 중에는 특수한 어댑터를 필요로 하는 모니터, 스피커 및 프린터 등의 출력 장치(1440)가 있기 때문에 제공되는 것이다. 상기한 출력 어댑터(1442)의 예로는, 이것에 국한되지는 않지만, 출력 장치(1440)와 시스템 버스(1418) 사이의 접속 수단을 제공하는 비디오 및 사운드 카드를 들 수 있다. 또한, 다른 장치 및/또는 장치 시스템들은 리모트 컴퓨터(1444)와 같이 입력 및 출력 능력을 모두 구비하고 있다.
상기한 컴퓨터(1412)는 리모트 컴퓨터(1444)와 같은 하나 또는 그 이상의 컴퓨터에 논리 접속된 네트워크 환경에서 동작할 수 있다. 상기한 리모트 컴퓨터(1444)는 개인용 컴퓨터, 서버, 라우터, 네트워크 PC, 워크스테이션, 마이크로프로세서 기반 어플라이언스, 피어 디바이스 또는 기타의 공통 네트워크 노드 등일 수 있으며, 일반적으로는 컴퓨터(1412)와 관련하여 전술한 엘리먼트의 다수 또는 모두를 포함하고 있다. 간단히 설명하면, 도면에서는 메모리 스토리지 디바이스(1446)만을 리모트 컴퓨터(1444)와 함께 도시하고 있다. 리모트 컴퓨터(1444)는 네트워크 인터페이스(1448)를 통해 컴퓨터(1412)에 논리접속되며 통신 접속(1450)을 매개로 물리적으로 접속된다. 네트워크 인터페이스(1448)는 LAN(local area network) 및 WAN(wide area network)과 같은 통신 네트워크를 포함한다. LAN 기술 은 FDDI(Fiber Distributed Data Interface), CDDI(Copper Distributed Data Interface), Ethernet/IEEE 1102.3, 토큰링/IEEE 1102.5 등을 포함한다. WAN 기술의 예로는, 이것에 국한되지는 않지만, 포인트간 링크, ISDN 및 그 변형(variation) 등의 회로 스위칭 네트워크, 패킷 스위칭 네트워크 및 DSL(Digital Subscriber Lines)을 포함한다.
상기한 통신 접속(1450)은 상기한 네트워크 인터페이스(1448)를 버스(1418)에 접속시키는데 이용된 하드웨어/소프트웨어이다. 도면에서는 상기한 통신 접속(1450)을 컴퓨터(1412)의 내측에 도시하고 있지만, 컴퓨터(1412)의 외측에 배치할 수도 있다. 네트워크 인터페이스(1448)의 접속에 필요한 하드웨어/소프트웨어의 예로는, 일반 전화급 모뎀, 케이블 모뎀 및 DSL 모뎀, ISDN 어댑터 및 이더넷 카드 등의 모뎀과 같이 내부 및 외부 기술을 포함한다.
이상 본 발명의 실시예들에 대해 설명하였다. 본 발명을 설명함에 있어서, 모든 가능한 컴포넌트 또는 방법의 결합예를 설명하는 것은 불가능하지만, 본 기술분야의 전문가라면 본 발명에 대한 추가적인 결합예 및 치환예도 가능함을 이해할 것이다. 따라서, 본 발명은 청부된 특허청구범위의 사상과 범주에 포함되는 가능한 모든 변형, 수정 및 치환을 포함하는 것으로 이해되어야 한다. 또한, 본 명세서 및 특허청구범위에서 사용되고 있는 "포함한다"는 용어는, 특허청구범위에서 "구비한다"를 사용하는 경우 그 대체 단어인 것으로 해석되는 것과 마찬가지로, 포괄적인 것을 이해되어야 한다.
전술한 바와 같이, 본 발명에 따르면 스패머들이 회피 및 복제하기 어려운 특성을 나타내는 스팸 메시지 식별 시스템 및 방법이 제공된다.

Claims (75)

  1. 스팸 검출 시스템에 있어서,
    메시지의 출처 정보(origination information)의 적어도 일부분에 관련된 모든 헤더 특징들을 자동으로 식별하기 위해 머신 러닝(machine learning)을 이용하는 컴포넌트(740); 및
    상기 헤더 특징들을, 후속하여 스팸 검출에 사용되는 머신 러닝 필터를 트레이닝하는 데 사용되는 트레이닝 데이터를 생성하기 위해 추론 방식(inference scheme)을 이용하는 것에 관련하여 사용하기 위한 쌍(pair)들로 결합시키는 컴포넌트(770)를 포함하고,
    상기 쌍들 각각은,
    MAIL FROM 커맨드 내의 도메인 네임과 호스트 네임 중 적어도 하나;
    HELO 커맨드 내의 도메인 네임과 호스트 네임 중 적어도 하나;
    Received from 헤더 내의 IP 어드레스와 서브넷(subnet) 중 적어도 하나;
    디스플레이 네임 내의 도메인 네임과 호스트 네임 중 적어도 하나;
    Message From 라인 내의 도메인 네임과 호스트 네임 중 적어도 하나; 및
    최후의 Received from 헤더 내의 적어도 하나의 타임존(time zone)
    중 적어도 하나를 포함하는, 스팸 검출 시스템.
  2. 삭제
  3. 제1항에 있어서,
    도메인 네임은 호스트 네임으로부터 유도되는, 스팸 검출 시스템.
  4. 제1항에 있어서,
    상기 서브넷은 처음의 다수의 비트들(a first number of bits)을 공통으로 공유하는 하나 이상의 IP 어드레스를 포함하는, 스팸 검출 시스템.
  5. 스팸 검출 시스템에 있어서,
    메시지의 출처 정보(origination information)의 적어도 일부분에 관련된 모든 헤더 특징들을 자동으로 식별하기 위해 머신 러닝(machine learning)을 이용하는 컴포넌트(740); 및
    상기 헤더 특징들을, 후속하여 스팸 검출에 사용되는 머신 러닝 필터를 트레이닝하는 데 사용되는 트레이닝 데이터를 생성하기 위해 추론 방식(inference scheme)을 이용하는 것에 관련하여 사용하기 위한 쌍(pair)들로 결합시키는 컴포넌트(770)를 포함하고,
    상기 쌍은 Message From 및 HELO 커맨드로부터의 도메인 네임과 호스트 네임 중 어느 하나인, 스팸 검출 시스템.
  6. 스팸 검출 시스템에 있어서,
    메시지의 출처 정보(origination information)의 적어도 일부분에 관련된 모든 헤더 특징들을 자동으로 식별하기 위해 머신 러닝(machine learning)을 이용하는 컴포넌트(740); 및
    상기 헤더 특징들을, 후속하여 스팸 검출에 사용되는 머신 러닝 필터를 트레이닝하는 데 사용되는 트레이닝 데이터를 생성하기 위해 추론 방식(inference scheme)을 이용하는 것에 관련하여 사용하기 위한 쌍(pair)들로 결합시키는 컴포넌트(770)를 포함하고,
    상기 쌍은 디스플레이 네임의 도메인 네임 및 호스트 네임과, Message From의 도메인 네임 및 호스트 네임인, 스팸 검출 시스템.
  7. 스팸 검출 시스템에 있어서,
    메시지의 출처 정보(origination information)의 적어도 일부분에 관련된 모든 헤더 특징들을 자동으로 식별하기 위해 머신 러닝(machine learning)을 이용하는 컴포넌트(740); 및
    상기 헤더 특징들을, 후속하여 스팸 검출에 사용되는 머신 러닝 필터를 트레이닝하는 데 사용되는 트레이닝 데이터를 생성하기 위해 추론 방식(inference scheme)을 이용하는 것에 관련하여 사용하기 위한 쌍(pair)들로 결합시키는 컴포넌트(770)를 포함하고,
    상기 쌍은 Message From 내의 도메인 네임과 호스트 네임 중 어느 하나와, Received From의 IP 어드레스와 서브넷 중 어느 하나인, 스팸 검출 시스템.
  8. 스팸 검출 시스템에 있어서,
    메시지의 출처 정보(origination information)의 적어도 일부분에 관련된 모든 헤더 특징들을 자동으로 식별하기 위해 머신 러닝(machine learning)을 이용하는 컴포넌트(740); 및
    상기 헤더 특징들을, 후속하여 스팸 검출에 사용되는 머신 러닝 필터를 트레이닝하는 데 사용되는 트레이닝 데이터를 생성하기 위해 추론 방식(inference scheme)을 이용하는 것에 관련하여 사용하기 위한 쌍(pair)들로 결합시키는 컴포넌트(770)를 포함하고,
    상기 쌍은 발신자측의 표시된(alleged) 타임존과, Message From의 도메인 네임인, 스팸 검출 시스템.
  9. 스팸 검출 시스템에 있어서,
    메시지의 출처 정보(origination information)의 적어도 일부분에 관련된 모든 헤더 특징들을 자동으로 식별하기 위해 머신 러닝(machine learning)을 이용하는 컴포넌트(740); 및
    상기 헤더 특징들을, 후속하여 스팸 검출에 사용되는 머신 러닝 필터를 트레이닝하는 데 사용되는 트레이닝 데이터를 생성하기 위해 추론 방식(inference scheme)을 이용하는 것에 관련하여 사용하기 위한 쌍(pair)들로 결합시키는 컴포넌트(770)를 포함하고,
    상기 쌍은 발신자측의 메일링 소프트웨어의 타입과, SMTP 커맨드와 메시지 헤더 중 하나로부터 유도된 도메인 네임, 호스트 네임 및 사용자 네임 중 어느 하나인, 스팸 검출 시스템.
  10. 스팸 검출 시스템에 있어서,
    메시지의 출처 정보(origination information)의 적어도 일부분에 관련된 모든 헤더 특징들을 자동으로 식별하기 위해 머신 러닝(machine learning)을 이용하는 컴포넌트(740); 및
    상기 헤더 특징들을, 후속하여 스팸 검출에 사용되는 머신 러닝 필터를 트레이닝하는 데 사용되는 트레이닝 데이터를 생성하기 위해 추론 방식(inference scheme)을 이용하는 것에 관련하여 사용하기 위한 쌍(pair)들로 결합시키는 컴포넌트(770)를 포함하고,
    상기 출처 정보는 SMTP 커맨드를 포함하며, 상기 SMTP 커맨드는 HELO 커맨드, MAIL FROM 커맨드 및 DATA 커맨드를 포함하는, 스팸 검출 시스템.
  11. 제10항에 있어서,
    상기 DATA 커맨드는 Message From 라인, 발신자측의 표시된 타임존 및 발신자측의 메일링 소프트웨어를 포함하는, 스팸 검출 시스템.
  12. 제1항에 있어서,
    메일 메시지에 대하여 일관되게 하나 이상의 경험적 학습법(heuristics)을 적용하여 일관된 특징 짝짓기(pairing)를 획득하는 컴포넌트를 더 포함하는, 스팸 검출 시스템.
  13. 제1항에 있어서,
    상기 머신 러닝 필터를 트레이닝하는 것에 관련하여 메시지 헤더의 복수의 특징을 분석하는 컴포넌트를 더 포함하는, 스팸 검출 시스템.
  14. 제13항에 있어서,
    상기 메시지 헤더의 특징은 적어도 하나의 메시지 헤더 타입의 존재와 부재 중 적어도 하나를 포함하고, 상기 메시지 헤더 타입은 X-Priority, 메일 소프트웨어 및 탈퇴(unsubscribing)를 위한 헤더 라인을 포함하는, 스팸 검출 시스템.
  15. 제14항에 있어서,
    상기 메시지 헤더의 특징은 적어도 하나의 메시지 헤더 타입에 관련된 컨텐트(content)를 더 포함하는, 스팸 검출 시스템.
  16. 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법에 있어서,
    적어도 하나의 메시지를 수신하는 단계(810);
    메시지의 적어도 일부분을 파싱(parsing)하여 헤더 특징을 자동으로 생성하는 단계(820) - 상기 파싱은 모든 헤더 특징들을 식별하기 위해 머신 러닝을 이용하는 것을 포함함 - ;
    적어도 2개의 헤더 특징을 쌍으로 결합시켜, 각 특징 쌍이 적어도 하나의 추가 특징을 생성하게 하는 단계(830); 및
    추론 방식으로 상기 특징 쌍을 이용하여, 하나 이상의 특징에 기초한 스팸 이메일 검출에 후속하여 사용되는 머신 러닝 스팸 필터를 트레이닝하는 데 사용되는 트레이닝 데이터를 생성하는 단계(850)를 포함하고,
    상기 각각의 쌍은,
    MAIL FROM 커맨드 내의 도메인 네임과 호스트 네임 중 적어도 하나;
    HELO 커맨드 내의 도메인 네임과 호스트 네임 중 적어도 하나;
    Received from 헤더 내의 IP 어드레스와 서브넷 중 적어도 하나;
    디스플레이 네임 내의 도메인 네임과 호스트 네임 중 적어도 하나;
    Message From 라인 내의 도메인 네임과 호스트 네임 중 적어도 하나; 및
    최후의 Received from 헤더 내의 적어도 하나의 타임존
    중 적어도 하나를 포함하는, 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법.
  17. 제16항에 있어서,
    파싱되는 상기 메시지의 적어도 일부분은 상기 메시지의 출처 정보에 대응하는, 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법.
  18. 삭제
  19. 제16항에 있어서,
    도메인 네임은 호스트 네임으로부터 유도되는, 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법.
  20. 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법에 있어서,
    적어도 하나의 메시지를 수신하는 단계(810);
    메시지의 적어도 일부분을 파싱하여 헤더 특징을 자동으로 생성하는 단계(820) - 상기 파싱은 모든 헤더 특징들을 식별하기 위해 머신 러닝을 이용하는 것을 포함함 - ;
    적어도 2개의 헤더 특징을 쌍으로 결합시켜, 각 특징 쌍이 적어도 하나의 추가 특징을 생성하는 단계(830); 및
    추론 방식으로 상기 특징 쌍을 이용하여, 하나 이상의 특징에 기초한 스팸 이메일 검출에 후속하여 사용되는 머신 러닝 스팸 필터를 트레이닝하는 데 사용되는 트레이닝 데이터를 생성하는 단계(850)를 포함하고,
    상기 특징 쌍은 디스플레이 네임의 도메인 네임 및 호스트 네임과, Message From의 도메인 네임 및 호스트 네임인, 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법.
  21. 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법에 있어서,
    적어도 하나의 메시지를 수신하는 단계(810);
    메시지의 적어도 일부분을 파싱하여 헤더 특징을 자동으로 생성하는 단계(820) - 상기 파싱은 모든 헤더 특징들을 식별하기 위해 머신 러닝을 이용하는 것을 포함함 - ;
    적어도 2개의 헤더 특징을 쌍으로 결합시켜, 각 특징 쌍이 적어도 하나의 추가 특징을 생성하는 단계(830); 및
    추론 방식으로 상기 특징 쌍을 이용하여, 하나 이상의 특징에 기초한 스팸 이메일 검출에 후속하여 사용되는 머신 러닝 스팸 필터를 트레이닝하는 데 사용되는 트레이닝 데이터를 생성하는 단계(850)를 포함하고,
    상기 쌍은 Message From 및 HELO 커맨드로부터의 도메인 네임과 호스트 네임 중 어느 하나인, 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법.
  22. 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법에 있어서,
    적어도 하나의 메시지를 수신하는 단계(810);
    메시지의 적어도 일부분을 파싱하여 헤더 특징을 자동으로 생성하는 단계(820) - 상기 파싱은 모든 헤더 특징들을 식별하기 위해 머신 러닝을 이용하는 것을 포함함 - ;
    적어도 2개의 헤더 특징을 쌍으로 결합시켜, 각 특징 쌍이 적어도 하나의 추가 특징을 생성하는 단계(830); 및
    추론 방식으로 상기 특징 쌍을 이용하여, 하나 이상의 특징에 기초한 스팸 이메일 검출에 후속하여 사용되는 머신 러닝 스팸 필터를 트레이닝하는 데 사용되는 트레이닝 데이터를 생성하는 단계(850)를 포함하고,
    상기 특징 쌍은 Message From 내의 도메인 네임과 호스트 네임 중 어느 하나와, Received From의 IP 어드레스와 서브넷 중 어느 하나인, 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법.
  23. 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법에 있어서,
    적어도 하나의 메시지를 수신하는 단계(810);
    메시지의 적어도 일부분을 파싱하여 헤더 특징을 자동으로 생성하는 단계(820) - 상기 파싱은 모든 헤더 특징들을 식별하기 위해 머신 러닝을 이용하는 것을 포함함 - ;
    적어도 2개의 헤더 특징을 쌍으로 결합시켜, 각 특징 쌍이 적어도 하나의 추가 특징을 생성하는 단계(830); 및
    추론 방식으로 상기 특징 쌍을 이용하여, 하나 이상의 특징에 기초한 스팸 이메일 검출에 후속하여 사용되는 머신 러닝 스팸 필터를 트레이닝하는 데 사용되는 트레이닝 데이터를 생성하는 단계(850)를 포함하고,
    상기 특징 쌍은 발신자측의 표시된 타임존과 Message From의 도메인 네임인, 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법.
  24. 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법에 있어서,
    적어도 하나의 메시지를 수신하는 단계(810);
    메시지의 적어도 일부분을 파싱하여 헤더 특징을 자동으로 생성하는 단계(820) - 상기 파싱은 모든 헤더 특징들을 식별하기 위해 머신 러닝을 이용하는 것을 포함함 - ;
    적어도 2개의 헤더 특징을 쌍으로 결합시켜, 각 특징 쌍이 적어도 하나의 추가 특징을 생성하는 단계(830); 및
    추론 방식으로 상기 특징 쌍을 이용하여, 하나 이상의 특징에 기초한 스팸 이메일 검출에 후속하여 사용되는 머신 러닝 스팸 필터를 트레이닝하는 데 사용되는 트레이닝 데이터를 생성하는 단계(850)를 포함하고,
    상기 특징 쌍은 발신자측의 메일링 소프트웨어의 타입과, SMTP 커맨드와 메시지 헤더 중 하나로부터 유도된 도메인 네임, 호스트 네임 및 디스플레이 네임 중 어느 하나를 포함하는, 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법.
  25. 제16항에 있어서,
    하나 이상의 특징 쌍을 선택하여 상기 머신 러닝 필터를 트레이닝하는 단계를 더 포함하는, 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법.
  26. 제16항에 있어서,
    새로운 메시지를 수신하는 단계;
    상기 메시지 내의 출처 정보에 기초하여 특징 쌍들을 생성하는 단계;
    상기 특징 쌍들을 머신 러닝 필터에 통과시키는 단계; 및
    적어도 하나의 특징 쌍이 상기 메시지가 스팸일 가능성이 크다는 것을 나타내는지에 대한 판정을 획득하는 단계
    를 수행함으로써 상기 머신 러닝 필터가 스팸을 검출하도록 트레이닝된 후에, 상기 머신 러닝 필터를 채용하는 단계를 더 포함하는, 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법.
  27. 제16항에 있어서,
    메시지 헤더의 복수의 특징을 분석하는 단계; 및
    상기 분석된 특징을 이용하여 머신 러닝 필터를 트레이닝하는 단계
    를 더 포함하는, 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법.
  28. 제27항에 있어서,
    상기 메시지 내의 이미지 정보에 기초하여 복수의 특징을 분석하는 단계를 더 포함하는, 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법.
  29. 컴퓨터 상에서 실행될 때, 상기 컴퓨터가 제16항의 방법을 수행하게 하는 컴퓨터 프로그램 명령어들을 포함하는 컴퓨터 프로그램을 저장하고 있는, 컴퓨터-판독가능 기록 매체.
  30. 컴퓨터 실행가능 컴포넌트들이 저장되어 있는 컴퓨터 판독가능 기록 매체로서,
    상기 컴퓨터 실행가능 컴포넌트들은
    메시지의 출처 정보의 적어도 일부분에 관련된 모든 헤더 특징들을 자동으로 식별하기 위해 머신 러닝을 이용하는 컴포넌트; 및
    상기 헤더 특징들을, 후속하여 스팸 검출에 사용되는 머신 러닝 필터를 트레이닝하는 것에 관련된 트레이닝 데이터를 생성하는 추론 방식(inference scheme)으로 사용하기 위한 쌍들로 결합시키는 컴포넌트를 포함하고,
    상기 쌍들 각각은,
    MAIL FROM 커맨드 내의 도메인 네임과 호스트 네임 중 적어도 하나;
    HELO 커맨드 내의 도메인 네임과 호스트 네임 중 적어도 하나;
    Received from 헤더 내의 IP 어드레스와 서브넷 중 적어도 하나;
    디스플레이 네임 내의 도메인 네임과 호스트 네임 중 적어도 하나;
    Message From 라인 내의 도메인 네임과 호스트 네임 중 적어도 하나; 및
    최후의 Received from 헤더 내의 적어도 하나의 타임존
    중 적어도 하나를 포함하는, 컴퓨터-판독가능 기록 매체.
  31. 제1항에 있어서,
    적어도 하나의 메시지를 수신하기 위한 수단;
    메시지의 적어도 일부분을 파싱하여 특징을 생성하기 위한 수단;
    적어도 2개의 특징을 쌍으로 결합시켜, 특징 쌍 각각이 적어도 하나의 추가 특징을 생성하게 하기 위한 수단; 및
    상기 특징 쌍을 이용하여 머신 러닝 스팸 필터를 트레이닝하기 위한 수단
    을 더 포함하는, 스팸 검출 시스템.
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
  52. 삭제
  53. 삭제
  54. 삭제
  55. 삭제
  56. 삭제
  57. 삭제
  58. 삭제
  59. 삭제
  60. 삭제
  61. 삭제
  62. 삭제
  63. 삭제
  64. 삭제
  65. 삭제
  66. 삭제
  67. 삭제
  68. 삭제
  69. 삭제
  70. 삭제
  71. 삭제
  72. 삭제
  73. 삭제
  74. 삭제
  75. 삭제
KR1020040036088A 2003-06-23 2004-05-20 개선된 스팸 검출 시스템, 및 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법 및 컴퓨터-판독가능 기록 매체 KR101045452B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/601,741 2003-06-23
US10/601,741 US8533270B2 (en) 2003-06-23 2003-06-23 Advanced spam detection techniques

Publications (2)

Publication Number Publication Date
KR20050000309A KR20050000309A (ko) 2005-01-03
KR101045452B1 true KR101045452B1 (ko) 2011-06-30

Family

ID=33418608

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040036088A KR101045452B1 (ko) 2003-06-23 2004-05-20 개선된 스팸 검출 시스템, 및 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법 및 컴퓨터-판독가능 기록 매체

Country Status (9)

Country Link
US (2) US8533270B2 (ko)
EP (2) EP1696619B1 (ko)
JP (1) JP4546761B2 (ko)
KR (1) KR101045452B1 (ko)
CN (1) CN1573782B (ko)
AT (2) ATE556519T1 (ko)
DE (1) DE602004013492D1 (ko)
DK (1) DK1696619T3 (ko)
SI (1) SI1696619T1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021107448A1 (ko) * 2019-11-25 2021-06-03 주식회사 데이터마케팅코리아 효율적 문서 분류 처리를 지원하는 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치
US11356474B2 (en) 2017-12-08 2022-06-07 Google Llc Restrict transmission of manipulated content in a networked environment
US11438346B2 (en) 2017-12-08 2022-09-06 Google Llc Restrict transmission of manipulated content in a networked environment
WO2023027524A1 (ko) * 2021-08-27 2023-03-02 삼성전자 주식회사 디스플레이 장치, 전자 장치 및 그 동작 방법

Families Citing this family (105)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7032023B1 (en) 2000-05-16 2006-04-18 America Online, Inc. Throttling electronic communications from one or more senders
US8046832B2 (en) 2002-06-26 2011-10-25 Microsoft Corporation Spam detector with challenges
AU2003288515A1 (en) * 2002-12-26 2004-07-22 Commtouch Software Ltd. Detection and prevention of spam
US7483947B2 (en) * 2003-05-02 2009-01-27 Microsoft Corporation Message rendering for identification of content features
US7272853B2 (en) 2003-06-04 2007-09-18 Microsoft Corporation Origination/destination features and lists for spam prevention
US7711779B2 (en) 2003-06-20 2010-05-04 Microsoft Corporation Prevention of outgoing spam
US8533270B2 (en) 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US7814545B2 (en) 2003-07-22 2010-10-12 Sonicwall, Inc. Message classification using classifiers
US7406503B1 (en) * 2003-08-28 2008-07-29 Microsoft Corporation Dictionary attack e-mail identification
US7835294B2 (en) * 2003-09-03 2010-11-16 Gary Stephen Shuster Message filtering method
US7548956B1 (en) * 2003-12-30 2009-06-16 Aol Llc Spam control based on sender account characteristics
US7590694B2 (en) 2004-01-16 2009-09-15 Gozoom.Com, Inc. System for determining degrees of similarity in email message information
JP2005210240A (ja) * 2004-01-21 2005-08-04 Nec Corp メールフィルタシステム、メールフィルタ装置及びそれらに用いるメールフィルタ方法並びにそのプログラム
US8886727B1 (en) 2004-01-27 2014-11-11 Sonicwall, Inc. Message distribution control
US9471712B2 (en) 2004-02-09 2016-10-18 Dell Software Inc. Approximate matching of strings for message filtering
US7631044B2 (en) 2004-03-09 2009-12-08 Gozoom.Com, Inc. Suppression of undesirable network messages
US7644127B2 (en) * 2004-03-09 2010-01-05 Gozoom.Com, Inc. Email analysis using fuzzy matching of text
US8918466B2 (en) * 2004-03-09 2014-12-23 Tonny Yu System for email processing and analysis
US20050204005A1 (en) * 2004-03-12 2005-09-15 Purcell Sean E. Selective treatment of messages based on junk rating
US7555523B1 (en) * 2004-05-06 2009-06-30 Symantec Corporation Spam discrimination by generalized Ngram analysis of small header fields
US20060031318A1 (en) * 2004-06-14 2006-02-09 Gellens Randall C Communicating information about the content of electronic messages to a server
US20050283519A1 (en) * 2004-06-17 2005-12-22 Commtouch Software, Ltd. Methods and systems for combating spam
US7664819B2 (en) * 2004-06-29 2010-02-16 Microsoft Corporation Incremental anti-spam lookup and update service
US7580981B1 (en) 2004-06-30 2009-08-25 Google Inc. System for determining email spam by delivery path
US7157327B2 (en) * 2004-07-01 2007-01-02 Infineon Technologies Ag Void free, silicon filled trenches in semiconductors
US8671144B2 (en) * 2004-07-02 2014-03-11 Qualcomm Incorporated Communicating information about the character of electronic messages to a client
US7904517B2 (en) 2004-08-09 2011-03-08 Microsoft Corporation Challenge response systems
US7660865B2 (en) * 2004-08-12 2010-02-09 Microsoft Corporation Spam filtering with probabilistic secure hashes
US7555524B1 (en) * 2004-09-16 2009-06-30 Symantec Corporation Bulk electronic message detection by header similarity analysis
US20060168017A1 (en) * 2004-11-30 2006-07-27 Microsoft Corporation Dynamic spam trap accounts
US8655957B2 (en) * 2004-12-16 2014-02-18 Apple Inc. System and method for confirming that the origin of an electronic mail message is valid
EP1710965A1 (en) * 2005-04-04 2006-10-11 Research In Motion Limited Method and System for Filtering Spoofed Electronic Messages
WO2006119509A2 (en) * 2005-05-05 2006-11-09 Ironport Systems, Inc. Identifying threats in electronic messages
US7543076B2 (en) * 2005-07-05 2009-06-02 Microsoft Corporation Message header spam filtering
KR100800776B1 (ko) * 2005-07-22 2008-02-01 삼성전자주식회사 이메일 전송 방법 및 시스템
US7930353B2 (en) * 2005-07-29 2011-04-19 Microsoft Corporation Trees of classifiers for detecting email spam
US8065370B2 (en) 2005-11-03 2011-11-22 Microsoft Corporation Proofs to filter spam
ES2306558B1 (es) * 2005-12-27 2009-07-14 Sp Berner Plastic Group, S.L. Dispositivo de anclaje para cajas plegables.
KR100819965B1 (ko) * 2006-01-12 2008-04-07 (주)아이티 시스템즈 스팸 전화, 스팸 메시지 차단 및 가입자 상태 바로 알림방법 및 장치
WO2007093661A1 (es) * 2006-02-15 2007-08-23 Consejo Superior De Investigaciones Científicas Método para clasificar mensajes de correo electrónico en correo deseado y correo no deseado
CN101094197B (zh) * 2006-06-23 2010-08-11 腾讯科技(深圳)有限公司 反垃圾邮件的方法及其邮件服务器
WO2008021244A2 (en) * 2006-08-10 2008-02-21 Trustees Of Tufts College Systems and methods for identifying unwanted or harmful electronic text
US7945627B1 (en) * 2006-09-28 2011-05-17 Bitdefender IPR Management Ltd. Layout-based electronic communication filtering systems and methods
CN101155182A (zh) * 2006-09-30 2008-04-02 阿里巴巴公司 一种基于网络的垃圾信息过滤方法和装置
US8224905B2 (en) * 2006-12-06 2012-07-17 Microsoft Corporation Spam filtration utilizing sender activity data
US8290311B1 (en) * 2007-01-11 2012-10-16 Proofpoint, Inc. Apparatus and method for detecting images within spam
US8290203B1 (en) * 2007-01-11 2012-10-16 Proofpoint, Inc. Apparatus and method for detecting images within spam
US8763114B2 (en) * 2007-01-24 2014-06-24 Mcafee, Inc. Detecting image spam
US20080219495A1 (en) * 2007-03-09 2008-09-11 Microsoft Corporation Image Comparison
US7941391B2 (en) 2007-05-04 2011-05-10 Microsoft Corporation Link spam detection using smooth classification function
CN101079851B (zh) * 2007-07-09 2011-01-05 华为技术有限公司 邮件类型判断方法、装置及系统
US10540651B1 (en) * 2007-07-31 2020-01-21 Intuit Inc. Technique for restricting access to information
US20090077617A1 (en) * 2007-09-13 2009-03-19 Levow Zachary S Automated generation of spam-detection rules using optical character recognition and identifications of common features
US8572184B1 (en) 2007-10-04 2013-10-29 Bitdefender IPR Management Ltd. Systems and methods for dynamically integrating heterogeneous anti-spam filters
JP4963099B2 (ja) * 2007-10-23 2012-06-27 Kddi株式会社 電子メールフィルタリング装置、電子メールのフィルタリング方法およびプログラム
US20090113016A1 (en) * 2007-10-24 2009-04-30 Subhabrata Sen Managing email servers by prioritizing emails
US8010614B1 (en) 2007-11-01 2011-08-30 Bitdefender IPR Management Ltd. Systems and methods for generating signatures for electronic communication classification
US7849146B2 (en) * 2008-02-21 2010-12-07 Yahoo! Inc. Identifying IP addresses for spammers
US8621010B2 (en) * 2008-03-17 2013-12-31 International Business Machines Corporation Method and system for protecting messaging consumers
US9015130B1 (en) * 2008-03-25 2015-04-21 Avaya Inc. Automatic adjustment of email filters based on browser history and telecommunication records
US20090245635A1 (en) * 2008-03-26 2009-10-01 Yehezkel Erez System and method for spam detection in image data
US8131655B1 (en) 2008-05-30 2012-03-06 Bitdefender IPR Management Ltd. Spam filtering using feature relevance assignment in neural networks
US8150679B2 (en) * 2008-08-15 2012-04-03 Hewlett-Packard Development Company, L.P. Apparatus, and associated method, for detecting fraudulent text message
US8826450B2 (en) * 2008-09-19 2014-09-02 Yahoo! Inc. Detecting bulk fraudulent registration of email accounts
JP5366504B2 (ja) * 2008-11-05 2013-12-11 Kddi株式会社 メール受信サーバ、スパムメールの受信拒否方法およびプログラム
CN101415159B (zh) * 2008-12-02 2010-06-02 腾讯科技(深圳)有限公司 对垃圾邮件进行拦截的方法和装置
US8373724B2 (en) * 2009-01-28 2013-02-12 Google Inc. Selective display of OCR'ed text and corresponding images from publications on a client device
US8442813B1 (en) * 2009-02-05 2013-05-14 Google Inc. Methods and systems for assessing the quality of automatically generated text
US20100332975A1 (en) * 2009-06-25 2010-12-30 Google Inc. Automatic message moderation for mailing lists
CN101938711B (zh) 2009-06-30 2015-09-09 国际商业机器公司 用于垃圾消息检测的方法和设备
US10565229B2 (en) 2018-05-24 2020-02-18 People.ai, Inc. Systems and methods for matching electronic activities directly to record objects of systems of record
CN101909261A (zh) * 2010-08-10 2010-12-08 中兴通讯股份有限公司 一种垃圾短信监控的方法和系统
US9106680B2 (en) * 2011-06-27 2015-08-11 Mcafee, Inc. System and method for protocol fingerprinting and reputation correlation
US9442881B1 (en) 2011-08-31 2016-09-13 Yahoo! Inc. Anti-spam transient entity classification
US9412096B2 (en) 2012-06-15 2016-08-09 Microsoft Technology Licensing, Llc Techniques to filter electronic mail based on language and country of origin
CN103580939B (zh) * 2012-07-30 2018-03-20 腾讯科技(深圳)有限公司 一种基于账号属性的异常消息检测方法及设备
JP5895828B2 (ja) * 2012-11-27 2016-03-30 富士ゼロックス株式会社 情報処理装置及びプログラム
US9692771B2 (en) * 2013-02-12 2017-06-27 Symantec Corporation System and method for estimating typicality of names and textual data
US10404745B2 (en) * 2013-08-30 2019-09-03 Rakesh Verma Automatic phishing email detection based on natural language processing techniques
RU2013144681A (ru) 2013-10-03 2015-04-10 Общество С Ограниченной Ответственностью "Яндекс" Система обработки электронного сообщения для определения его классификации
CN104714938B (zh) * 2013-12-12 2017-12-29 联想(北京)有限公司 一种信息处理的方法及电子设备
JP6226473B2 (ja) * 2014-03-06 2017-11-08 Kddi株式会社 ネットワーク品質監視装置、プログラムおよびネットワーク品質監視方法
US10333877B2 (en) * 2014-04-29 2019-06-25 At&T Intellectual Property I, L.P. Methods of generating signatures from groups of electronic messages and related methods and systems for identifying spam messages
US9928465B2 (en) 2014-05-20 2018-03-27 Oath Inc. Machine learning and validation of account names, addresses, and/or identifiers
US20160065605A1 (en) * 2014-08-29 2016-03-03 Linkedin Corporation Spam detection for online slide deck presentations
US9560074B2 (en) * 2014-10-07 2017-01-31 Cloudmark, Inc. Systems and methods of identifying suspicious hostnames
TWI544764B (zh) * 2014-11-17 2016-08-01 緯創資通股份有限公司 垃圾郵件判定方法及其郵件伺服器
US10810176B2 (en) 2015-04-28 2020-10-20 International Business Machines Corporation Unsolicited bulk email detection using URL tree hashes
JP6048565B1 (ja) * 2015-11-02 2016-12-21 富士ゼロックス株式会社 画像処理装置、情報処理システム及び画像処理プログラム
CN105447204B (zh) * 2016-01-04 2017-12-12 北京百度网讯科技有限公司 网址识别方法和装置
CN105704689A (zh) * 2016-01-12 2016-06-22 深圳市深讯数据科技股份有限公司 一种短信行为的大数据采集与分析方法及系统
CN107404459B (zh) * 2016-05-19 2020-09-04 华为技术有限公司 获取网络攻击报文的指纹特征的方法以及网络设备
CN107453973B (zh) * 2016-05-31 2021-04-13 阿里巴巴集团控股有限公司 一种甄别电子邮件发送者身份特征的方法和装置
US9858257B1 (en) * 2016-07-20 2018-01-02 Amazon Technologies, Inc. Distinguishing intentional linguistic deviations from unintentional linguistic deviations
EP3547148A4 (en) * 2016-11-28 2020-08-26 Imatrix Holdings Corp. EVALUATION DEVICE, EVALUATION PROCEDURE, EVALUATION PROGRAM AND EVALUATION SYSTEM
US20210092139A1 (en) * 2017-09-14 2021-03-25 Mitsubishi Electric Corporation Email inspection device, email inspection method, and computer readable medium
US11924297B2 (en) 2018-05-24 2024-03-05 People.ai, Inc. Systems and methods for generating a filtered data set
US11463441B2 (en) 2018-05-24 2022-10-04 People.ai, Inc. Systems and methods for managing the generation or deletion of record objects based on electronic activities and communication policies
US11677699B2 (en) * 2018-12-03 2023-06-13 International Business Machines Corporation Cognitive pre-loading of referenced content in electronic messages
CN110061981A (zh) * 2018-12-13 2019-07-26 成都亚信网络安全产业技术研究院有限公司 一种攻击检测方法及装置
US11411990B2 (en) * 2019-02-15 2022-08-09 Forcepoint Llc Early detection of potentially-compromised email accounts
CN109981818B (zh) * 2019-03-25 2022-02-25 上海予桐电子科技有限公司 域名语义异常分析方法、装置、计算机设备及其存储介质
US11610145B2 (en) * 2019-06-10 2023-03-21 People.ai, Inc. Systems and methods for blast electronic activity detection
CN113516657B (zh) * 2021-09-14 2021-12-10 中国石油大学(华东) 一种基于自适应权重的全极化sar影像海面溢油检测方法
CN116545727B (zh) * 2023-05-29 2023-11-07 华苏数联科技有限公司 应用字符间隔时长鉴定的网络安全防护系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002071286A2 (en) 2001-03-05 2002-09-12 Messagelabs Limited A method of, and system for, processing email in particular to detect unsolicited bulk email
US20020188689A1 (en) 2001-03-22 2002-12-12 Chung Michael Methods and systems for electronic mail, internet target and direct marketing, and electronic mail banner

Family Cites Families (138)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB8918553D0 (en) * 1989-08-15 1989-09-27 Digital Equipment Int Message control system
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5619648A (en) * 1994-11-30 1997-04-08 Lucent Technologies Inc. Message filtering techniques
US5638487A (en) * 1994-12-30 1997-06-10 Purespeech, Inc. Automatic speech recognition
JP3998710B2 (ja) 1995-05-08 2007-10-31 クランベリー、プロパティーズ、リミテッド、ライアビリティー、カンパニー 規則準拠電子メッセージ管理装置
US5845077A (en) * 1995-11-27 1998-12-01 Microsoft Corporation Method and system for identifying and obtaining computer software from a remote computer
US6101531A (en) * 1995-12-19 2000-08-08 Motorola, Inc. System for communicating user-selected criteria filter prepared at wireless client to communication server for filtering data transferred from host to said wireless client
US5704017A (en) * 1996-02-16 1997-12-30 Microsoft Corporation Collaborative filtering utilizing a belief network
US5884033A (en) * 1996-05-15 1999-03-16 Spyglass, Inc. Internet filtering system for filtering data transferred over the internet utilizing immediate and deferred filtering actions
US6151643A (en) 1996-06-07 2000-11-21 Networks Associates, Inc. Automatic updating of diverse software products on multiple client computer systems by downloading scanning application to client computer and generating software list on client computer
US6453327B1 (en) * 1996-06-10 2002-09-17 Sun Microsystems, Inc. Method and apparatus for identifying and discarding junk electronic mail
US6072942A (en) * 1996-09-18 2000-06-06 Secure Computing Corporation System and method of electronic mail filtering using interconnected nodes
US5805801A (en) * 1997-01-09 1998-09-08 International Business Machines Corporation System and method for detecting and preventing security
US5905859A (en) * 1997-01-09 1999-05-18 International Business Machines Corporation Managed network device security method and apparatus
US6122657A (en) * 1997-02-04 2000-09-19 Networks Associates, Inc. Internet computer system with methods for dynamic filtering of hypertext tags and content
US6742047B1 (en) * 1997-03-27 2004-05-25 Intel Corporation Method and apparatus for dynamically filtering network content
DE69724235T2 (de) * 1997-05-28 2004-02-26 Siemens Ag Computersystem und Verfahren zum Schutz von Software
US7117358B2 (en) * 1997-07-24 2006-10-03 Tumbleweed Communications Corp. Method and system for filtering communication
US20050081059A1 (en) * 1997-07-24 2005-04-14 Bandini Jean-Christophe Denis Method and system for e-mail filtering
US6199102B1 (en) * 1997-08-26 2001-03-06 Christopher Alan Cobb Method and system for filtering electronic messages
US6003027A (en) * 1997-11-21 1999-12-14 International Business Machines Corporation System and method for determining confidence levels for the results of a categorization system
US6393465B2 (en) * 1997-11-25 2002-05-21 Nixmail Corporation Junk electronic mail detector and eliminator
AU1907899A (en) * 1997-12-22 1999-07-12 Accepted Marketing, Inc. E-mail filter and method thereof
US6023723A (en) * 1997-12-22 2000-02-08 Accepted Marketing, Inc. Method and system for filtering unwanted junk e-mail utilizing a plurality of filtering mechanisms
US6052709A (en) 1997-12-23 2000-04-18 Bright Light Technologies, Inc. Apparatus and method for controlling delivery of unsolicited electronic mail
GB2334116A (en) * 1998-02-04 1999-08-11 Ibm Scheduling and dispatching queued client requests within a server computer
US6484261B1 (en) * 1998-02-17 2002-11-19 Cisco Technology, Inc. Graphical network security policy management
US6195698B1 (en) * 1998-04-13 2001-02-27 Compaq Computer Corporation Method for selectively restricting access to computer systems
US6504941B2 (en) * 1998-04-30 2003-01-07 Hewlett-Packard Company Method and apparatus for digital watermarking of images
US6314421B1 (en) * 1998-05-12 2001-11-06 David M. Sharnoff Method and apparatus for indexing documents for message filtering
US6074942A (en) * 1998-06-03 2000-06-13 Worldwide Semiconductor Manufacturing Corporation Method for forming a dual damascene contact and interconnect
US6308273B1 (en) * 1998-06-12 2001-10-23 Microsoft Corporation Method and system of security location discrimination
US6192360B1 (en) * 1998-06-23 2001-02-20 Microsoft Corporation Methods and apparatus for classifying text and for building a text classifier
US6161130A (en) * 1998-06-23 2000-12-12 Microsoft Corporation Technique which utilizes a probabilistic classifier to detect "junk" e-mail by automatically updating a training and re-training the classifier based on the updated training set
US7275082B2 (en) 1998-07-15 2007-09-25 Pang Stephen Y F System for policing junk e-mail messages
US6167434A (en) * 1998-07-15 2000-12-26 Pang; Stephen Y. Computer code for removing junk e-mail messages
US6112227A (en) * 1998-08-06 2000-08-29 Heiner; Jeffrey Nelson Filter-in method for reducing junk e-mail
US6434600B2 (en) * 1998-09-15 2002-08-13 Microsoft Corporation Methods and systems for securely delivering electronic mail to hosts having dynamic IP addresses
US6732273B1 (en) * 1998-10-21 2004-05-04 Lucent Technologies Inc. Priority and security coding system for electronic mail messages
GB2343529B (en) * 1998-11-07 2003-06-11 Ibm Filtering incoming e-mail
US6397205B1 (en) * 1998-11-24 2002-05-28 Duquesne University Of The Holy Ghost Document categorization and evaluation via cross-entrophy
US6546416B1 (en) * 1998-12-09 2003-04-08 Infoseek Corporation Method and system for selectively blocking delivery of bulk electronic mail
US6643686B1 (en) * 1998-12-18 2003-11-04 At&T Corp. System and method for counteracting message filtering
US6615242B1 (en) * 1998-12-28 2003-09-02 At&T Corp. Automatic uniform resource locator-based message filter
US6266692B1 (en) * 1999-01-04 2001-07-24 International Business Machines Corporation Method for blocking all unwanted e-mail (SPAM) using a header-based password
US6330590B1 (en) * 1999-01-05 2001-12-11 William D. Cotten Preventing delivery of unwanted bulk e-mail
US6424997B1 (en) * 1999-01-27 2002-07-23 International Business Machines Corporation Machine learning based electronic messaging system
US6449634B1 (en) * 1999-01-29 2002-09-10 Digital Impact, Inc. Method and system for remotely sensing the file formats processed by an E-mail client
US6477551B1 (en) * 1999-02-16 2002-11-05 International Business Machines Corporation Interactive electronic messaging system
US7032030B1 (en) 1999-03-11 2006-04-18 John David Codignotto Message publishing system and method
US6732149B1 (en) * 1999-04-09 2004-05-04 International Business Machines Corporation System and method for hindering undesired transmission or receipt of electronic messages
US6370526B1 (en) * 1999-05-18 2002-04-09 International Business Machines Corporation Self-adaptive method and system for providing a user-preferred ranking order of object sets
US6592627B1 (en) * 1999-06-10 2003-07-15 International Business Machines Corporation System and method for organizing repositories of semi-structured documents such as email
US6449636B1 (en) * 1999-09-08 2002-09-10 Nortel Networks Limited System and method for creating a dynamic data file from collected and filtered web pages
US6728690B1 (en) * 1999-11-23 2004-04-27 Microsoft Corporation Classification system trainer employing maximum margin back-propagation with probabilistic outputs
US6321267B1 (en) * 1999-11-23 2001-11-20 Escom Corporation Method and apparatus for filtering junk email
US6633855B1 (en) * 2000-01-06 2003-10-14 International Business Machines Corporation Method, system, and program for filtering content using neural networks
US6701440B1 (en) * 2000-01-06 2004-03-02 Networks Associates Technology, Inc. Method and system for protecting a computer using a remote e-mail scanning device
US7822977B2 (en) * 2000-02-08 2010-10-26 Katsikas Peter L System for eliminating unauthorized electronic mail
US6691156B1 (en) * 2000-03-10 2004-02-10 International Business Machines Corporation Method for restricting delivery of unsolicited E-mail
US6684201B1 (en) * 2000-03-31 2004-01-27 Microsoft Corporation Linguistic disambiguation system and method using string-based pattern training to learn to resolve ambiguity sites
JP2001313640A (ja) 2000-05-02 2001-11-09 Ntt Data Corp 通信ネットワークにおけるアクセス種別を判定する方法及びシステム、記録媒体
US7210099B2 (en) * 2000-06-12 2007-04-24 Softview Llc Resolution independent vector display of internet content
US20040073617A1 (en) * 2000-06-19 2004-04-15 Milliken Walter Clark Hash-based systems and methods for detecting and preventing transmission of unwanted e-mail
CA2409920C (en) * 2000-06-22 2013-05-14 Microsoft Corporation Distributed computing services platform
US7003555B1 (en) * 2000-06-23 2006-02-21 Cloudshield Technologies, Inc. Apparatus and method for domain name resolution
US7152058B2 (en) * 2000-07-13 2006-12-19 Biap Systems, Inc. Apparatus for and method of selectively retrieving information and enabling its subsequent display
US6779021B1 (en) 2000-07-28 2004-08-17 International Business Machines Corporation Method and system for predicting and managing undesirable electronic mail
US6842773B1 (en) * 2000-08-24 2005-01-11 Yahoo ! Inc. Processing of textual electronic communication distributed in bulk
US6757830B1 (en) * 2000-10-03 2004-06-29 Networks Associates Technology, Inc. Detecting unwanted properties in received email messages
US6971023B1 (en) * 2000-10-03 2005-11-29 Mcafee, Inc. Authorizing an additional computer program module for use with a core computer program
US6748422B2 (en) * 2000-10-19 2004-06-08 Ebay Inc. System and method to control sending of unsolicited communications relating to a plurality of listings in a network-based commerce facility
US7243125B2 (en) * 2000-12-08 2007-07-10 Xerox Corporation Method and apparatus for presenting e-mail threads as semi-connected text by removing redundant material
JP3554271B2 (ja) 2000-12-13 2004-08-18 パナソニック コミュニケーションズ株式会社 情報通信装置
US6775704B1 (en) * 2000-12-28 2004-08-10 Networks Associates Technology, Inc. System and method for preventing a spoofed remote procedure call denial of service attack in a networked computing environment
US20050159136A1 (en) 2000-12-29 2005-07-21 Andrew Rouse System and method for providing wireless device access
US20020124025A1 (en) * 2001-03-01 2002-09-05 International Business Machines Corporataion Scanning and outputting textual information in web page images
US6928465B2 (en) * 2001-03-16 2005-08-09 Wells Fargo Bank, N.A. Redundant email address detection and capture system
US6751348B2 (en) * 2001-03-29 2004-06-15 Fotonation Holdings, Llc Automated detection of pornographic images
US8949878B2 (en) * 2001-03-30 2015-02-03 Funai Electric Co., Ltd. System for parental control in video programs based on multimedia content information
US6920477B2 (en) 2001-04-06 2005-07-19 President And Fellows Of Harvard College Distributed, compressed Bloom filter Web cache server
US7188106B2 (en) * 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US8095597B2 (en) * 2001-05-01 2012-01-10 Aol Inc. Method and system of automating data capture from electronic correspondence
US7103599B2 (en) * 2001-05-15 2006-09-05 Verizon Laboratories Inc. Parsing of nested internet electronic mail documents
US6768991B2 (en) * 2001-05-15 2004-07-27 Networks Associates Technology, Inc. Searching for sequences of character data
US20030009698A1 (en) * 2001-05-30 2003-01-09 Cascadezone, Inc. Spam avenger
US7502829B2 (en) * 2001-06-21 2009-03-10 Cybersoft, Inc. Apparatus, methods and articles of manufacture for intercepting, examining and controlling code, data and files and their transfer
US20030009495A1 (en) * 2001-06-29 2003-01-09 Akli Adjaoute Systems and methods for filtering electronic content
US7328250B2 (en) * 2001-06-29 2008-02-05 Nokia, Inc. Apparatus and method for handling electronic mail
TW533380B (en) * 2001-07-23 2003-05-21 Ulead Systems Inc Group image detecting method
US6769016B2 (en) * 2001-07-26 2004-07-27 Networks Associates Technology, Inc. Intelligent SPAM detection system using an updateable neural analysis engine
AU2002364887A1 (en) * 2001-10-03 2003-06-10 Reginald Adkins Authorized email control system
US20060036701A1 (en) 2001-11-20 2006-02-16 Bulfer Andrew F Messaging system having message filtering and access control
US8561167B2 (en) 2002-03-08 2013-10-15 Mcafee, Inc. Web reputation scoring
US6785820B1 (en) * 2002-04-02 2004-08-31 Networks Associates Technology, Inc. System, method and computer program product for conditionally updating a security program
US20030204569A1 (en) * 2002-04-29 2003-10-30 Michael R. Andrews Method and apparatus for filtering e-mail infected with a previously unidentified computer virus
US7237008B1 (en) * 2002-05-10 2007-06-26 Mcafee, Inc. Detecting malware carried by an e-mail message
US20030229672A1 (en) * 2002-06-05 2003-12-11 Kohn Daniel Mark Enforceable spam identification and reduction system, and method thereof
US8046832B2 (en) * 2002-06-26 2011-10-25 Microsoft Corporation Spam detector with challenges
US8924484B2 (en) * 2002-07-16 2014-12-30 Sonicwall, Inc. Active e-mail filter with challenge-response
US7363490B2 (en) * 2002-09-12 2008-04-22 International Business Machines Corporation Method and system for selective email acceptance via encoded email identifiers
US7188369B2 (en) 2002-10-03 2007-03-06 Trend Micro, Inc. System and method having an antivirus virtual scanning processor with plug-in functionalities
US20040083270A1 (en) * 2002-10-23 2004-04-29 David Heckerman Method and system for identifying junk e-mail
US7149801B2 (en) * 2002-11-08 2006-12-12 Microsoft Corporation Memory bound functions for spam deterrence and the like
US6732157B1 (en) * 2002-12-13 2004-05-04 Networks Associates Technology, Inc. Comprehensive anti-spam system, method, and computer program product for filtering unwanted e-mail messages
AU2003288515A1 (en) 2002-12-26 2004-07-22 Commtouch Software Ltd. Detection and prevention of spam
WO2004061698A1 (en) * 2002-12-30 2004-07-22 Activestate Corporation Method and system for feature extraction from outgoing messages for use in categorization of incoming messages
US7171450B2 (en) * 2003-01-09 2007-01-30 Microsoft Corporation Framework to enable integration of anti-spam technologies
US7533148B2 (en) * 2003-01-09 2009-05-12 Microsoft Corporation Framework to enable integration of anti-spam technologies
US7725544B2 (en) * 2003-01-24 2010-05-25 Aol Inc. Group based spam classification
US7219148B2 (en) * 2003-03-03 2007-05-15 Microsoft Corporation Feedback loop for spam prevention
US20040177120A1 (en) * 2003-03-07 2004-09-09 Kirsch Steven T. Method for filtering e-mail messages
US7366761B2 (en) 2003-10-09 2008-04-29 Abaca Technology Corporation Method for creating a whitelist for processing e-mails
US7320020B2 (en) * 2003-04-17 2008-01-15 The Go Daddy Group, Inc. Mail server probability spam filter
US7293063B1 (en) 2003-06-04 2007-11-06 Symantec Corporation System utilizing updated spam signatures for performing secondary signature-based analysis of a held e-mail to improve spam email detection
US7263607B2 (en) * 2003-06-12 2007-08-28 Microsoft Corporation Categorizing electronic messages based on trust between electronic messaging entities
US8533270B2 (en) 2003-06-23 2013-09-10 Microsoft Corporation Advanced spam detection techniques
US7155484B2 (en) 2003-06-30 2006-12-26 Bellsouth Intellectual Property Corporation Filtering email messages corresponding to undesirable geographical regions
US7051077B2 (en) 2003-06-30 2006-05-23 Mx Logic, Inc. Fuzzy logic voting method and system for classifying e-mail using inputs from multiple spam classifiers
US20050015455A1 (en) 2003-07-18 2005-01-20 Liu Gary G. SPAM processing system and methods including shared information among plural SPAM filters
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
US20050050150A1 (en) 2003-08-29 2005-03-03 Sam Dinkin Filter, system and method for filtering an electronic mail message
US7257564B2 (en) 2003-10-03 2007-08-14 Tumbleweed Communications Corp. Dynamic message filtering
US7930351B2 (en) 2003-10-14 2011-04-19 At&T Intellectual Property I, L.P. Identifying undesired email messages having attachments
US7610341B2 (en) 2003-10-14 2009-10-27 At&T Intellectual Property I, L.P. Filtered email differentiation
US7451184B2 (en) 2003-10-14 2008-11-11 At&T Intellectual Property I, L.P. Child protection from harmful email
US7373385B2 (en) 2003-11-03 2008-05-13 Cloudmark, Inc. Method and apparatus to block spam based on spam reports from a community of users
US20050120019A1 (en) 2003-11-29 2005-06-02 International Business Machines Corporation Method and apparatus for the automatic identification of unsolicited e-mail messages (SPAM)
US7359941B2 (en) 2004-01-08 2008-04-15 International Business Machines Corporation Method and apparatus for filtering spam email
US7590694B2 (en) 2004-01-16 2009-09-15 Gozoom.Com, Inc. System for determining degrees of similarity in email message information
US7693943B2 (en) 2004-01-23 2010-04-06 International Business Machines Corporation Classification of electronic mail into multiple directories based upon their spam-like properties
US20050182735A1 (en) 2004-02-12 2005-08-18 Zager Robert P. Method and apparatus for implementing a micropayment system to control e-mail spam
US20050204159A1 (en) 2004-03-09 2005-09-15 International Business Machines Corporation System, method and computer program to block spam
US7627670B2 (en) 2004-04-29 2009-12-01 International Business Machines Corporation Method and apparatus for scoring unsolicited e-mail
EP1767010B1 (en) 2004-06-15 2015-11-11 Tekelec Global, Inc. Method, system, and computer program products for content-based screening of MMS messages
US20060123083A1 (en) 2004-12-03 2006-06-08 Xerox Corporation Adaptive spam message detector
US7937480B2 (en) 2005-06-02 2011-05-03 Mcafee, Inc. Aggregation of reputation data
US7971137B2 (en) 2005-12-14 2011-06-28 Google Inc. Detecting and rejecting annoying documents

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002071286A2 (en) 2001-03-05 2002-09-12 Messagelabs Limited A method of, and system for, processing email in particular to detect unsolicited bulk email
US20020188689A1 (en) 2001-03-22 2002-12-12 Chung Michael Methods and systems for electronic mail, internet target and direct marketing, and electronic mail banner

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11356474B2 (en) 2017-12-08 2022-06-07 Google Llc Restrict transmission of manipulated content in a networked environment
US11438346B2 (en) 2017-12-08 2022-09-06 Google Llc Restrict transmission of manipulated content in a networked environment
WO2021107448A1 (ko) * 2019-11-25 2021-06-03 주식회사 데이터마케팅코리아 효율적 문서 분류 처리를 지원하는 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치
WO2023027524A1 (ko) * 2021-08-27 2023-03-02 삼성전자 주식회사 디스플레이 장치, 전자 장치 및 그 동작 방법
US11930081B2 (en) 2021-08-27 2024-03-12 Samsung Electronics Co., Ltd. Display apparatus, electronic apparatus, and operating methods thereof

Also Published As

Publication number Publication date
JP2005018745A (ja) 2005-01-20
US8533270B2 (en) 2013-09-10
DK1696619T3 (da) 2012-07-16
EP1492283B1 (en) 2008-05-07
EP1492283A2 (en) 2004-12-29
EP1696619A1 (en) 2006-08-30
EP1492283A3 (en) 2005-03-09
SI1696619T1 (sl) 2012-08-31
US20040260776A1 (en) 2004-12-23
ATE556519T1 (de) 2012-05-15
KR20050000309A (ko) 2005-01-03
JP4546761B2 (ja) 2010-09-15
CN1573782A (zh) 2005-02-02
ATE394862T1 (de) 2008-05-15
US20130318116A1 (en) 2013-11-28
CN1573782B (zh) 2013-05-22
DE602004013492D1 (de) 2008-06-19
US9305079B2 (en) 2016-04-05
EP1696619B1 (en) 2012-05-02

Similar Documents

Publication Publication Date Title
KR101045452B1 (ko) 개선된 스팸 검출 시스템, 및 스팸 검출에 이용하기 위한 특징을 생성하는 것을 용이하게 하는 방법 및 컴퓨터-판독가능 기록 매체
US8402102B2 (en) Method and apparatus for filtering email spam using email noise reduction
EP1484893B1 (en) Origination/destination features and lists for spam prevention
US7739337B1 (en) Method and apparatus for grouping spam email messages
US9537871B2 (en) Systems and methods for categorizing network traffic content
US20170126601A1 (en) Image based spam blocking
Mohammed et al. An anti-spam detection model for emails of multi-natural language
He et al. Filtering short message spam of group sending using CAPTCHA
US8375089B2 (en) Methods and systems for protecting E-mail addresses in publicly available network content
He et al. A novel method for filtering group sending short message spam
CN118250087B (zh) 一种自动化生成邮箱账号蜜点的邮件安全保护方法及系统
KR100867941B1 (ko) 스팸메일 차단 방법
Mohammed et al. AN ANTI-SPAM DETECTION MODEL FOR EMAILS OF MULTI-NATURAL
Wavhal BAYESIAN FILTER TECHNIQUE FOR SPAM E-MAIL DETECTION: AN OVERVIEW
Priya et al. An Efficient E-Mail Generalization Scheme For Unsolicited Mail
Circumventing Ph. D. Synopsis of Santosh A. Shinde
Nor Improving Antispam Techniques by Embracing Pattern-based Filtering

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140516

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150515

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160517

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170522

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180529

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20190530

Year of fee payment: 9