KR101130357B1 - 외부 데이터를 사용하는 검색 엔진 스팸 검출 - Google Patents

외부 데이터를 사용하는 검색 엔진 스팸 검출 Download PDF

Info

Publication number
KR101130357B1
KR101130357B1 KR1020050042383A KR20050042383A KR101130357B1 KR 101130357 B1 KR101130357 B1 KR 101130357B1 KR 1020050042383 A KR1020050042383 A KR 1020050042383A KR 20050042383 A KR20050042383 A KR 20050042383A KR 101130357 B1 KR101130357 B1 KR 101130357B1
Authority
KR
South Korea
Prior art keywords
electronic document
attribute
spam
search
email
Prior art date
Application number
KR1020050042383A
Other languages
English (en)
Other versions
KR20060049165A (ko
Inventor
바마 라마라스남
에릭 비. 와슨
제닌 루스 크룸브
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20060049165A publication Critical patent/KR20060049165A/ko
Application granted granted Critical
Publication of KR101130357B1 publication Critical patent/KR101130357B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9536Search customisation based on social or collaborative filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/913Multimedia
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/959Network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)
  • Storage Device Security (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

검색과 관련하여 전자 문서를 평가한다. 외부 소스는 검색 엔진에 의해서 검색되는 전자 문서를 평가하는데 사용할 데이터를 제공한다. 그와 같이 외부로부터 제공된 데이터에 기초하여 전자 문서의 제1 신뢰 수준이 결정된다. 제1 신뢰 수준은 그 전자 문서가 바람직하지 않은 것일 가능성을 나타낸다. 전자 문서의 속성들에 기초하여 그 전자 문서의 제2 신뢰 수준이 결정된다. 제2 신뢰 수준은 검색과 관련하여 그 전자 문서가 만족스럽지 않은 것일 가능성을 나타낸다. 그 결정된 제1 신뢰 수준 및 제2 신뢰 수준의 함수로서 생성된 해당 전자 문서에 관한 등급을 이용하여 그 전자 문서를 수신된 검색 요청과 관련해서 만족스럽지 않은 것으로 특징짓는다.
검색, 전자 문서, 신뢰 수준, 스팸, 외부 데이터

Description

외부 데이터를 사용하는 검색 엔진 스팸 검출{SEARCH ENGINE SPAM DETECTION USING EXTERNAL DATA}
도 1은 본 발명의 실시예들이 이용될 수 있는 예시적 네트워크 환경을 도시한 블록도,
도 2는 본 발명의 실시예들이 이용될 수 있는 또 다른 예시적 네트워크 환경을 도시한 블록도,
도 3은 본 발명의 실시예들이 이용될 수 있는 또 다른 예시적 네트워크 환경을 도시한 블록도,
도 4는 검색과 관련하여 전자 문서를 평가하기 위한 본 발명의 일 실시예에 따른 프로세스 흐름을 나타내는 예시적 흐름도,
도 5는 검색과 관련하여 전자 문서를 평가하기 위한 본 발명의 일 실시예에 따른 프로세스 흐름을 나타내는 예시적 흐름도,
도 6은 본 발명의 일 실시예에 따른 예시적 컴퓨터 판독가능 매체를 도시한 블록도,
도 7은 본 발명의 일 실시예에 따른 또 다른 예시적 컴퓨터 판독가능 매체를 도시한 블록도,
도 8은 본 발명의 일 실시예가 구현될 수 있는 적합한 컴퓨팅 시스템 환경의 예시적 실시예를 나타내는 블록도.
<도면의 주요 부분에 대한 부호의 설명>
104: 검색 엔진 106 : 크롤러
108 : 네트워크 110, 112 : 서버
126 : 이메일 스팸 검출 시스템 128 : 데이터베이스
본 발명의 실시예들은 통신 네트워크를 사용하여 관련된 데이터 엔티티들을 검색하는 분야에 관한 것이다. 특히, 본 발명의 실시예들은, 외부 데이터를 이용하여, 전자 문서 생성자의 고의적인 조작에 의해 검색 엔진이 그 전자 문서에 대해 부당하게 상위 랭크를 부여하는 것을 방지하는 것에 관한 것이다.
인터넷은 무수히 많은 컴퓨터들 걸쳐 분포되어 있는 방대한 양의 정보를 포함하므로, 사용자에게 다양한 주제에 관한 많은 양의 정보를 제공하고 있다. 이러한 점은 인트라넷 및 엑스트라넷 등의 많은 수의 기타 통신 네트워크에 대해서도 마찬가지이다. 비록 많은 양의 정보가 네트워크 상에서 사용 가능할 수는 있더라도, 원하는 정보를 찾기란 대체로 쉽거나 빠르지 않다.
네트워크 상에서 원하는 정보 찾기라는 문제를 해결하기 위해서, 검색 엔진들이 개발되어 왔다. 통상, 원하는 정보 유형에 관하여 어떠한 생각을 가진 사용자는 하나 이상의 검색 단어를 검색 엔진에 입력한다. 그 다음, 검색 엔진은, 사 용자가 지정한 검색 단어와 관련있는 전자 문서를 포함하고 있다고 판정된 네트워크 위치들(예컨대, URL들(uniform resource locators))의 리스트를 반환한다. 또한, 많은 검색 엔진들은 관련도 랭킹을 제공한다. 일반적으로 관련도 랭킹이란 다른 전자 문서들과 비교하여 주어진 네트워크 위치에 있는 전자 문서가 사용자에 의하여 지정된 검색 단어와 관련되는 정도의 상대적 평가치를 말한다. 예를 들면, 종래의 검색 엔진은 전자 문서 내에 미리 정해진 검색 단어가 나타난 회수, 전자 문서 내에서 검색 단어의 위치(예컨대, 제목에 나타난 단어는 대개 문서의 말미에 나타난 경우보다 더 중요한 것으로 간주된다)에 기초하여 관련도 랭킹을 제공할 수 있다. 아울러, 링크 분석이 또한 웹 페이지들 및 기타 하이퍼링크된 문서들에 랭킹을 부여하는데 있어서 효과적인 기법이 되어왔다. 관련도 랭킹을 제공하는데 사용되는 또 다른 기법으로는 앵커-텍스트(anchor-text) 분석, 웹 페이지 구조 분석, 키 단어 열거 방법 이용 및 URL 텍스트 등을 들 수 있다.
전자 문서의 생성자들은 종종 그들의 전자 문서를 사용자에게 제시하기 위한 의도적인 노력을 꾀하여 관련도 랭킹의 문제를 어렵게 만든다. 예를 들면, 일부 생성자들은 자신의 문서에 대해 검색 엔진이 원래 부여받을 수 있는 것보다 더 높은 랭크를 부여하게 만들고자 시도한다. 검색 엔진으로부터 부당하게 상위 랭크를 획득하려는 시도의 일환으로, 전자 문서의 생성자가 그 문서를 의도적으로 조작하는 것을, 일반적으로 검색 엔진 스패밍이라고 부른다. 검색 엔진 스팸의 목표는 부정한 방식으로 사용자를 그 조작된 전자 문서에 방문하도록 유도하는 것이다. 조작의 일 형태로는 전자 문서에 수백 개의 키 단어를 넣어두는 것(예컨대, 전자 문서의 메타 태그 내에)이나 기타 다른 기술을 사용하여 하나 이상의 검색 단어에 관하여 그 전자 문서의 관련도를 검색 엔진이 과대 평가(또는 심지어 사실과 다르게 식별)하도록 혼란시키는 것이 포함된다. 예를 들면, 자동차에 대한 안내 광고(classified advertising) 웹 페이지의 생성자는 "키 단어" 섹션을 "차(car)"라는 단어의 반복으로 채울 수 있다. 생성자는 사용자가 "차"라는 용어에 대해 검색할 때마다 검색 엔진이 그 웹 페이지를 매우 관련성있는 것으로 식별하게 하려고 그와 같이 하는 것이다. 그러나, 그 웹 페이지의 주제를 좀 더 정확하게 표시하는 "키 단어" 섹션으로는 "자동차", "차", "안내 광고" 및 "판매" 등의 단어가 포함될 수 있다.
검색 엔진 스팸을 생성하는 또 다른 기법으로는 실제 사용자와 검색 엔진으로 상이한 문서를 반환하는 것(즉, 위장 기술), 전자 문서와 관련없는 키 단어를 타겟으로 하는 것, 키 단어 카운트를 증가시키기 위하여 사용자가 보지 않을 영역에 키 단어를 두는 것, 링크 인기도를 증가시키기 위하여 사용자가 보지 않을 영역에 링크를 두는 것, 저질의 도어웨이 웹 페이지 제작, 사용자를 속여서 상위 랭크의 전자 문서로부터 관련없는 전자 문서로 방향을 재설정하여 그 관련없는 전자 문서를 사용자에게 제시하는 것 등을 들 수 있다. 그 결과, 검색 엔진은 질의를 실행하는 사용자에게 사실상 관련이 없을 가능성이 있음에도 높이 랭크된 전자 문서를 제공하게 된다. 그러므로, 검색 엔진은 그와 같은 의도적인 랭킹 조작에 대해 사용자를 보호하지 못한다.
기존의 검색 엔진들은 각 스팸 기법을 개별적으로 분석하여 조작된 전자 문 서의 패턴을 식별함으로써 검색 엔진 스팸을 방지하고자 한다. 그와 같은 검색 엔진들은 그 식별된 패턴을 가진 전자 문서를 검출하면, 해당 전자 문서를 스팸이라고 레이블링하여 검색 결과에서 그 전자 문서가 사용자에게 제시되지 않도록 하거나 그 결과의 랭킹을 낮춘다. 예를 들면, 특정 검색 엔진은 최종 사용자를 위해서라기 보다는 검색 엔진을 위해서 주로 제작된 전자 문서를 검색 엔진 스팸이라고 레이블링할 수 있다. 마찬가지로, 검색 엔진은 전자 문서 내에 숨겨진 텍스트 및/또는 숨겨진 링크를 검출하여, 이 전자 문서를 검색 엔진 스팸이라고 레이블링할 수 있다. 일부 검색 엔진들은 또한 수많은 불필요한 호스트 이름(예컨대, poker.foo.com, blackjack.foo.com 등)을 가진 웹 사이트, 또는 그 웹 사이트의 표면상 인기도를 인위적으로 부풀리는 데에 사용되는 과도한 크로스 링크들을 갖는 웹 사이트를 검출하여 이러한 웹 사이트를 검색 엔진 스팸이라고 레이블링할 수 있다. 또한, 기존의 검색 엔진들은 위장 기법을 이용하거나, 웹 사이트가 다른 웹 사이트와 상호 링크를 교환하는 링크 파밍(link farming)을 채택하고 있는 웹 사이트를 검출해내어 검색 엔진 최적화를 향상시킬 수 있다.
검색 엔진 스팸과 달리, 전자 메일(즉 이메일) 스팸은 일반적으로 동시에 많은 수신자들에게 발신되는 환영받지 못하는 메일이다. 이메일 스팸은 전자적인 정크 메일이라고 할 수 있다. 대부분의 경우, 이메일 스팸의 내용은 수신자의 관심분야와 관련이 없다. 그러므로 이메일 스팸을 생성하는 것은 최소한의 비용으로 광범위한 사람들에게 메시지를 배포하기 위하여 인터넷을 남용하는 것이 된다.
이메일 스팸은 검색 엔진 스팸과 많은 면에서 구별된다. 예를 들면, 프로그 램이 많은 수의 수신자에게 이메일 스팸을 발신하기 위하여 이메일 메시지를 자동으로 생성할 수 있다. 반면, 검색 엔진 스팸은 이메일 주소, 발신자, 또는 수신자와 관련되지 않는다. 그러나 그럼에도 불구하고, 검색 엔진 스팸은 이메일 스팸과 미리 정해진 특성들을 공유한다. 예를 들면, 검색 엔진 스팸 및 이메일 스팸 둘 다 부정한 방식으로 사용자가 특정 제품이나 서비스를 방문하도록 유도하기 위해 생성된다는 점에서 바람직하지 않다. 따라서, 이메일 스팸의 생성자는 어떤 제품이나 서비스와 관련있는 하나 이상의 전자 문서들의 제시를 증가시키기 위해서 종종 검색 엔진 스팸도 생성할 수 있다. 즉, 스팸 생성자들은 제품이나 서비스를 마케팅하기 위해 종종 이메일 스팸 및 검색 엔진 스팸 둘 다에 의존한다. 따라서, 이메일 스팸과 검색 엔진 스팸 간에는 일반적으로 강한 상호관련성이 있다. 그럼에도 종래의 시스템 및 방법들은 이메일 스팸 및 검색 엔진 스팸의 잠재적 소스들 간의 그와 같은 상호관련성을 간과해 왔다. 구체적으로, 종래 기술에서는 이메일 스팸과 검색 엔진 스팸을 완전히 상이한 해결책을 필요로 하는 별개의 문제로 처리하고 있다.
따라서, 검색 엔진 스팸을 효과적으로 식별하고 방지하는 해결책이 요구된다.
본 발명의 실시예들은, 검색과 관련하여 잠재적으로 바람직하지 않은 전자 문서들을 검출해내기 위하여, 특히 외부 소스의 사용을 제공함으로써, 종래 기술에 있어서의 하나 이상의 결함들을 극복하고, 그리하여 개선된 검색 엔진 결과를 제공 한다. 본 발명의 일 실시예에 따르면, 이메일 스팸 검출 시스템은 이메일 메시지를 가능성 있는 이메일 스팸으로서 식별한다. 그런 다음, 데이터베이스 등의 메모리 영역이 이러한 이메일 메시지에 포함된 링크들의 리스트를 저장한다. 본 발명의 일 실시예는 이러한 데이터베이스에 액세스하고 그 데이터베이스에 저장된 링크에 의하여 제공된 전자 문서의 신뢰 수준을 결정한다. 전자 문서의 신뢰 수준은 전자 문서가 검색 엔진 스팸일 가능성을 표시한다. 또 다른 실시예에서, 본 발명은 가능성 있는 이메일 스팸의 출처인 네트워크 주소를 식별한다. 그 다음, 데이터베이스가 그 네트워크 주소를 저장한다. 데이터베이스를 액세스함으로써, 본 발명의 실시예들은 이 네트워크 주소에 위치한 전자 문서에 대한 신뢰 수준을 결정하고, 그리하여 검색 엔진 스팸을 더 잘 식별하게 된다. 또한 이메일 스팸 검출 시스템은 이메일 스팸에서 빈번하게 나타나는 단어들(예컨대, 워드, 워드의 조합, 구문, 문자열, n-그램, 이진 데이터 등)의 리스트를 식별할 수 있다. 다음으로, 데이터베이스가 그 단어들의 리스트를 저장한다. 따라서, 본 발명의 일 실시예는 그 저장된 이메일 스팸 단어들 중 하나 이상을 포함하는 전자 문서에 대해 검색 엔진 스팸과 관련한 신뢰 수준을 산출하여 전자 문서가 검색 엔진 스팸일 가능성을 표시한다. 전자 문서가 검색 엔진 스팸으로서 높은 신뢰 수준을 갖는다면, 본 발명의 실시예들은 사용자에게 제공되는 검색 결과에서 그 전자 문서의 랭크를 낮출 수 있다. 또는, 본 발명의 실시예들은 제공되는 검색 결과로부터 이 전자 문서를 제거할 수 있다.
하나 이상의 또 다른 실시예들에 따르면, 본 발명은 사용자로 하여금 전자 문서의 요구 사항(desirability)에 관한 정보를 제공하도록 할 수 있다. 사용자는 이메일 스팸 또는 검색 엔진 스팸에 응답하여 이러한 정보를 제공할 수 있다. 사용자 제공 정보가 전자 문서를 바람직하지 않은 것으로 특징짓는 경우, 본 발명의 실시예들은 그 전자 문서에 대한 하나 이상의 속성을 식별해내어 그 전자 문서에 대한 등급(rating)을 생성한다. 전자 문서의 등급이 높으면, 그 전자 문서는 검색 엔진 스팸으로서 가능성이 높은 것이다. 따라서, 본 발명의 실시예들은 사용자에게 정확한 관련도 랭킹을 제공하기 위하여 검색 결과에서 전자 문서의 랭킹을 조정할 수 있다. 더욱이, 본 명세서에서 기술된 본 발명의 실시예들의 특징들은 경제적으로 적절하며, 상업상 실현 가능성이 있고, 현재의 가용 기술들보다도 구현이 더 용이하다.
간략히 기술된 바와 같이, 본 발명의 특징들을 이용한 방법이 검색과 관련하여 전자 문서를 평가한다. 본 방법은 전자 문서의 제1 신뢰 수준을 결정하는 단계를 포함한다. 전자 문서는 사용자로부터의 검색 요청에 응답하여 검색 엔진에 의해서 검색 가능하다. 제1 신뢰 수준은 검색 엔진에 대해 외부 소스가 제공하는 정보에 기초하여 전자 문서가 바람직하지 않을 가능성을 나타낸다. 본 방법은 또한 전자 문서의 제2 신뢰 수준을 결정하는 단계를 포함한다. 제2 신뢰 수준은 전자 문서의 하나 이상의 속성에 기초하여 그 전자 문서가 검색 요청과 관련해서 만족스럽지 않을 가능성을 나타낸다. 본 방법은 상기 결정된 제1 신뢰 수준 및 제2 신뢰 수준의 함수로서 전자 문서의 등급을 생성하는 단계를 더 포함한다. 본 방법은 또 한 전자 문서에 대해 생성된 등급에 기초하여 그 전자 문서가 검색 요청과 관련해서 만족스럽지 않다고 표시하는 단계를 포함한다.
본 발명의 또 다른 실시예에서, 본 발명의 특징들을 이용하는 방법이 검색과 관련하여 전자 문서를 평가한다. 본 방법은 전자 문서에 관한 사용자 제공 정보를 수신하는 단계를 포함한다. 전자 문서는 사용자로부터의 검색 요청에 대한 응답으로 검색 엔진에 의해 검색 가능하다. 사용자 제공 정보는 전자 문서를 바람직하지 않은 것으로 간주한다. 본 방법은 또한 그 수신된 사용자 제공 정보의 함수로서 전자 문서에 대한 등급을 생성하는 단계를 포함한다. 본 방법은 또한 그 전자 문서에 대해 생성된 등급에 따라 검색 요청과 관련해서 그 전자 문서가 만족스럽지 않다고 표시하는 단계를 더 포함한다.
본 발명의 또 다른 실시예에서, 본 발명의 특징들을 이용하는 시스템이 검색과 관련하여 전자 문서를 평가한다. 시스템은 사용자로부터 검색 요청을 수신하고, 그 수신된 검색 요청에 기초하여 전자 문서를 식별하는 프로세서를 포함한다. 시스템은 또한 전자 문서가 바람직하지 않은지 여부를 평가하는데 사용하기 위하여 프로세서에 대해 외부 소스에 의해서 제공된 데이터를 저장하는 메모리 영역을 포함한다. 프로세서는 전자 문서의 제1 신뢰 수준을 결정하도록 구성된다. 제1 신뢰 수준은 외부 소스가 제공하는 데이터에 기초하여 전자 문서가 바람직하지 않을 가능성을 나타낸다. 프로세서는 또한 전자 문서의 제2 신뢰 수준을 설정하도록 구성된다. 제2 신뢰 수준은 전자 문서의 하나 이상의 속성에 기초하여 그 전자 문서가 검색과 관련해서 만족스럽지 않을 가능성을 나타낸다. 프로세서는 상기 결정된 제1 신뢰 수준과 상기 설정된 제2 신뢰 수준의 함수로서 전자 문서의 등급을 생성하고, 그 전자 문서에 대해 생성된 등급에 기초하여 수신된 검색 요청과 관련해서 그 전자 문서를 만족스럽지 않은 것으로 분류하도록 구성된다.
본 발명의 또 다른 실시예에서, 본 발명의 특징들을 이용하는 컴퓨터 판독가능 매체는 검색과 관련하여 전자 문서를 평가하기 위한 컴퓨터 실행가능 컴포넌트를 포함한다. 컴퓨터 판독가능 매체는 전자 문서에 관련된 사용자 제공 정보를 수신하기 위한 인터페이스 컴포넌트를 포함한다. 전자 문서는 사용자로부터의 검색 요청에 응답하여 검색 엔진에 의해 검색 가능하다. 사용자 제공 정보는 전자 문서를 바람직하지 않은 것으로 간주한다. 컴퓨터 판독가능 매체는 또한 그 수신된 사용자 제공 정보의 함수로서 전자 문서의 등급을 생성하기 위한 분석 컴포넌트를 포함한다. 컴퓨터 판독가능 매체는 전자 문서에 관하여 생성된 등급에 따라 검색 요청과 관련해서 그 전자 문서를 만족스럽지 않은 것으로 분류하기 위한 질의 컴포넌트를 더 포함한다.
본 발명의 또 다른 실시예에서, 본 발명의 특징들을 이용하는 컴퓨터 판독가능 매체는 검색과 관련하여 전자 문서를 평가하기 위한 컴퓨터 실행가능 컴포넌트를 포함한다. 컴퓨터 판독가능 매체는 사용자로부터 검색 요청을 수신하고 그 수신된 검색 요청에 기초하여 전자 문서를 식별하기 위한 질의 컴포넌트를 포함한다. 컴퓨터 판독가능 매체는 또한 전자 문서가 바람직하지 않은지 여부를 평가하는데 사용할 데이터를 제공하기 위한 외부 컴포넌트를 포함한다. 컴퓨터 판독가능 매체는 전자 문서의 제1 신뢰 수준을 결정하기 위한 내부 컴포넌트를 더 포함한다. 제 1 신뢰 수준은 상기 외부 컴포넌트가 제공하는 정보에 기초하여 전자 문서가 바람직하지 않을 가능성을 나타낸다. 내부 컴포넌트는 또한 전자 문서의 제2 신뢰 수준을 설정하도록 구성되어 있다. 제2 신뢰 수준은 전자 문서의 하나 이상의 속성에 기초하여 그 전자 문서가 검색과 관련해서 만족스럽지 않을 가능성을 나타낸다. 컴퓨터 판독가능 매체는 또한 그 결정된 제1 신뢰 수준과 그 설정된 제2 신뢰 수준의 함수로서 전자 문서의 등급을 생성하기 위한 분석 컴포넌트를 포함한다. 질의 컴포넌트는 전자 문서에 관하여 생성된 등급에 기초해서 수신된 검색 요청과 관련하여 그 전자 문서를 만족스럽지 않은 것으로 분류하도록 구성되어 있다.
검색과 관련하여 만족스럽지 않은 전자 문서를 검출하는 방법을 수행하기 위한 컴퓨터 실행가능 명령어들을 포함하는 컴퓨터 판독가능 매체가 또한 본 발명의 특징들을 구현한다.
이와 달리, 본 발명의 실시예들은 다양한 다른 방법들 및 장치들을 포함할 수 있다.
후술하는 설명에 의하여 또 다른 특징들이 어느 정도 명백하게 될 것이고 분명하게 제시될 것이다.
도면 전체에 걸쳐 대응하는 참조부호는 대응하는 구성요소를 나타낸다.
바람직하지 않은 전자 문서를 검출해내기 위한 예시적 네트워크 환경
도 1을 참조하면, 본 발명의 실시예들이 이용될 수 있는 적합한 네트워크 환경의 일 예를 나타내는 블록도가 도시되어 있다. 서버 컴퓨터(102)는 검색 엔진(104) 등의 프로세서를 포함한다. 검색 엔진(104)은 또한 크롤러(crawler)(106)를 포함한다. 크롤러(106)는 도 1에 도시된 원격 서버 컴퓨터(110 및 112) 등과 같이 통신 네트워크(108)에 연결되어 있는 하나 이상의 컴퓨터 상에 분산된 전자 문서들을 검색한다. 통신 네트워크(108)는 인트라넷과 같은 LAN(local area network), 인터넷과 같은 WAN(wide area network), 또는 서버 컴퓨터(102)가 원격 컴퓨터, 예컨대 서버 컴퓨터(110 및 112) 등과 직접 또는 간접적으로 통신할 수 있게하는 네트워크 조합일 수 있다.
크롤러(106)는 네트워크(108)에 연결된 서버 컴퓨터(110 및 112)를 검색하고, 서버 컴퓨터(110) 상에 저장된 전자 문서(114 및 116) 및 서버 컴퓨터(112) 상에 저장된 전자 문서(118 및 120)를 탐색한다. 원격 서버 컴퓨터 상에 저장된 전자 문서에는 웹 페이지들(예컨대, HTML(hypertext markup language) 페이지 및 XML 페이지)과 멀티미디어 파일들이 포함될 수 있다. 크롤러(106)는 이들 전자 문서 및 관련 데이터를 수신한다. 나아가, 서버 컴퓨터(102)는 크롤러(106)에 의해 액세스되는 전자 문서(122 및 124)를 포함할 수 있다.
도 1에 도시된 바와 같이, 검색 엔진(104)에 대한 외부 소스를 구성하는 이메일 스팸 검출 시스템(126)이 또한 네트워크(108)에 연결되어 있다. 이메일 스팸 검출 시스템(126)은 그 시스템(126)의 사용자에게 전달되는 이메일 스팸을 검출해내는 시스템이다. 구체적으로, 서버(110) 및/또는 서버(112)와 같은 하나 이상의 원격 컴퓨터들은 이메일 메시지를 생성하여 시스템(126)의 사용자에게 발신할 수 있다. 그 다음, 이메일 스팸 검출 시스템(126)은 특정한 이메일 메시지가 이메일 스팸일 수 있음을 검출해내고 사용자를 보호하기 위한 동작을 수행한다. 예를 들 면, 시스템(126)은 사용자의 메일함으로부터 검출된 이메일 스팸을 차단하거나, 미리 정해진 메시지가 이메일 스팸일 수 있음에 대해 사용자에게 경고할 수 있다. 이와 달리, 시스템(126)은 수신자에게 이메일 메시지를 전달하기 이전에 그 메시지가 이메일 스팸이 아니라는 확인을 책임지는 사용자에게 그 이메일 메시지를 전달할 수 있다.
이메일 스팸 검출 시스템(126)은 이메일 스팸을 검출하기 위하여 몇가지 기법을 이용할 수 있다. 그 하나의 기법은, 시스템(126)이 이메일 스팸의 패턴을 식별하도록 트레이닝된 확률 분류자(probabilistic classifier)를 포함하는 것이다. 확률 분류자는 이메일 메시지를 분류하기 위한 컴퓨터 실행가능 명령어들을 포함한다. 일반적으로, 확률 분류자는 이메일 스팸에 있어서 통계적으로 의미심장한 속성들(예컨대, 통계적으로 의미심장한 키 단어 및/또는 문맥 정보)의 조합을 식별해낸다. 환영받지 못하는 이메일 메시지들은 종종 어떤 공통적 공유 속성들을 포함한다. 그와 같이 공통적으로 공유되고 아울러 통계적으로 의미심장한 속성들의 예로는 비현실적인 제품이나 서비스의 제공을 기술하는 키 단어들(예를 들면, 무료 약품, 체중 감소 프로그램, 또는 신용 카드 신청)을 들 수 있다. 더욱이, 그러한 속성들은 이메일 스팸을 발신했던 것으로 결정된 이메일 주소를 포함할 수 있다. 구체적으로, 확률 분류자는 하나 이상의 이메일 스팸 생성자의 도메인 이름을 (예컨대, 이메일 스팸의 "보낸 사람(From):" 라인에 기초하여) 식별하도록 트레이닝될 수 있다. 다음으로, 확률 분류자는 이메일 메시지의 "보낸 사람:" 라인을 구문 분석(parse)하여 그 이메일 메시지의 발신자가 이미 알고 있는 이메일 스팸 생성자에 해당하는지 여부를 결정할 수 있다.
마찬가지로, 확률 분류자는 이메일 스팸의 출처가 되는 네트워크 주소를 인식하도록 트레이닝될 수 있다. 이메일 스팸 생성자들은 종종 임의로 "보낸 사람:" 라인이나 이메일 스팸의 기타 정보를 임의의 값으로 설정한다. 그러나, 이메일 스팸의 출처인 네트워크 주소(예컨대, 인터넷 프로토콜(IP) 주소)를 은폐하기는 어려운 일이다. 그러므로, 착신 SMTP(simple mail transfer protocol) 접속의 네트워크 주소는 이메일 스팸을 특징짓도록 확률 분류자를 트레이닝하는데 있어서 귀중한 속성이 된다. 덧붙여, 확률 분류자는 이메일 스팸과 연관된 하나 이상의 링크나 URL을 식별하도록 트레이닝될 수 있다. 즉, 가능성 있는 이메일 스팸 내에 포함된 URL들이 구체적으로 구문 분석되어 이메일 스팸을 특징짓는 속성들을 생성해낸다. 많은 수의 이메일 메시지들은 내포된 URL들을 포함한다. 이들 URL의 존재가, 그 이메일 메시지가 이메일 스팸임을 나타낼 수 있다. 예컨대, 이들 URL은 요구되지 않은 제품이나 서비스를 제공하는 하나 이상의 웹 페이지들로 그 이메일 수신자를 유도할 수 있다. 일 실시예에서는, 호스트 이름(예컨대, 알파벳, 점찍힌 십진수, 16진수, 또는 8진수 인코딩형 호스트 이름)이 이러한 URL로부터 추출되어 이메일 스팸을 특성짓는 것을 도울 수 있다. 그러므로, URL이 <URL1>@<URL2>@...@<URLn>의 형태로 조합된 경우, 마지막 @ 기호 다음의 URL(즉, URLn)이 추출될 호스트 이름이 된다.
이메일 스팸 생성자는 스팸 생성자와 관련된 호스트 이름이 확률 분류자에 의하여 추출되는 것을 회피하기 위하여 URL 내에 재설정자(redirector)를 포함할 수 있다. 이 재설정자는 이메일 수신자를 이메일 스팸 생성자와 제휴된 웹 사이트로 방향을 재설정하기 위하여 그 URL에 포함된다. 이러한 시나리오에서, 확률 분류자는 재설정 URL 내에 숨겨진 실제 호스트 이름을 식별해내고 이메일 스팸을 특징짓는 하나의 속성으로서 그 실제 호스트 이름을 사용하도록 구성된다.
논의된 바와 같이, 확률 분류자는 가능성 있는 이메일 스팸에 있어서 하나 이상의 이메일 스팸 속성을 인식하도록 트레이닝된다. 이메일 스팸 검출 시스템(126)은 확률 분류자를 트레이닝하기 위하여 잠재적 이메일 스팸을 식별해내는 수 개의 기법들을 채택할 수 있다. 하나의 기법으로, 이메일 수신자가 특정 이메일 메시지가 이메일 스팸인지 여부를 표시할 수 있다. 또 다른 기법으로, 시스템(126)이 이메일 스팸을 캡쳐하기 위한 허니팟(honeypot)을 유지하는 것이다. 허니팟은 소정 기간만에 종료되거나 결코 존재하지 않는 이메일 계정을 의미한다. 그러나 일반적으로 이메일 스팸 생성자에게는 허니팟이 정규의 이메일 계정인 것처럼 보인다. 그러므로, 허니팟에 의해 표시되는 이메일 계정이 주어진 기간만에 종료되거나 결코 존재하지 않고, 그 이메일 계정이 정규의 이메일을 수신할 이유가 전혀 없는 경우, 그 허니팟으로 발신된 이메일 메시지는 이메일 스팸으로 간주될 수 있다.
확률 분류자를 트레이닝하기 위하여 잠재적 이메일 스팸을 식별해내는 또 다른 기법으로, 이메일 검출 시스템(126)은 착신 이메일에 대한 난제 응답(challenge response)을 구현할 수 있다. 즉, 시스템(126)은 착신 이메일의 발신자에게 난제를 풀어 그 이메일이 기계로 생성된 것이 아님을 확인하도록 요청할 수 있다. 발 신자가 난제 해결에 실패한 경우, 시스템(126)은 그 이메일을 잠재적 이메일 스팸으로 식별하여 확률 분류자가 그 속성들을 추출하게 할 수 있다.
광범위하게 다양한 트레이닝 기법들이 확률 분류자를 트레이닝하는데 이용될 수 있다. 스팸으로 식별되는 이메일과 비스팸으로 식별되는 이메일들이 컴퓨터 실행가능 트레이닝 명령어들에 제공된다. 그 다음, 그 컴퓨터 실행가능 트레이닝 명령어들은 스팸으로 식별되는 이메일에는 있지만 비스팸으로 식별되는 이메일에는 없는 속성들을 인식한다. 따라서, 그 인식된 속성들은 이메일 스팸에 있어서 통계적으로 의미심장한 것으로 분류된다. 나아가, 컴퓨터 실행가능 트레이닝 명령어는 통계적으로 의미심장한 것으로 분류된 각 속성에 대해 가중치를 결정한다. 그러한 트레이닝 명령어들은 어떤 속성이 이메일 스팸에서 나타나는 빈도 등을 비롯하여 많은 수의 인자에 기초해서 그 주어진 속성에 대한 가중치를 결정한다. 컴퓨터 실행가능 트레이닝 명령어들은 많은 수의 다양한 아키텍처로서 구현될 수 있다. 예를 들면, 컴퓨터 실행가능 트레이닝 명령어는 나이브 베이지안(Naive Bayesian) 분류자, 제한 종속(limited dependence) 베이지안 분류자, 베이지안 네트워크 분류자, 결정 트리(decision tree), 서포트 벡터 머신(support vector machine), 콘텐츠 매칭(content matching) 분류자, 최대 엔트로피(maximum entrophy) 분류자 및 이들의 조합 등으로 구현될 수 있다.
또한, 시스템(126)의 확률 분류자는 패턴 인식에 의해서 트레이닝되어 키 단어 매칭 기법에 의해서는 식별될 수 없는 통계적으로 의미심장한 속성들의 조합을 식별해낼 수 있다. 특히, 확률 분류자를 트레이닝하기 위한 패턴 인식에 의해서 사용되는 통계적 기법들은 트레이닝 샘플들에 기초하여 속성들을 일반화시켜 그 확률 분류자가 소정 속성에 관한 변형들도 인식하도록 할 수 있다. 예를 들면, 확률 분류자는 이메일 스팸과 관련되는 "free stereo pl@yer"와 같은 속어 구문을 인식할 수 있을 것이다. 그러나, 키 단어 매칭 기법들은 그러한 속어나 기타 구문 변형을 효과적으로 식별할 수 없을 것이다. 그럼에도, 키 단어 매칭은 패턴 인식과 함께 동시에 확률 분류자를 트레이닝하는데 이용될 수 있음을 알아야 한다.
이메일 메시지로부터 추출된 속성들의 분석에 기초하여, 확률 분류자는 이메일 메시지에 대한 등급을 생성한다. 예를 들면, 확률 분류자는 이메일 메시지 내에서 식별되는 개별적인 속성들(예컨대, 단어, 네트워크 주소, 호스트 이름 등)에 대해 절대 가중치를 할당할 수 있다. 상술된 바와 같이, 미리 정해진 속성에 대한 가중치가 확률 분류자의 트레이닝 프로세스가 진행되는 동안에 결정된다. 다음으로, 확률 분류자는 그 할당된 가중치를 수학적 함수(예컨대, 가중치의 합)에 적용시킴으로써 이메일 메시지의 등급을 생성한다. 일 실시예에서, 이메일 메시지의 등급은 퍼센트 형태(예컨대, 60%)가 될 수 있다. 이메일 메시지의 등급이 높을수록, 이메일 메시지가 이메일 스팸일 가능성이 높아진다. 즉, 이메일 메시지의 등급은 그 이메일 메시지가 이메일 스팸에 나타나기 쉬운 요소들을 포함할 가능성을 나타내는 것이다. 또 다른 실시예에서, 확률 분류자는 이메일 메시지 내에 존재하는 속성들의 조합뿐만 아니라, 그 이메일 메시지 내에 미리 정해진 속성이 나타나는 빈도에 기초하여 그 이메일 메시지에 대한 등급을 생성한다. 구체적으로, 속성 그 자체는 이메일 스팸의 표지가 될 수 없지만, 이메일 메시지가 이메일 스팸을 구 성한다는 문맥 정보 즉 집합적 정보로서는 역할한다. 예를 들면, "크레딧 카드"라는 속성 단독으로는 이메일 메시지가 이메일 스팸이라고 암시할 수 없다. 그러나, "연회비 없음"이라는 속성과 결합하면, "크레딧 카드"라는 속성은 그 이메일 메시지가 환영받지 못하는 제안을 구성하고 따라서 이메일 스팸을 구성한다고 생각할 수 있다.
나아가, 확률 분류자는 생성된 등급의 함수로서 메시지를 분류할 수 있다. 즉, 확률 분류자는 이메일 메시지에 대한 등급을 생성한 후, 그 등급에 기초하여 이메일 메시지가 이메일 스팸을 구성하는지 여부를 결정한다. 예를 들면, 이메일 스팸 검출 시스템(126)은 이메일 메시지가 바람직하지 않은 것일 미리 정해진 가능성을 의미하는 임계 레벨(예컨대, 70%)을 저장하고 있을 수 있다. 다음으로, 확률 분류자는 이메일 메시지의 등급과 임계 레벨을 비교한다. 일 실시예에서, 이메일 메시지의 등급이 임계 레벨보다 높으면(또는 이상이면), 확률 분류자는 그 이메일 메시지를 이메일 스팸으로 분류한다. 관리자는 임계 레벨을 변경함으로써 이메일 스팸 검출 시스템(126)의 감도를 변경할 수 있음을 주의해야 한다. 예를 들면, 관리자는 이메일 스팸으로 분류되는 이메일 메시지의 수를 줄이기 위해 임계 레벨을 더 높은 값으로 설정할 수 있다.
이메일 메시지가 가능성 있는 이메일 스팸으로 분류되면, 시스템(126)은 네트워크(108)에 연결된 데이터베이스(128) 등의 메모리 영역에 저장할 그 이메일 메시지와 연관된 미리 정해진 속성들을 추출해낸다. 본 발명의 일 실시예에 따르면, 시스템(126)은 그 이메일 메시지와 연관된 하나 이상의 네트워크 주소(예컨대, IP 주소)를 식별한다. 예를 들면, 시스템(126)은 그 이메일 메시지의 출처 네트워크 주소를 식별할 수 있다. 그러므로, 이메일 메시지의 출처가 서버(110)인 경우, 시스템(126)은 데이터베이스(128) 내에 서버(110)의 네트워크 주소를 저장한다. 본 발명의 또 다른 실시예에 따르면, 시스템(126)은 또한 이메일 스팸으로 분류된 이메일 메시지 내에 포함된 하나 이상의 링크들을 식별한다. 다음으로 시스템(126)은 데이터베이스(128) 내에 그 식별된 링크들의 호스트 이름을 저장한다. 그러므로, 이메일 스팸으로 분류된 이메일 메시지가 전자 문서(114)의 URL을 포함하는 경우, 시스템(126)은 데이터베이스(128) 내에 이 URL의 호스트 이름을 저장한다. 덧붙여, 시스템(126)은 이메일 스팸과 연관된 단어들(예컨대, 워드, 워드의 조합, 구문, 문자열, n-그램, 이진 데이터 등)의 리스트를 식별한다. 시스템(126)은 또한 데이터베이스(128) 내에 이 단어들의 리스트를 저장한다.
또한 데이터베이스(128) 내에 저장된 네트워크 주소, 호스트 이름 또는 단어 각각에 대하여, 시스템(126)은 이러한 네트워크 주소, 호스트 이름 또는 단어가 이메일 스팸과 연관되는 신뢰 수준을 지정한다. 시스템(126)은 네트워크 주소, 호스트 이름 또는 단어를 포함하는 이메일 메시지의 등급에 기초하여 신뢰 수준을 지정한다. 따라서, 확률 분류자가 미리 정해진 이메일 메시지에 대하여 80% 등급을 생성한 경우, 확률 분류자는 이 이메일 메시지로부터 식별되는 네트워크 주소, 호스트 이름 및/또는 단어에 대하여 80%의 신뢰 수준을 지정한다. 네트워크 주소, 호스트 이름 및/또는 단어에 대하여 지정된 신뢰 수준도 마찬가지로 데이터베이스(128) 내에 저장된다.
검색 엔진(104)의 크롤러(106)는 네트워크(108)를 네비게이팅하여 네트워크(108) 상에 위치한 하나 이상의 전자 문서를 수집하고, 검색 엔진(104)의 인덱스 제작기(129)가 그 수집된 전자 문서들을 구문 분석하여 인덱싱을 위해 그 특성들을 식별할 경우, 검색 엔진(104)은 수집된 전자 문서에 대하여 그 수집된 전자 문서가 검색 엔진 스팸일 가능성(즉, 검색과 관련하여 만족스럽지 않은 것일 가능성)을 나타내는 또 다른 신뢰 수준을 설정할 것이다. 특히, 크롤러(106)는 그 수집된 전자 문서에 대한 하나 이상의 패턴을 식별하여 이들 패턴이 검색 엔진 스팸을 특징짓는 패턴에 해당하는지 여부를 결정할 것이다. 예를 들면, 크롤러(106)는 수집된 전자 문서가 최종 사용자를 위해서라기 보다 검색 엔진(104)을 위해서 주로 제작된 것인지를 식별할 수 있다. 나아가, 크롤러(106)는 수집된 전자 문서가 숨겨진 텍스트 및/또는 숨겨진 링크를 포함하는지를 검출할 수 있는데, 이것이 종종 검색 엔진 스팸을 특징짓는다. 검색 엔진 스팸을 특징짓는 또 다른 패턴들로는 수많은 불필요한 호스트 이름들, 과도한 크로스 링크, 링크 파밍 등을 들 수 있다. 수집된 전자 문서에서 식별된 패턴에 기초하여, 검색 엔진(104)은 그 수집된 전자 문서가 검색 엔진 스팸을 구성하는지에 대한 신뢰 수준을 생성한다.
검색 엔진(104)은 또한 데이터베이스(128)에 액세스하여 크롤러(106)가 수집한 하나 이상의 전자 문서와 관련된 정보를 추출하도록 구성된다. 일 실시예에서, 검색 엔진(104)은 데이터베이스(128) 내에 저장된 네트워크 주소의 리스트를 획득한다. 획득된 네트워크 주소가 수집된 전자 문서의 위치에 해당한다고 검색 엔진(104)이 결정한 경우, 그 검색 엔진은 데이터베이스(128)로부터 이 네트워크 주소 와 연관된 신뢰 수준을 추출한다. 마찬가지로, 검색 엔진(104)은 데이터베이스(128)로부터 호스트 이름의 리스트를 획득하여, 그 획득된 호스트 이름이 수집된 전자 문서를 제공하는 호스트 이름에 해당하는지 여부를 결정한다. 그러한 경우라면, 검색 엔진(104)은 데이터베이스(128)로부터 그 획득된 호스트 이름과 연관된 신뢰 수준을 추출한다. 또한, 검색 엔진(104)은 이러한 호스트 이름에 의해서 제공된 전자 문서로부터 링크되는 하나 이상의 전자 문서를 그와 같은 신뢰 수준을 갖는 것으로 지정할 수 있다. 그리고, 데이터베이스(128) 내에 저장된 단어에 관해서, 검색 엔진은 수집된 전자 문서 내에 이러한 단어가 나타나는지 여부를 결정한다. 저장된 단어가 수집된 전자 문서 내에 나타나는 경우, 검색 엔진은 데이터베이스(128)로부터 그 저장된 단어와 연관된 신뢰 수준을 추출한다.
수집된 전자 문서가 검색 엔진 스팸을 구성할 가능성을 나타내는 검색 엔진(104)이 결정한 신뢰 수준과, 그 수집된 전자 문서와 연관된 네트워크 주소, 호스트 이름 및/또는 단어에 대한 신뢰 수준에 기초하여 검색 엔진(104)은 그 수집된 전자 문서에 대한 가중형 등급을 계산한다. 구체적으로, 네트워크(108)를 크롤링하는 동안 검색 엔진(104)이 결정한 신뢰 수준은 검색과 관련하여 수집된 전자 문서가 바람직하지 않을 가능성을 나타낸다. 그리고, 데이터베이스(128)로부터 획득한 신뢰 수준(들)은 수집된 전자 문서가 바람직하지 않은 이메일 메시지와 연관될 가능성(즉, 이메일 스팸일 가능성)을 보여준다. 이메일 스팸과 검색 엔진 스팸 간 소유 관계(즉, 이메일 스팸의 생성자는 검색 엔진 스팸을 생성할 가능성이 있다는 관계)로 인하여, 검색 엔진(104)은 이러한 두 유형의 신뢰 수준을 조합해서 높은 신뢰도로 그 수집된 전자 문서가 검색 엔진 스팸일 가능성을 표시하는 가중형 등급을 생성할 수 있다.
높은 신뢰도로써 전자 문서가 검색 엔진 스팸을 구성하는지에 관한 조합된 가능성을 결정하는 한 가지 구체적 방법으로는, 다양한 타입의 신뢰 수준을 가중 평균화(weighted-averaged)하여 등급을 생성하는 것을 들 수 있다. 예를 들면, 전자 문서가 검색 엔진 스팸이 될 신뢰 수준이 60%, 그 전자 문서의 네트워크 주소가 이메일 스팸과 관련될 신뢰 수준이 80%, 그리고 그 전자 문서 내에 나타난 단어가 이메일 스팸과 관련될 신뢰 수준이 70%라면, 검색 엔진(104)은 이들 신뢰 수준을 평균하여 그 전자 문서에 대해 70%의 등급을 산출할 수 있다. 이와 달리, 전자 문서에 대한 등급은 검색 엔진 스팸이 될 신뢰 수준과 이메일 스팸에 관한 것일 신뢰 수준의 가중 평균일 수도 있다. 그러므로, 상기 예에서, 전자 문서의 네트워크 주소가 이메일 스팸과 연관될 80%의 신뢰 수준은 그 전자 문서에 나타난 단어가 이메일 스팸과 연관될 70%의 신뢰 수준으로 가중되어, 그 전자 문서가 이메일 스팸과 관련에 관한 것일 신뢰 수준 75%를 산출한다. 다음으로, 검색 엔진(104)은 그 가중형 신뢰 수준을 검색 엔진 스팸이 될 60%의 신뢰 수준과 평균하여 그 전자 문서가 검색 엔진 스팸을 구성할 가중형 확률을 나타내는 67.5%의 등급을 생성한다.
이와 달리, 이들 두 개의 서로 다른 신뢰 수준은 전자 문서가 스팸과 관련있을 가능성을 결정하기 위하여 상이한 메커니즘을 사용하기 때문에, 그 전자 문서가 검색 엔진 스팸을 구성할 조합된 가능성은 각 유형의 신뢰 수준보다 더 높을 수 있다. 예를 들면, 전자 문서가 검색 엔진 스팸이 될 신뢰도 70%와 전자 문서의 네트 워크 주소가 이메일 스팸과 연관될 신뢰 수준 80%를 갖는다면, 그 전자 문서가 검색 엔진 스팸을 구성할 조합된 가능성은 90%일 수 있다. 그러므로, 잠재적 이메일 스팸과 전자 문서의 연관성을 고려함으로써, 검색 엔진(104)은 전자 문서가 검색 엔진 스팸인지 여부를 정확하게 결정할 수 있다.
검색 엔진(104)이 특정 전자 문서가 잠재적 검색 엔진 스팸을 구성한다고 결정한 후(예컨대, 전자 문서의 등급이 임계 레벨보다 높은 경우), 검색 엔진(104)의 질의 프로세서는 검색 결과로써 사용자에게 그 문서를 제시하지 않도록 다양한 동작을 수행할 수 있다. 그러므로, 질의 프로세서는 사용자가 제출한 검색 요청에 기초하여, 검색 엔진 스팸을 구성한다고 결정된 전자 문서를 그 제출된 검색 요청의 "히트(hit)"라고 식별할 수 있다. 그러한 시나리오에서, 질의 프로세서는 사용자에게 제공된 검색 결과 내에서 그 전자 문서의 랭크를 낮출 수 있다. 즉, 그 전자 문서가 잠재적 검색 엔진 스팸을 구성하므로 검색 엔진(104)의 질의 프로세서는 검색 결과 내에서 그 전자 문서의 랭크를 낮춘다. 이와 달리, 질의 프로세서는 사용자에게 제공되는 검색 결과로부터 그 전자 문서를 삭제할 수도 있다. 본 발명의 일 실시예에서, 질의 프로세서가 취하는 동작은 조율이 가능하다. 즉, 전자 문서가 검색 엔진 스팸이라는 것이 좀 더 확실하다면, 그러한 전자 문서에는 좀 더 엄중한 페널티가 주어진다. 예를 들면, 85%보다 높은 등급의 전자 문서는 사용자에게 제공되는 검색 결과로부터 삭제될 수 있고, 65%와 85%사이의 등급을 갖는 전자 문서는 검색 결과에서 50랭크만큼 낮춰질 수 있다. 또한, 50%와 65% 사이의 등급을 갖는 전자 문서는 25랭크만큼 낮춰질 수 있는 동시에, 50%보다 낮은 등급을 갖 는 전자 문서에는 페널티가 주어지지 않을 수 있다. 본 발명의 또 다른 실시예에서, 전자 문서의 예비 랭킹이 미리 정해진 랭크(즉, 5랭크)보다 더 높다면, 질의 프로세서는 검색 결과 내에서 그 전자 문서의 랭킹을 유지한다. 즉, 관련도가 높은 전자 문서는 그 문서가 검색 엔진 스팸으로 결정된 경우에도 페널티를 받지 않을 수 있다.
도 2를 참조하면, 본 발명의 실시예들이 이용될 수 있는 적합한 네트워크 환경의 또 다른 예를 나타내는 블록도가 도시되어 있다. 서버 컴퓨터(202)는 검색 엔진(204)을 포함한다. 서버 컴퓨터(202)는 원격 서버 컴퓨터(208)와도 연결되어 있는 통신 네트워크(206)에 연결되어 있다. 통신 네트워크(206)는 인트라넷과 같은 LAN, 인터넷과 같은 WAN, 또는 서버 컴퓨터(202)가 원격 컴퓨터, 예컨대 원격 서버 컴퓨터(208) 등과 직접 또는 간접적으로 통신할 수 있게 하는 네트워크 조합일 수 있다. 원격 서버 컴퓨터(208)는 웹 페이지나 멀티미디어 파일일 수 있는 전자 문서(210 및 212)를 제공한다. 또한, 원격 서버 컴퓨터(208)는 네트워크(206)에 연결된 컴퓨터를 통해 사용자(214)에게 하나 이상의 이메일 메시지를 전송하도록 구성되어 있다.
사용자(214)는 서버 컴퓨터(208)로부터 이메일 메시지를 수신한 후, 그 수신된 이메일 메시지를 이메일 스팸이나 비스팸으로서 식별한다. 다음으로, 사용자(214)는 그 수신된 이메일 메시지에 관한 자신의 식별 결과를 이메일 스팸 검출 시스템(216)의 인터페이스에 대해 입력(즉 일반적으로 사용자 제공 정보)으로서 제출한다. 이러한 입력의 수신에 응답하여, 이메일 스팸 검출 시스템(216)은 그 이메 일 메시지가 이메일 스팸일 신뢰 수준을 설정한다. 나아가, 시스템(216)이 복수의 사용자로부터 그 이메일 메시지에 대한 복수의 입력을 수신하고, 그러한 입력들이 상호 모순되는 경우, 시스템(216)은 그 이메일 메시지에 대한 신뢰 수준을 설정하지 않기로 결정할 수 있다. 반면, 입력들이 서로 일치하는 경우, 시스템(126)은 그 이메일 메시지가 이메일 스팸을 구성할 신뢰 수준을 설정할 수 있다. 본 발명의 또 다른 실시예에서, 시스템(216)은 하나 이상의 입력들을 판단하기 위한 규칙을 구현할 수 있다. 즉, 미리 정해진 입력들은, 그 입력을 제출한 사용자가 좀 더 신뢰할만하기 때문에, 좀 더 높은 값으로 가중된다. 이러한 실시예에서, 시스템(216)은 특정한 이메일 메시지를 이메일 스팸이라고 보고하는 사용자의 퍼센티지를 결정한다. 대다수의 사용자가 그 이메일 메시지를 이메일 스팸이라고 동의하는 경우, 나머지 소수 사용자에 의한 입력들은 신뢰가 떨어질 수 있다. 즉, 특정 사용자가 이메일 메시지를 이메일 스팸으로서 보고하고, 다른 대다수의 사용자가 그 특정 사용자에 동의하는 경우, 시스템(216)은 그 특정 사용자를 신뢰할만 하다고 결정할 수 있다. 반면, 다른 대다수의 사용자가 그 특정 사용자에게 동의하지 않는 경우, 시스템(216)은 사용자가 신뢰할만 하지 않다고 결정할 수 있다. 따라서, 시스템(216)은 적어도 부분적으로는 사용자가 제공한 입력의 신뢰도에 기초하여 이메일 메시지에 대한 신뢰 수준을 결정할 수 있다.
이메일 스팸 검출 시스템(216)이 특정 이메일 메시지가 이메일 스팸을 구성한다고 결정한 경우, 검출 시스템(216)은 그 이메일 메시지를 구문 분석하여 그 이메일 메시지의 하나 이상의 속성을 식별함으로써 이메일 스팸의 패턴을 결정한다. 이메일 메시지가 이미지를 포함하는 경우, 시스템(216)은 그 이미지 내의 피부 색조(flesh tone) 레벨을 감지함으로써 속성들을 식별한다. 일 실시예에서, 시스템(216)은 이러한 이메일 스팸과 연관된 하나 이상의 단어를 식별할 수 있다. 또한, 시스템(216)은 이메일 스팸의 출처인 네트워크 주소(예컨대, 서버 컴퓨터(208)의 네트워크 주소)를 결정할 수 있다. 또한, 시스템(216)은 이 이메일 스팸과 연관된 호스트 이름을 식별할 수 있다. 예를 들면, 전자 문서(210 및/또는 212)가 이메일 스팸으로부터 링크된 경우, 시스템(216)은 그 링크로부터 이들 전자 문서에 대한 호스트 이름을 추출할 수 있다. 또 다른 실시예에서, 시스템(216)은 네트워크(206)에 연결된 데이터베이스(216) 등과 같은 메모리 영역 내에 이메일 스팸과 관련있는 식별된 속성들을 저장한다.
서버 컴퓨터(202)의 검색 엔진(204)은 데이터베이스(217)를 액세스하여 저장된 속성들을 획득한다. 그 저장된 속성들에 기초하여, 검색 엔진(204)은 특정한 네트워크 주소에 위치한 하나 이상의 전자 문서, 또는 특정한 호스트 이름에 의하여 제공되는 하나 이상의 전자 문서에 대하여 등급을 생성한다. 나아가, 검색 엔진(204)은 데이터베이스(218)에 저장된 단어가 네트워크(206) 상에 위치한 미리 정해진 전자 문서에서 나타나는지를 결정하여 그 전자 문서에 대한 등급을 생성한다. 전자 문서의 등급은 그 전자 문서가 검색 엔진 스팸일 가능성을 나타낸다. 전자 문서의 등급이 임계 레벨을 넘어서는 경우, 검색 엔진(204)은 그 전자 문서를 검색 엔진 스팸으로 분류한다. 검색 엔진(204)의 질의 프로세서는 또한 사용자에게 정확한 검색 결과를 제공하기 위한 동작(예컨대, 검색 결과 내에서 그 전자 문서의 랭크를 낮추거나, 검색 결과로부터 그 전자 문서를 삭제하는 동작 등)을 수행한다.
도 3을 참조하면, 본 발명의 실시예들이 검색과 관련하여 전자 문서를 평가할 수 있는 적합한 네트워크 환경의 또 다른 예를 나타내는 블록도가 도시되어 있다. 클라이언트 컴퓨터(302)는 네트워크(306)에 의해 서버 컴퓨터(304)에 연결되어 있다. 그리고, 네트워크(306)는 LAN(예컨대, 인트라넷), WAN(예컨대, 인터넷), 또는 네트워크 조합일 수 있다. 클라이언트 컴퓨터(302)는 검색 사용자 인터페이스(308)(예컨대, 브라우저)나 기타 머신 액세스 가능 프로그래밍 인터페이스 또는 전자 문서의 위치를 알아내어 사용자에게 디스플레이하는 프로토콜을 포함한다.
클라이언트 컴퓨터(302)의 사용자가 하나 이상의 전자 문서에 대한 검색을 희망하는 경우, 사용자는 검색 사용자 인터페이스(308)로 질의 문자열(310)을 제출한다. 사용자가 검색 문자열(310)을 제출한 후, 클라이언트 컴퓨터(302)는 서버 컴퓨터(304)에 위치한 검색 엔진(313)의 질의 프로세서(312)로 질의 문자열을 전송하여 검색을 요청한다. 제출된 질의 문자열(310)에 기초하여, 질의 프로세서(312)는 원격 서버 컴퓨터(316)가 제공하는 전자 문서(314)를 제출된 질의 문자열(310)의 "히트"라고 식별한다. 마찬가지로, 원격 서버 컴퓨터(316)는 네트워크(306)에 연결되어 있다. 다음으로 질의 프로세서(312)는 클라이언트 컴퓨터(302)의 검색 사용자 인터페이스(308)로 그 전자 문서(314) 또는 전자 문서(314)의 네트워크 위치를 반환한다. 사용자는 그 반환된 네트워크 위치를 액세스하여 전자 문서(314)를 획득한 후, 전자 문서(314)를 검색 엔진 스팸 또는 비스팸으로 식별할 수 있다. 다음으로, 사용자는 자신의 식별을 검색 엔진(313)에 입력으로 제출한다.
이러한 입력의 수신에 응답하여, 검색 엔진(313)은 전자 문서(314)가 검색 엔진 스팸일 신뢰 수준을 설정한다. 나아가, 검색 엔진(313)이 복수의 사용자로부터 그 전자 문서에 대한 복수의 입력을 수신하고 그러한 입력들이 상호 모순되는 경우, 검색 엔진(313)은 그 전자 문서(314)에 대한 신뢰 수준을 설정하지 않기로 결정할 수 있다. 반면, 입력들이 서로 일치하는 경우, 검색 엔진(313)은 그 전자 문서가 검색 엔진 스팸을 구성할 신뢰 수준을 설정할 수 있다. 본 발명의 또 다른 실시예에서, 검색 엔진(313)은 하나 이상의 입력들을 판단하기 위한 규칙을 구현할 수 있다. 즉, 미리 정해진 입력들은 그 입력을 제출한 사용자가 좀 더 신뢰할만 하기 때문에, 좀 더 높은 값으로 가중된다. 이러한 실시예에서, 검색 엔진(313)은 미리 정해진 전자 문서(314)를 검색 엔진 스팸이라고 보고하는 사용자의 퍼센티지를 결정한다. 대다수의 사용자가 그 전자 문서(314)를 검색 엔진 스팸이라고 동의하는 경우, 이와 다른 소수 사용자들의 입력은 신뢰가 떨어질 수 있다. 즉, 특정 사용자가 전자 문서(314)를 검색 엔진 스팸으로서 보고하고, 다른 대다수의 사용자가 그 특정 사용자에 동의하는 경우, 검색 엔진(313)은 그 특정 사용자를 신뢰할만 하다고 결정할 수 있다. 반면, 다른 대다수의 사용자가 그 특정 사용자에게 동의하지 않는 경우, 검색 엔진(313)은 해당 사용자가 신뢰할만 하지 않다고 결정할 수 있다. 따라서, 검색 엔진(313)은 적어도 부분적으로는 사용자가 제공한 입력의 신뢰도에 기초하여 특정한 전자 문서에 대한 신뢰 수준을 결정할 수 있다.
사용자가 제공한 정보가 전자 문서(314)를 검색 엔진 스팸으로서 식별한 경우, 검색 엔진(313)은 전자 문서(314)를 구문 분석하여 검색 엔진 스팸을 특징짓는 하나 이상의 속성을 검출한다. 전자 문서(314)가 이미지를 포함하는 경우, 검색 엔진(313)은 그 이미지 내의 피부 색조 레벨을 감지함으로써 속성들을 검출한다. 검색 엔진(313)은 전자 문서(314)에서 하나 이상의 패턴을 식별하여 이들 패턴이 검색 엔진 스팸을 특징짓는 패턴에 해당하는지 여부를 결정할 것이다. 예를 들면, 검색 엔진(313)은 전자 문서(314)가 최종 사용자를 위해서라기 보다는 주로 검색 엔진을 위하여 제작된 것인지 여부를 식별할 수 있다. 나아가, 검색 엔진(313)은 전자 문서가 검색 엔진 스팸을 특징짓는 숨겨진 텍스트 및/또는 숨겨진 링크를 포함하는 지 여부를 검출할 수 있다. 검색 엔진 스팸을 특징짓는 또 다른 패턴들로는 예컨대 수 많은 불필요한 호스트 이름, 과도한 크로스 링크, 링크 파밍 등이 포함된다.
식별된 패턴이나 속성에 기초하여, 검색 엔진(313)은 전자 문서(314)에 대한 등급을 생성한다. 전자 문서(314)의 등급은 그 전자 문서(314)가 검색 엔진 스팸일 가능성을 표시한다. 그런 다음, 전자 문서(314)의 등급이 임계 레벨을 넘어서는 경우, 검색 엔진(313)은 그 전자 문서(314)를 검색 엔진 스팸으로서 분류한다. 나아가, 질의 프로세서(312)는 사용자에게 정확한 검색 결과를 제공하기 위한 동작(예컨대, 검색 결과 내에서 전자 문서(314)의 랭크를 낮추거나, 검색 결과로부터 전자 문서(314)를 삭제하는 동작 등)을 수행한다.
바람직하지 않은 전자 문서를 검출하는 예시적 방법
도 4는 본 발명의 일 실시예에 따라 검색과 관련하여 전자 문서를 평가하기 위한 예시적 방법을 도시한 도면이다. 단계(402)에서, 전자 문서의 제1 신뢰 수준 이 결정된다. 그 제1 전자 문서는 사용자의 검색 요청에 응답하여 검색 엔진에 의해서 검색 가능하다. 제1 신뢰 수준은, 검색 엔진에 대해 외부 소스가 제공하는 정보에 기초하여 전자 문서가 바람직하지 않을 가능성을 나타낸다. 외부 소스로는 하나 이상의 전자 문서에 관한 데이터를 제공하는 이메일 스팸 검출 시스템이 포함될 수 있다. 예컨대, 외부 소스는 그 외부 소스에 의해서 바람직하지 않은 것이 될 미리 정해진 가능성을 갖는 것으로 식별된 하나 이상의 전자 문서를 제공하는 호스트 이름을 제공할 수 있다. 그리고, 이들 전자 문서로부터 링크되는 전자 문서가 제1 신뢰 수준으로 지정될 수 있다. 외부 소스는 또한 바람직하지 않은 것이 될 미리 정해진 가능성을 갖는 하나 이상의 전자 문서가 위치한 네트워크 주소를 제공할 수 있다. 외부 소스는 또한 바람직하지 않은 것이 될 미리 정해진 가능성을 갖는 하나 이상의 전자 문서 내에 나타나는 단어를 제공할 수 있다. 전자 문서의 제1 신뢰 수준은 상기 미리 정해진 가능성에 기초하여 결정된다.
단계(404)에서, 전자 문서의 제2 신뢰 수준이 결정된다. 제2 신뢰 수준은 전자 문서에 있어서의 하나 이상의 속성에 기초하여 검색 요청과 관련해서 그 전자 문서가 만족스럽지 않은 것일 가능성을 나타낸다. 전자 문서의 바람직하지 않은 패턴을 특징짓는 그와 같은 속성들은, 그 전자 문서를 구문 분석함으로써 식별된다. 이와 달리, 전자 문서와 관련한 사용자 제공 정보가 수신될 수 있다. 사용자 제공 정보는 검색 결과 내에서 그 전자 문서를 바람직하지 않은 것이라고 표시한다. 그리고 그에 따라, 전자 문서의 하나 이상의 속성들이 식별되어 바람직하지 않은 패턴을 검출할 수 있다.
단계(406)에서, 결정된 제1 신뢰 수준 및 결정된 제2 신뢰 수준의 함수로서 그 전자 문서에 대한 등급이 생성된다. 단계(408)에서, 전자 문서는, 그 전자 문서에 관하여 생성된 등급에 기초해서, 검색 요청과 관련하여 만족스럽지 않은 것이라고 지정된다. 또한, 사용자로부터의 검색 요청에 응답하여 그 사용자에게 검색 결과가 제공될 수 있다. 전자 문서가 만족스럽지 않은 것이라고 지정되는 경우, 그 전자 문서는 제공되는 검색 결과에서 배제될 수 있다. 이와 달리, 그 전자 문서는 사용자에게 제공되는 검색 결과 내에서 랭크가 낮추어질 수 있다. 검색 결과에 있어서 전자 문서의 랭킹이 미리 정해진 랭크를 넘는 경우, 전자 문서의 랭킹이 유지될 수 있다.
도 5는 본 발명의 일실시예에 따른 검색과 관련하여 전자 문서를 평가하는 또 다른 예시적 방법을 도시한 도면이다. 단계(502)에서, 전자 문서에 관한 사용자 제공 정보가 수신된다. 전자 문서는 사용자의 검색 요청에 응답하여 검색 엔진에 의해서 검색 가능하다. 사용자 제공 정보는 그 전자 문서를 바람직하지 않은 것으로 특징지을 수 있다. 예컨대, 그 수신된 사용자 제공 정보는 전자 문서가 바람직하지 않은 이메일과 관련된 것(예컨대, 잠재적 이메일 스팸)이라고 지정할 수 있다. 또는, 그 수신된 사용자 제공 정보는 전자 문서가 검색 결과에 있어서 바람직하지 않은 것(예컨대, 잠재적 검색 엔진 스팸)이라고 지정할 수도 있다. 단계(504)에서, 그 수신된 사용자 제공 정보의 함수로서 전자 문서에 대한 등급이 생성된다. 예컨대, 사용자 제공 정보에 의하여 바람직하지 않은 것으로 특징지어진 전자 문서는 그 전자 문서에 관한 하나 이상의 속성을 식별하도록 구문 분석될 수 있 다. 그 식별된 속성들이 확률 분류자에 적용되어 그 전자 문서에 대한 등급을 생성해낸다. 확률 분류자는 그 식별된 속성들이 바람직한 것인지 여부를 인식하도록 트레이닝되어 있고, 나이브 베이지안 분류자, 제한 종속 베이지안 분류자, 베이지안 네트워크 분류자, 결정 트리, 서포트 벡터 머신, 콘텐츠 매칭 분류자, 최대 엔트로피 분류자, 이들의 조합 등으로서 구현될 수 있다.
또한, 수신된 사용자 제공 정보의 신뢰도가 결정될 수 있다. 그리고 그 결정된 신뢰도의 함수로서 전자 문서에 대한 등급이 생성될 수 있다. 일 실시예에서는, 그 전자 문서에 관한 또 다른 사용자 제공 정보가 수신될 수 있다. 그리고 그 또 다른 사용자 제공 정보가 앞서 수신된 사용자 제공 정보에 대응하는지 여부를 결정함으로써 그 신뢰도가 결정될 수 있다. 단계(506)에서, 전자 문서는, 그 전자 문서에 대해 생성된 등급에 따라, 검색 요청과 관련하여 만족스럽지 않은 것이라고 지정된다.
예시적 컴퓨터 판독가능 매체
도 6은 본 발명의 일실시예에 따른 예시적 컴퓨터 판독가능 매체(600)를 도시한 블록도이다. 도시된 바와 같이, 컴퓨터 판독가능 매체(600)는 질의 컴포넌트(602), 외부 컴포넌트(604), 내부 컴포넌트(606), 그리고 분석 컴포넌트(608)를 포함한다. 그러나, 컴퓨터 판독가능 매체(600)는 임의의 양의 컴퓨터 판독가능 매체일 수 있고 다양한 컴포넌트 및 각 컴포넌트와 관련된 다양한 기능성들의 조합일 수 있음을 알아야 한다. 질의 컴포넌트(602)는 사용자로부터 검색 요청을 수신하고 그 수신된 검색 요청에 기초하여 전자 문서를 식별한다. 외부 컴포넌트(604)는 전자 문서가 바람직하지 않은지 여부를 평가함에 있어서 사용할 데이터를 제공한다. 내부 컴포넌트(606)는 전자 문서의 제1 신뢰 수준을 결정하는데 이용된다. 그 제1 신뢰 수준은 외부 컴포넌트(604)에 의하여 제공된 데이터에 기초한, 전자 문서가 바람직하지 않은 것일 가능성을 나타낸다. 예컨대, 외부 컴포넌트(604)에 의하여 제공되는 데이터는 하나 이상의 호스트 이름을 식별한다. 그 각 호스트 이름은 바람직하지 않은 것이 될 미리 정해진 가능성을 나타내는 정보를 제공한다. 내부 컴포넌트(606)는 그 전자 문서가 상기 제공된 이름들 중 하나에 의하여 제공되는 것인지를 식별하도록 구성된다. 그리고 내부 컴포넌트(606)는 또한, 전자 문서가 그 호스트 이름들 중 하나에 의하여 제공되는 것이라고 식별한데 응답하여, 그 미리 정해진 가능성에 기초해서, 그 전자 문서에 대한 제1 신뢰 수준을 지정하도록 구성된다.
마찬가지로, 외부 컴포넌트(604)에 의하여 제공된 데이터는 하나 이상의 네트워크 주소를 식별할 수 있다. 외부 컴포넌트(604)는 그 네트워크 주소들 중 하나에 위치한 하나 이상의 전자 문서가 바람직하지 않은 것이 될 미리 정해진 가능성을 갖는 것으로 식별한다. 내부 컴포넌트(606)는 그 전자 문서를 네트워크 주소들 중 하나에 위치한 것으로 식별하도록 구성된다. 그리고 내부 컴포넌트(606)는, 그 전자 문서가 네트워크 주소들 중 하나에 위치한 것이라고 식별한데 응답하여, 미리 정해진 가능성에 기초해서, 그 전자 문서에 대한 제1 신뢰 수준을 지정하도록 구성되어 있다.
또한, 외부 컴포넌트(604)에 의하여 제공되는 데이터는 하나 이상의 용어를 식별하여 그 용어들 중 적어도 하나가 나타난 하나 이상의 전자 문서는 바람직하지 않은 것이 될 미리 정해진 가능성을 갖게 될 수 있다. 내부 컴포넌트(606)는 그 용어들 중 적어도 하나가 전자 문서에 나타난 경우를 결정하도록 구성된다. 내부 컴포넌트(606)는 또한 그 용어들 중 적어도 하나가 전자 문서에 나타난다고 결정한데 응답하여 그 전자 문서에 대한 제1 신뢰 수준을 지정하도록 구성된다. 제1 신뢰 수준은 그 미리 정해진 가능성에 기초한다.
내부 컴포넌트(606)는 또한 전자 문서의 제2 신뢰 수준을 설정한다. 제2 신뢰 수준이란 전자 문서에 있어서의 하나 이상의 속성에 기초하여 검색과 관련해서 그 전자 문서가 만족스럽지 않은 것이 될 가능성을 나타낸다. 그와 같은 속성들은 그 검색과 관련한 전자 문서의 바람직하지 않은 패턴이라고 할 수 있다.
분석 컴포넌트(608)는 결정된 제1 신뢰 수준 및 설정된 제2 신뢰 수준의 함수로서 전자 문서에 대한 등급을 생성한다. 질의 컴포넌트(602)는 그 생성된 전자 문서에 관한 등급에 기초하여 수신된 검색 요청에 관하여 그 전자 문서를 만족스럽지 않은 것으로 분류하도록 구성된다. 질의 컴포넌트(608)는 또한 수신된 검색 요청에 응답하여 사용자에게 검색 결과를 제공한다. 그리고 질의 컴포넌트(608)는 제공되는 검색 결과에 있어서 만족스럽지 않은 것으로 분류된 전자 문서의 랭크를 낮추거나 제공되는 검색 결과로부터 만족스럽지 않은 것으로 분류된 전자 문서를 제거할 수 있다. 이와 달리, 질의 컴포넌트(608)는 전자 문서의 랭킹이 제공된 검색 결과에 있어서 미리 정해진 랭크를 넘는 경우 그 제공된 검색 결과에서 그 전자 문서의 랭킹을 유지시킬 수도 있다.
도 7은 본 발명의 일실시예에 따른 또 다른 예시적 컴퓨터 판독가능 매체(700)를 도시한 블록도이다. 도시된 바와 같이, 컴퓨터 판독가능 매체(700)는 인터페이스 컴포넌트(702), 분석 컴포넌트(704), 그리고 질의 컴포넌트(706)를 포함한다. 그러나, 컴퓨터 판독가능 매체(700)는 임의의 양의 컴퓨터 판독가능 매체일 수 있고 다양한 컴포넌트들과 그 각 컴포넌트에 연관된 기능성들의 다양한 조합일 수 있음을 알아야 한다. 인터페이스 컴포넌트(702)는 전자 문서에 관한 사용자 제공 정보를 수신한다. 전자 문서는 사용자로부터의 검색 요청에 응답하여 검색 가능하다. 사용자 제공 정보는 그 전자 문서를 바람직하지 않은 것으로 특징짓는다. 예컨대, 수신된 사용자 제공 정보는 그 전자 문서가 바람직하지 않은 이메일의 소스와 연관된 것이라고 지정할 수 있다. 수신된 사용자 제공 정보는 또한 검색 결과에서 그 전자 문서가 바람직하지 않다고 지정할 수 있다.
분석 컴포넌트(704)는 수신된 사용자 제공 정보의 함수로서 전자 문서에 대한 등급을 생성시킨다. 일 실시예에서, 분석 컴포넌트(704)는 그 전자 문서를 구문 분석하여 전자 문서에 관한 하나 이상의 속성을 식별한다. 분석 컴포넌트(704)는 또한 그 식별된 속성들을 확률 분류자(그 확률 분류자는 식별된 속성이 바람직하지 않은 것인지를 식별하도록 트레이닝되어 있음)에 적용하여 그 전자 문서에 대한 등급을 생성한다. 또 다른 실시예에서, 분석 컴포넌트(704)는 수신된 사용자 제공 정보의 신뢰도를 결정하고 그 결정된 신뢰도의 함수로서 전자 문서에 대한 등급을 생성한다. 예컨대, 인터페이스 컴포넌트(702)는 전자 문서에 관한 또 다른 사용자 제공 정보를 수신할 수 있다. 분석 컴포넌트(704)는 그 또 다른 사용자 제 공 정보가 이전에 수신된 사용자 제공 정보에 대응하는지를 검사하여 그 수신된 전자 문서의 신뢰도를 결정한다. 분석 컴포넌트(704)가 전자 문서에 대한 등급을 생성한 다음, 질의 컴포넌트(706)는 전자 문서에 대해 생성된 등급에 따라 검색 결과와 관련해서 그 전자 문서를 만족스럽지 않은 것으로 분류한다.
예시적 동작 환경
도 8은 컴퓨터(130) 형태의 범용 컴퓨팅 장치의 일 예를 도시한 도면이다. 본 발명의 일 실시예에서, 컴퓨터(130) 등의 컴퓨터는 본 명세서에 개시 및 도시된 다른 도면에 있어서 이용하기에 적합하다. 컴퓨터(130)는 하나 이상의 프로세서 즉 프로세싱 유닛(132) 및 시스템 메모리(134)를 갖는다. 도시된 실시예에서, 시스템 버스(136)는 시스템 메모리(134)를 비롯한 다양한 시스템 컴포넌트들을 프로세서(132)로 연결한다. 버스(136)는, 메모리 버스나 메모리 제어기, 주변 버스, AGP(Accelerated Graphics Port) 및 다양한 버스 아키텍처 중 임의의 아키텍처를 이용한 프로세서나 로컬 버스 등을 포함한 여러 타입의 버스 구조들 중 하나 이상을 나타낸다. 제한이 아니라 예로써, 그와 같은 아키텍처에는 ISA(Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, 확장형 ISA(EISA) 버스, VESA(Video Electronic Standards Association) 지역 버스, 및 메자닌(Mezzanine) 버스라고도 알려진 PCI(Peripheral Component Interconnect) 버스 등이 포함된다.
컴퓨터(130)는 적어도 소정 형태의 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는, 휘발성 및 비휘발성 매체, 착탈식 및 고정식 매체 모두를 포 함한, 컴퓨터(130)에 의하여 액세스될 수 있는 임의의 이용 가능 매체일 수 있다. 제한이 아니라 예로서, 컴퓨터 판독가능 매체에는 컴퓨터 저장 매체와 통신 매체가 포함된다. 컴퓨터 저장 매체에는 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 기타 데이터 등의 정보를 저장하는 임의의 방법이나 기술로써 구현된 휘발성 및 비휘발성, 착탈식 및 고정식 매체가 포함된다. 예컨대, 컴퓨터 저장 매체에는 RAM, ROM, EEPROM, 플래시메모리 등의 메모리 기술, CD-ROM, DVD 등의 기타 광디스크 저장 장치, 자기 카세트, 자기 테이프, 자기디스크 저장 장치 등의 기타 자기 저장 장치, 또는 필요한 정보를 저장하는데 이용될 수 있고 컴퓨터(130)에 의해서 액세스될 수 있는 임의의 기타 매체가 포함된다. 통신 매체는 일반적으로 변조형 데이터 신호, 예컨대 반송파 또는 기타 전송 메카니즘에 의하여 컴퓨터 판독가능 명령, 데이터 구조, 프로그램 모듈 또는 기타 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. 당업자라면 변조형 데이터 신호라는 용어가 하나 이상의 특성 집합을 갖는 신호로서 그 신호 내에 정보를 인코딩하는 방식으로 변형된 신호를 말하는 것임을 알 것이다. 통신 매체의 예로는 유선 네트워크 또는 직접 유선 접속 등의 유선 매체와, 음향, RF, 적외선 및 기타 무선 매체 등의 무선 매체가 있다. 상술한 매체들로 이루어진 임의의 조합도 컴퓨터 판독가능 매체의 범위에 포함된다.
시스템 메모리(134)는 착탈식 및/또는 고정식, 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 도시된 실시예에서, 시스템 메모리(134)는 ROM(138) 및 RAM(140)을 포함한다 예컨대 스타트업 동안, 컴퓨터(130) 내 부의 소자들 간에 정보 전송을 돕는 기본 루틴을 포함한 BIOS(142)가 일반적으로 ROM(138)에 저장되어 있다. RAM(140)은 대개 프로세싱 유닛(132)에 의해서 직접 액세스 가능하고 그리고/또는 바로 작동되는 데이터 및/또는 프로그램 모듈을 저장하고 있다. 제한이 아니라 예로서, 도 8은 운영 체제(144), 애플리케이션 프로그램(146), 기타 프로그램 모듈(148) 및 프로그램 데이터(150)를 도시하고 있다.
컴퓨터(130)는 또한 기타 착탈식/고정식, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 예컨대, 도 8은 고정식 비휘발성 자기 매체로부터 판독하고 그에 대해 기록하는 하드디스크 드라이브(154)를 도시하고 있다. 도 8은 또한 착탈식 비휘발성 자기디스크(158)로부터 판독하고 그에 대해 기록하는 자기디스크 드라이브(156) 및 착탈식 비휘발성 광디스크(162), 예컨대 CD ROM 또는 기타 광학 매체로부터 판독하고 그에 대해 기록하는 광디스크 드라이브(160)를 도시하고 있다. 이러한 예시적 동작 환경에서 이용될 수 있는 또 다른 착탈식/고정식, 휘발성/비휘발성 컴퓨터 저장 매체로는, 자기 테이프 카세트, 플래시메모리 카드, DVD, 디지털 비디오 테이프, 고체 RAM, 고체 ROM 등이 포함되며, 단 이로써 제한되는 것은 아니다. 하드디스크 드라이브(154), 자기디스크 드라이브(156) 및 광디스크 드라이브(160)는 대개 비휘발성 메모리 인터페이스, 예컨대 인터페이스(166)를 통하여 시스템 버스(136)로 연결된다.
앞서 설명되고 도 8에 도시된 드라이브 및 기타 대량 저장 장치와 그에 관련된 컴퓨터 저장 매체는 컴퓨터(130)가 이용할 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 및 기타 데이터에 대한 저장을 제공한다. 도 8에서는, 예컨대, 하드디스크 드라이브(154)가 운영체제(170), 애플리케이션 프로그램(172), 기타 프로그램 모듈(174) 및 프로그램 데이터(176)를 저장하는 것으로 도시되어 있다. 이들 컴포넌트들은 운영체제(144), 애플리케이션 프로그램(146), 기타 프로그램 모듈(148) 및 프로그램 데이터(150)와 동일하거나 상이한 것이 될 수 있음을 알아야 한다. 운영체제(170), 애플리케이션 프로그램(172), 기타 프로그램 모듈(174) 및 프로그램 데이터(176)에는, 적어도 그것이 각기 다른 카피임을 나타내기 위하여 각기 다른 참조번호가 부여되어 있다.
사용자는 키보드(180) 및 위치 지정 장치(182)(예컨대, 마우스, 트랙볼, 펜 또는 터치 패드) 등의 입력 장치 즉 사용자 인터페이스 선택 장치를 통하여 컴퓨터(130)로 명령 또는 정보를 입력한다. 또 다른 입력 장치(도시되지 않음)로는 마이크로폰, 조이스틱, 게임 패드, 위성 접시, 스캐너 등이 포함될 수 있다. 이들 입력 장치 및 기타 입력 장치는 시스템 버스(136)에 연결된 사용자 입력 인터페이스(184)를 통하여 프로세싱 유닛(132)에 연결되지만, 예컨대 병렬 포트, 게임 포트, 유니버설 직렬 버스(USB) 등의 기타 인터페이스 및 버스 구조에 의해서도 연결될 수 있다. 모니터(188)나 기타 디스플레이 장치가 또한 비디오 인터페이스(190) 등의 인터페이스를 통하여 시스템 버스(136)에 연결된다. 모니터에서 나아가, 컴퓨터는 프린터 및 스피커 등의 기타 주변 출력 장치(도시되지 않음)를 포함하며, 이는 출력 주변 인터페이스(도시되지 않음)를 통하여 연결될 수 있다.
컴퓨터(130)는 원격 컴퓨터(194) 등과 같은 하나 이상의 원격 컴퓨터로의 논리 접속을 이용하여 네트워크형 환경에서 작동할 수 있다. 원격 컴퓨터(194)는 PC, 서버, 라우터, 네트워크 PC, 피어 장치 또는 기타 공통 네트워크 노드 등일 수 있고, 일반적으로 컴퓨터(130)와 관련하여 개시된 소자 중 많은 또는 전체 소자를 포함한다. 도 8에 도시된 논리 접속에는 LAN(196) 및 WAN(298) 등의 통신 네트워크가 포함되며, 아울러 기타 네트워크도 포함할 수 있다. LAN(136) 및/또는 WAN(138)은 유선 네트워크, 무선 네트워크, 그 조합 등일 수 있다. 그러한 네트워킹 환경은 사무실, 전사적 컴퓨터 네트워크, 인트라넷 및 글로벌 컴퓨터 네트워크(예컨대, 인터넷)에 있어서 일반적이다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨터(130)는 네트워크 인터페이스 즉 어댑터(186)를 통해 LAN(196)에 연결된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(130)는 일반적으로 인터넷 등과 같은 WAN(198) 전체에 걸쳐 통신을 설정하기 위한 모뎀(178) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(178)은 사용자 입력 인터페이스(184)나 기타 적절한 메카니즘을 통해 시스템 버스(136)에 연결된다. 네트워크형 환경에서는, 컴퓨터(130)와 관련하여 도시된 프로그램 모듈 또는 그 일부가 원격 메모리 저장 장치(도시되지 않음)에 저장될 수 있다. 제한이 아니라 예로서, 도 8은 메모리 장치에 존재하는 원격 애플리케이션 프로그램(192)을 도시하고 있다. 도시된 네트워크 접속은 예시적인 것이며 컴퓨터들 간에 통신 링크를 설정하는 또 다른 수단이 사용될 수 있다.
일반적으로, 컴퓨터(130)의 데이터 프로세서는 컴퓨터의 다양한 컴퓨터 판독가능 저장 매체에 다양한 시간에 걸쳐 저장된 명령으로써 프로그램된다. 프로그램 및 운영체제는 일반적으로, 예컨대 플로피 디스크나 CD-ROM 상에서 배분된다. 따 라서, 이들은 컴퓨터의 2차 메모리에 인스톨 즉 로딩된다. 실행시, 이들은 적어도 일부씩 컴퓨터의 1차 전자 메모리로 로딩된다. 본 명세서에 개시된 본 발명의 실시예들은 이들 및 기타 다양한 타입의 컴퓨터 판독가능 저장 매체를 포함하며 그와 같은 매체는 마이크로프로세서나 기타 데이터 프로세서와 함께 이하에서 개시되는 단계들을 구현하기 위한 명령이나 프로그램을 포함한다, 본 발명의 일 실시예로는 또한 본 명세서에 개시된 방법 및 기법에 따라 프로그램된 경우 그 컴퓨터 자체가 포함될 수도 있다.
설명을 위해서, 프로그램 및 기타 실행 가능 프로그램 컴포넌트, 예컨대 운영체제 등이 이산적 블록으로 도시되어 있다. 그러나, 그와 같은 프로그램 및 컴포넌트들은 컴퓨터의 각기 다른 저장 컴포넌트에 다양한 시간에 걸쳐 저장되고 컴퓨터의 데이터 프로세서에 의해서 실행된다는 점을 알아야 한다.
컴퓨터(130)를 포함하여, 예시적 컴퓨팅 시스템 환경과 관련해서 개시되었으나, 본 발명의 일 실시예는 다양한 또 다른 범용 또는 특수목적 컴퓨팅 시스템 환경이나 구성과도 작동 가능하다. 컴퓨팅 시스템 환경은 본 발명의 실시예들에 관한 이용 범위나 기능성에 관한 어떠한 제한도 의도하려는 것은 아니다. 또한, 컴퓨팅 시스템 환경은 예시적 동작 환경에서 도시된 컴포넌트들 중 일부 또는 그 전체와 관련한 임의의 종속성이나 요구 사항을 갖는 것으로 이해되어서는 안된다. 본 발명의 실시예들과 함께 이용하기에 적합할 수 있는 주지의 컴퓨팅 시스템, 환경 및/또는 구성의 예로는 PC, 서버 컴퓨터, 핸드헬드나 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서 기반형 시스템, 셋탑 박스, 프로그램 가능 소비자 전자 장치, 모바일 전화, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전술한 시스템이나 장치들 중 임의의 것을 포함하는 분산 컴퓨팅 환경 등이 포함되며, 다만 이로써 제한되는 것은 아니다.
본 발명의 실시예들은 하나 이상의 컴퓨터나 기타 장치들에 의하여 실행되는 컴퓨터 실행가능 명령어, 예컨대 프로그램 모듈의 일반적 문맥에서 기술될 수 있다. 일반적으로, 프로그램 모듈은 루틴, 프로그램, 객체, 컴포넌트, 그리고 특정한 태스크를 수행하거나 특정한 추상 데이터 타입을 구현하는 데이터 구조를 포함하며, 다만 이로써 제한되는 것은 아니다. 본 발명의 실시예들은 통신 네트워크를 통하여 링크된 원격 프로세싱 장치들에 의해서 태스크가 수행되는 분산 컴퓨팅 환경에서도 실시될 수 있다. 분산 컴퓨팅 환경에서는, 프로그램 모듈이 로컬 및 원격의 컴퓨터 저장 장치 등의 컴퓨터 저장 매체에 존재할 수 있다.
동작시, 컴퓨터(130)는 본 명세서에서 개시된 것과 같은 컴퓨터 실행가능 명령어들을 실행하여 검색과 관련해서 전자 문서를 평가한다. 컴퓨터 실행가능 명령어들은 전자 문서의 제1 신뢰 수준을 결정하도록 구성된다. 전자 문서는 사용자로부터의 검색 요청에 응답하여 검색 엔진에 의해서 검색 가능하다. 제1 신뢰 수준은 검색 엔진에 대해 외부 소스로부터 제공된 정보에 기초하여 전자 문서가 바람직하지 않은 것일 가능성을 나타낸다. 컴퓨터 실행가능 명령어들은 또한 전자 문서의 제2 신뢰 수준을 결정하도록 구성된다. 제2 신뢰 수준은 전자 문서에 있어서의 하나 이상의 속성에 기초하여 검색 요청과 관련해서 전자 문서가 만족스럽지 않은 것일 가능성을 나타낸다. 컴퓨터 실행가능 명령어들은 또한 그 결정된 제1 신뢰 수준 및 그 결정된 제2 신뢰 수준의 함수로서 전자 문서에 대한 등급을 생성하도록 구성된다. 컴퓨터 실행가능 명령어들은 또한 그 전자 문서에 대해 생성된 등급에 기초하여 검색 요청과 관련해서 그 전자 문서가 만족스럽지 않다고 지정하도록 구성된다.
컴퓨터(130)는 또한 본 명세서에 개시된 것 등과 같은 컴퓨터 실행가능 명령어들을 실행하여 검색과 관련해서 전자 문서를 평가한다. 컴퓨터 실행가능 명령어들은 전자 문서에 관한 사용자 제공 정보를 수신하도록 구성된다. 전자 문서는 사용자로부터의 검색 요청에 응답하여 검색 엔진에 의해서 검색 가능하다. 사용자 제공 정보는 전자 문서를 바람직하지 않은 것으로 특징짓는다. 컴퓨터 실행가능 명령어들은 또한 그 수신된 사용자 제공 정보의 함수로서 그 전자 문서에 대해 등급을 생성하도록 구성된다. 컴퓨터 실행가능 명령어들은 또한 그 전자 문서에 대해 생성된 등급에 따라 검색 요청과 관련해서 그 전자 문서가 만족스럽지 않은 것이라고 지정하도록 구성된다.
본 명세서에 개시된 방법의 실행 즉 수행 순서는 달리 지정된 바 없다면 본질적인 것은 아니다. 즉, 발명자는 특별히 지정하지 않은 이상 본 방법의 각 구성요소들이 임의의 순서로 수행될 수 있고 아울러 본 방법이 본 명세서에 개시된 구성요소들보다 더 많거나 혹은 더 적은 구성요소를 포함할 수 있음을 예상하고 있다.
본 발명에 관한 구성요소들이나 그 실시예들에 관하여 설명하면서 사용한 "그", "상기" 등의 용어들은 하나 또는 그 이상의 구성요소들이 존재한다는 것을 의 미하고자 의도된 것이다. "포함한다", "갖는다" 등의 용어들은 포괄적으로 사용된 것으로서 열거된 구성요소 이외의 추가적 구성요소가 있을 수도 있음을 의미한다.
앞서 살펴본 바에 의하면, 본 발명이 추구하는 여러 목적들이 달성되고 기타 유익한 결과가 얻어짐을 알 것이다.
본 발명의 실시예들의 범위를 벗어나지 않는 범위에서 앞서 개시된 구성 및 방법에 대해 다양한 변경이 이루어질 수 있으므로, 상기 상세한 설명에 포함되거나 첨부 도면에 도시된 모든 실시예들은 설명을 위한 것이고 제한의 의미는 아니라고 해석되어야 한다.
본 발명은 검색과 관련하여 잠재적으로 바람직하지 않은 전자 문서들을 검출해내기 위하여, 특히 외부 소스의 사용을 제공함으로써, 종래 기술에 있어서의 하나 이상의 결함들을 극복하고, 그리하여 개선된 검색 엔진 결과를 제공한다.

Claims (40)

  1. 검색과 관련하여 전자 문서 평가 시스템에 의해 전자 문서를 평가하는 방법으로서,
    상기 전자 문서의 제1 및 제2 속성을 식별하기 위해 상기 전자 문서를 분석하는(parsing) 단계 - 상기 전자 문서는 사용자로부터의 검색 요청 및 상기 전자 문서가 상기 요청된 검색과 관련되어 있다는 검색 엔진에 의한 결정에 응답하여 상기 검색 엔진에 의해 검색 가능하고, 상기 제1 속성은 전자 메일 메시지 속성에 대응하고, 상기 제2 속성은 상기 검색 요청에 관해서 상기 전자 문서의 관련성 결정을 조작하기 위한 패턴의 특징을 나타냄 - ;
    상기 검색 엔진 외부의 소스로부터 정보를 수신하는 단계 - 상기 수신된 정보는 전자 메일 스팸에 관련된 전자 메일 메시지 속성을 포함함 - ;
    상기 전자 문서의 제1 속성에 기초하여 상기 전자 문서의 제1 신뢰 수준(confidence level)을 결정하는 단계 - 상기 제1 신뢰 수준은 상기 전자 문서가 상기 전자 메일 스팸과 연관되어 있을 가능성(likelihood)을 나타냄 - ;
    상기 전자 문서의 제2 속성에 기초하여 상기 전자 문서의 제2 신뢰 수준을 결정하는 단계 - 상기 제2 신뢰 수준은 상기 검색 요청에 관해서 상기 전자 문서가 관련성 결정을 조작하기 위한 패턴을 포함하는 검색 엔진 스팸일 가능성을 나타냄 - ;
    상기 결정된 제1 신뢰 수준과 상기 결정된 제2 신뢰 수준의 함수로서 상기 전자 문서에 관한 등급(rating)을 생성하는 단계; 및
    상기 전자 문서의 상기 생성된 등급에 기초해서 상기 검색 요청과 관련하여 상기 전자 문서를 만족스럽지 않은 것이라고 표시하는(designating) 단계
    를 포함하는 전자 문서 평가 방법.
  2. 제1항에 있어서,
    상기 외부 소스는 상기 전자 메일 스팸을 검출하기 위한 전자 메일 스팸 검출 시스템(electronic mail spam detection system)을 포함하는 전자 문서 평가 방법.
  3. 제1항에 있어서,
    상기 전자 문서는 웹 페이지와 멀티미디어 파일 중 하나 이상을 포함하는 전자 문서 평가 방법.
  4. 제1항에 있어서,
    상기 전자 문서로부터 링크된 하나 이상의 다른 전자 문서에 대하여 상기 제1 신뢰 수준을 지정하는 단계를 더 포함하는 전자 문서 평가 방법.
  5. 제1항에 있어서,
    상기 전자 문서를 분석하는 단계는,
    상기 전자 문서에 관해서 사용자 제공 정보를 수신하는 단계에 응답하는 것이며, 상기 수신된 사용자 제공 정보는 검색 결과에 있어서 상기 전자 문서가 바람직하지 않다고 지정하는 전자 문서 평가 방법.
  6. 제1항에 있어서,
    상기 수신된 검색 요청에 응답하여 상기 사용자에게 검색 결과를 제공하는 단계; 및
    상기 제공된 검색 결과에서 만족스럽지 않은 것으로 표시된 상기 전자 문서의 랭킹을 낮추는 동작(demoting), 상기 제공된 검색 결과로부터 만족스럽지 않은 것으로 표시된 상기 전자 문서를 배제시키는 동작(excluding), 및 상기 제공된 검색 결과에서 상기 전자 문서의 랭킹이 미리 정해진 랭크를 넘는 경우 상기 제공된 검색 결과에서 상기 전자 문서의 랭킹을 유지하는(preserving) 동작 중 하나 이상의 동작을 수행하는 단계를 더 포함하는 전자 문서 평가 방법.
  7. 제1항에 있어서,
    하나 이상의 컴퓨터 판독가능 기록 매체가 제1항에 따른 상기 방법을 수행하기 위한 컴퓨터 실행가능 명령어들을 포함하는 전자 문서 평가 방법.
  8. 검색과 관련하여 전자 문서를 평가하는 시스템으로서,
    사용자로부터 검색 요청을 수신하고 상기 전자 문서가 상기 수신된 검색 요청에 관련되어 있다는 결정에 기초하여 상기 전자 문서를 식별하기 위한 프로세서;
    상기 프로세서 외부의 소스에 의해 제공되는 데이터를 저장하는 메모리 영역 - 상기 데이터는 전자 메일 스팸에 관련된 전자 메일 메시지 속성을 포함함 -
    을 포함하고,
    상기 프로세서는 상기 전자 문서의 제1 및 제2 속성을 식별하기 위해 상기 전자 문서를 분석하도록 구성되고, 상기 제1 속성은 상기 전자 메일 메시지 속성에 대응하며, 상기 제2 속성은 상기 검색 요청에 관해서 상기 전자 문서의 관련성 결정을 조작하기 위한 패턴의 특징을 나타내고,
    상기 프로세서는 상기 전자 문서의 제1 속성에 기초하여 상기 전자 문서의 제1 신뢰 수준을 결정하도록 더 구성되며, 상기 제1 신뢰 수준은 상기 전자 문서가 전자 메일 스팸과 연관되어 있을 가능성을 나타내고,
    상기 프로세서는 상기 전자 문서의 제2 속성에 기초하여 상기 전자 문서의 제2 신뢰 수준을 설정하도록 더 구성되고, 상기 제2 신뢰 수준은 상기 전자 문서의 하나 이상의 속성들에 기초해서 검색과 관련하여 상기 전자 문서가 관련성 결정을 조작하기 위한 패턴을 포함하는 검색 엔진 스팸일 가능성을 나타내며,
    상기 프로세서는 상기 결정된 제1 신뢰 수준과 상기 설정된 제2 신뢰 수준의 함수로서 상기 전자 문서에 관한 등급을 생성하고 상기 전자 문서의 상기 생성된 등급에 기초해서 상기 수신된 검색 요청과 관련하여 상기 전자 문서를 만족스럽지 않은 것으로 분류하도록 더 구성된 전자 문서 평가 시스템.
  9. 제8항에 있어서,
    상기 외부 소스는 상기 전자 메일 스팸을 검출하기 위한 전자 메일 스팸 검출 시스템을 포함하는 전자 문서 평가 시스템.
  10. 제8항에 있어서,
    상기 프로세서는 상기 수신된 검색 요청에 응답하여 상기 사용자에게 검색 결과를 제공하고, 상기 제공된 검색 결과에서 만족스럽지 않은 것으로 분류된 상기 전자 문서의 랭킹을 낮추는 동작, 상기 제공된 검색 결과로부터 만족스럽지 않은 것으로 분류된 상기 전자 문서를 배제시키는 동작 및 상기 제공된 검색 결과에서 상기 전자 문서의 랭킹이 미리 정해진 랭크를 넘는 경우 상기 제공된 검색 결과 내에서 상기 전자 문서의 랭킹을 유지하는 동작 중 하나 이상의 동작을 수행하도록 구성된 전자 문서 평가 시스템.
  11. 검색과 관련하여 전자 문서를 평가하기 위한 컴퓨터 실행가능 컴포넌트들을 포함하는 하나 이상의 휘발성 또는 비휘발성 컴퓨터 판독가능 기록 매체로서,
    사용자로부터 검색 요청을 수신하고 상기 전자 문서가 상기 수신된 검색 요청에 관련되어 있다는 결정에 기초하여 상기 전자 문서를 식별하는 질의 컴포넌트;
    상기 전자 문서가 전자 메일 스팸인지 여부를 평가하는데 사용하기 위한 전자 메일 메시지 속성을 포함하는 데이터를 제공하는 외부 컴포넌트;
    내부 컴포넌트로서,
    상기 전자 문서의 제1 및 제2 속성을 식별하기 위해 상기 전자 문서를 분석하고 - 상기 제1 속성은 상기 전자 메일 메시지 속성에 대응하고, 상기 제2 속성은 상기 검색 요청에 관해서 상기 전자 문서의 관련성 결정을 조작하기 위한 패턴의 특징을 나타냄 - ;
    상기 전자 문서의 제1 속성에 기초하여 상기 전자 문서의 제1 신뢰 수준을 결정하며 - 상기 제1 신뢰 수준은 상기 전자 문서가 상기 전자 메일 스팸과 연관되어 있을 가능성(likelihood)을 나타냄 - ;
    상기 전자 문서의 제2 속성에 기초하여 상기 전자 문서의 제2 신뢰 수준을 설정하도록 구성된 내부 컴포넌트 - 상기 제2 신뢰 수준은 상기 전자 문서의 하나 이상의 속성들에 기초하여 검색에 관해서 상기 전자 문서가 관련성 결정을 조작하기 위한 패턴을 포함하는 검색 엔진 스팸일 가능성을 나타냄 - ; 및
    상기 결정된 제1 신뢰 수준과 상기 설정된 제2 신뢰 수준의 함수로서 상기 전자 문서에 관한 등급을 생성하는 분석 컴포넌트를 포함하며,
    상기 질의 컴포넌트는 상기 전자 문서의 상기 생성된 등급에 기초하여 상기 수신된 검색 요청과 관련해서 상기 전자 문서를 만족스럽지 않은 것으로 분류하도록 구성된 컴퓨터 판독가능 기록 매체.
  12. 제11항에 있어서,
    상기 질의 컴포넌트는 상기 수신된 검색 요청에 응답하여 상기 사용자에게 검색 결과를 제공하고, 상기 제공된 검색 결과에서 만족스럽지 않은 것으로 분류된 상기 전자 문서의 랭킹을 낮추는 동작, 상기 제공된 검색 결과로부터 만족스럽지 않은 것으로 분류된 상기 전자 문서를 배제시키는 동작 및 상기 제공된 검색 결과에서 상기 전자 문서의 랭킹이 미리 정해진 랭크를 넘는 경우 상기 제공된 검색 결과에서 상기 전자 문서의 랭킹을 유지하는 동작 중 하나 이상의 동작을 수행하도록 구성된 컴퓨터 판독가능 기록 매체.
  13. 제1항에 있어서, 상기 수신된 정보는 상기 전자 메일 메시지 속성이 상기 전자 메일 스팸과 연관되어 있을 미리 정해진 가능성을 더 포함하고, 상기 제1 신뢰 수준은 상기 미리 정해진 가능성에 기초하는 전자 문서 평가 방법.
  14. 제13항에 있어서,
    상기 전자 메일 메시지 속성은 호스트 이름이고, 상기 전자 문서의 제1 속성은 상기 호스트 이름에 대응하여, 상기 전자 문서가 상기 호스트 이름에 의해 제공되는 것임을 나타내는 전자 문서 평가 방법.
  15. 제13항에 있어서, 상기 전자 메일 메시지 속성은 네트워크 어드레스이고, 상기 전자 문서의 제1 속성은 상기 네트워크 어드레스에 대응하여, 상기 전자 문서가 상기 네트워크 어드레스에 위치되어 있는 것임을 나타내는 전자 문서 평가 방법.
  16. 제13항에 있어서,
    상기 전자 메일 메시지 속성은 하나 이상의 단어들(terms)이고, 상기 전자 문서의 제1 속성은 상기 하나 이상의 단어들에 대응하는 전자 문서 평가 방법.
  17. 제1항에 있어서,
    상기 전자 메일 메시지 속성은 상기 전자 메일 메시지 속성에 관련된 전자 메일 메시지를 전자 메일 스팸으로 지정하는 사용자 제공 정보를 수신하는 것에 응답하여 상기 외부 소스에 의해 식별되는 전자 문서 평가 방법.
  18. 제8항에 있어서,
    상기 외부 소스에 의해 제공된 데이터는 상기 전자 메일 메시지 속성이 전자 메일 스팸과 연관되어 있을 미리 정해진 가능성을 더 포함하고, 상기 제1 신뢰 수준은 상기 미리 결정된 가능성에 기초하는 전자 문서 평가 시스템.
  19. 제18항에 있어서,
    상기 전자 메일 메시지 속성은 호스트 이름이고, 상기 전자 문서의 제1 속성은 상기 호스트 이름에 대응하여, 상기 전자 문서가 상기 호스트 이름에 의해 제공되는 것임을 나타내는 전자 문서 평가 시스템.
  20. 제18항에 있어서,
    상기 전자 메일 메시지 속성은 네트워크 어드레스이고, 상기 전자 문서의 제1 속성은 상기 네트워크 어드레스에 대응하여, 상기 전자 문서가 상기 네트워크 어드레스에 위치되어 있는 것임을 나타내는 전자 문서 평가 시스템.
  21. 제18항에 있어서,
    상기 전자 메일 메시지 속성은 하나 이상의 단어들이고, 상기 전자 문서의 제1 속성은 상기 하나 이상의 단어들에 대응하는 전자 문서 평가 시스템.
  22. 제11항에 있어서, 상기 외부 컴포넌트에 의해 제공되는 데이터는 상기 전자 메일 메시지 속성이 전자 메일 스팸과 연관될 미리 정해진 가능성을 더 포함하고, 상기 제1 신뢰 수준은 상기 미리 정해진 가능성에 기초하는 컴퓨터 판독가능 기록 매체.
  23. 제22항에 있어서,
    상기 전자 메일 메시지 속성은 호스트 이름이고, 상기 전자 문서의 제1 속성은 상기 호스트 이름에 대응하여, 상기 전자 문서가 상기 호스트 이름에 의해 제공되는 것임을 나타내는 컴퓨터 판독가능 기록 매체.
  24. 제22항에 있어서,
    상기 전자 메일 메시지 속성은 네트워크 어드레스이고, 상기 전자 문서의 제1 속성은 상기 네트워크 어드레스에 대응하여, 상기 전자 문서가 상기 네트워크 어드레스에 위치되어 있는 것임을 나타내는 컴퓨터 판독가능 기록 매체.
  25. 제22항에 있어서,
    상기 전자 메일 메시지 속성은 하나 이상의 단어들이고, 상기 전자 문서의 제1 속성은 상기 하나 이상의 단어들에 대응하는 컴퓨터 판독가능 기록 매체.
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
KR1020050042383A 2004-05-21 2005-05-20 외부 데이터를 사용하는 검색 엔진 스팸 검출 KR101130357B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/850,623 2004-05-21
US10/850,623 US7349901B2 (en) 2004-05-21 2004-05-21 Search engine spam detection using external data

Publications (2)

Publication Number Publication Date
KR20060049165A KR20060049165A (ko) 2006-05-18
KR101130357B1 true KR101130357B1 (ko) 2012-03-27

Family

ID=34939803

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050042383A KR101130357B1 (ko) 2004-05-21 2005-05-20 외부 데이터를 사용하는 검색 엔진 스팸 검출

Country Status (8)

Country Link
US (1) US7349901B2 (ko)
EP (1) EP1598755A3 (ko)
JP (1) JP4906273B2 (ko)
KR (1) KR101130357B1 (ko)
CN (1) CN100461171C (ko)
BR (1) BRPI0504754A (ko)
CA (1) CA2508060C (ko)
MX (1) MXPA05005428A (ko)

Families Citing this family (69)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7693830B2 (en) 2005-08-10 2010-04-06 Google Inc. Programmable search engine
US7716199B2 (en) 2005-08-10 2010-05-11 Google Inc. Aggregating context data for programmable search engines
US20070038614A1 (en) * 2005-08-10 2007-02-15 Guha Ramanathan V Generating and presenting advertisements based on context data for programmable search engines
US7743045B2 (en) * 2005-08-10 2010-06-22 Google Inc. Detecting spam related and biased contexts for programmable search engines
US7992090B2 (en) * 2003-09-25 2011-08-02 International Business Machines Corporation Reciprocal link tracking
US7519998B2 (en) * 2004-07-28 2009-04-14 Los Alamos National Security, Llc Detection of malicious computer executables
US20110197114A1 (en) * 2004-12-08 2011-08-11 John Martin Electronic message response and remediation system and method
US7831438B2 (en) * 2004-12-30 2010-11-09 Google Inc. Local item extraction
US10402457B1 (en) * 2004-12-31 2019-09-03 Google Llc Methods and systems for correlating connections between users and links between articles
US9275052B2 (en) 2005-01-19 2016-03-01 Amazon Technologies, Inc. Providing annotations of a digital work
WO2006083684A2 (en) * 2005-01-28 2006-08-10 Aol Llc Web query classification
US7962510B2 (en) * 2005-02-11 2011-06-14 Microsoft Corporation Using content analysis to detect spam web pages
US9092523B2 (en) 2005-02-28 2015-07-28 Search Engine Technologies, Llc Methods of and systems for searching by incorporating user-entered information
JP5632124B2 (ja) 2005-03-18 2014-11-26 サーチ エンジン テクノロジーズ リミテッド ライアビリティ カンパニー 格付け方法、検索結果並び替え方法、格付けシステム及び検索結果並び替えシステム
US8244722B1 (en) * 2005-06-30 2012-08-14 Google Inc. Ranking documents
US20070011170A1 (en) * 2005-07-08 2007-01-11 Hackworth Keith A Systems and methods for granting access to data on a website
US9715542B2 (en) 2005-08-03 2017-07-25 Search Engine Technologies, Llc Systems for and methods of finding relevant documents by analyzing tags
US7925578B1 (en) * 2005-08-26 2011-04-12 Jpmorgan Chase Bank, N.A. Systems and methods for performing scoring optimization
US20070078939A1 (en) * 2005-09-26 2007-04-05 Technorati, Inc. Method and apparatus for identifying and classifying network documents as spam
US8126866B1 (en) * 2005-09-30 2012-02-28 Google Inc. Identification of possible scumware sites by a search engine
US7751592B1 (en) * 2006-01-13 2010-07-06 Google Inc. Scoring items
US7945627B1 (en) 2006-09-28 2011-05-17 Bitdefender IPR Management Ltd. Layout-based electronic communication filtering systems and methods
US8725565B1 (en) 2006-09-29 2014-05-13 Amazon Technologies, Inc. Expedited acquisition of a digital item following a sample presentation of the item
US9672533B1 (en) 2006-09-29 2017-06-06 Amazon Technologies, Inc. Acquisition of an item based on a catalog presentation of items
US7885952B2 (en) * 2006-12-20 2011-02-08 Microsoft Corporation Cloaking detection utilizing popularity and market value
US8027975B2 (en) * 2007-01-31 2011-09-27 Reputation.Com, Inc. Identifying and changing personal information
US20080222725A1 (en) * 2007-03-05 2008-09-11 Microsoft Corporation Graph structures and web spam detection
US9665529B1 (en) 2007-03-29 2017-05-30 Amazon Technologies, Inc. Relative progress and event indicators
US7756987B2 (en) * 2007-04-04 2010-07-13 Microsoft Corporation Cybersquatter patrol
US20080270549A1 (en) * 2007-04-26 2008-10-30 Microsoft Corporation Extracting link spam using random walks and spam seeds
US7930303B2 (en) * 2007-04-30 2011-04-19 Microsoft Corporation Calculating global importance of documents based on global hitting times
US7853589B2 (en) * 2007-04-30 2010-12-14 Microsoft Corporation Web spam page classification using query-dependent data
US7941391B2 (en) * 2007-05-04 2011-05-10 Microsoft Corporation Link spam detection using smooth classification function
US7788254B2 (en) * 2007-05-04 2010-08-31 Microsoft Corporation Web page analysis using multiple graphs
US8965807B1 (en) 2007-05-21 2015-02-24 Amazon Technologies, Inc. Selecting and providing items in a media consumption system
US8667117B2 (en) * 2007-05-31 2014-03-04 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US9430577B2 (en) * 2007-05-31 2016-08-30 Microsoft Technology Licensing, Llc Search ranger system and double-funnel model for search spam analyses and browser protection
US7873635B2 (en) * 2007-05-31 2011-01-18 Microsoft Corporation Search ranger system and double-funnel model for search spam analyses and browser protection
US8572184B1 (en) * 2007-10-04 2013-10-29 Bitdefender IPR Management Ltd. Systems and methods for dynamically integrating heterogeneous anti-spam filters
US8010614B1 (en) 2007-11-01 2011-08-30 Bitdefender IPR Management Ltd. Systems and methods for generating signatures for electronic communication classification
US20090150497A1 (en) * 2007-12-06 2009-06-11 Mcafee Randolph Preston Electronic mail message handling and presentation methods and systems
US8219549B2 (en) * 2008-02-06 2012-07-10 Microsoft Corporation Forum mining for suspicious link spam sites detection
US8010482B2 (en) * 2008-03-03 2011-08-30 Microsoft Corporation Locally computable spam detection features and robust pagerank
US20090300012A1 (en) * 2008-05-28 2009-12-03 Barracuda Inc. Multilevel intent analysis method for email filtration
US8996622B2 (en) * 2008-09-30 2015-03-31 Yahoo! Inc. Query log mining for detecting spam hosts
US8713007B1 (en) * 2009-03-13 2014-04-29 Google Inc. Classifying documents using multiple classifiers
US9300755B2 (en) * 2009-04-20 2016-03-29 Matthew Gerke System and method for determining information reliability
US8015172B1 (en) * 2009-07-03 2011-09-06 eBridge, Inc. Method of conducting searches on the internet to obtain selected information on local entities and provide for searching the data in a way that lists local businesses at the top of the results
US8738635B2 (en) * 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8332415B1 (en) * 2011-03-16 2012-12-11 Google Inc. Determining spam in information collected by a source
US8756693B2 (en) 2011-04-05 2014-06-17 The United States Of America As Represented By The Secretary Of The Air Force Malware target recognition
US10075505B2 (en) 2011-05-30 2018-09-11 International Business Machines Corporation Transmitting data including pieces of data
US8745736B2 (en) 2011-10-10 2014-06-03 Microsoft Corporation Internet protocol address space management to mitigate and detect cloaking and other abuse
CN102375952B (zh) * 2011-10-31 2014-12-24 北龙中网(北京)科技有限责任公司 在搜索引擎结果中显示网站是否为可信验证的方法
US8868536B1 (en) 2012-01-04 2014-10-21 Google Inc. Real time map spam detection
US9477756B1 (en) * 2012-01-16 2016-10-25 Amazon Technologies, Inc. Classifying structured documents
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results
CN103905515A (zh) * 2012-12-28 2014-07-02 北大方正集团有限公司 一种分布式互联网信息下载系统及方法
KR101508258B1 (ko) * 2013-07-09 2015-04-08 성균관대학교산학협력단 팩스 스팸 차단 장치, 방법 및 시스템
DE102013107905A1 (de) * 2013-07-24 2015-01-29 Endress + Hauser Process Solutions Ag Feldbuszugriffseinheit und Verfahren zum Betreiben derselben
US10778618B2 (en) * 2014-01-09 2020-09-15 Oath Inc. Method and system for classifying man vs. machine generated e-mail
US10229219B2 (en) * 2015-05-01 2019-03-12 Facebook, Inc. Systems and methods for demotion of content items in a feed
US11074282B2 (en) * 2015-09-21 2021-07-27 Air Watch, LLC Secure bubble content recommendation based on a calendar invite
US10229210B2 (en) * 2015-12-09 2019-03-12 Oracle International Corporation Search query task management for search system tuning
US11023553B2 (en) 2017-04-04 2021-06-01 Microsoft Technology Licensing, Llc Identifying and managing trusted sources in online and networked content for professional knowledge exchange
IL252041B (en) * 2017-04-30 2020-09-30 Verint Systems Ltd System and method for tracking computer application users
US10664332B2 (en) * 2018-05-25 2020-05-26 Microsoft Technology Licensing, Llc Application programming interfaces for identifying, using, and managing trusted sources in online and networked content
KR102117534B1 (ko) * 2018-12-28 2020-06-01 아주대학교산학협력단 온라인 데이터의 신뢰도 예측 장치 및 방법
CN111049733A (zh) * 2019-12-10 2020-04-21 公安部第三研究所 一种钓鱼邮件攻击的蔽性标识方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030229672A1 (en) 2002-06-05 2003-12-11 Kohn Daniel Mark Enforceable spam identification and reduction system, and method thereof
US20040024823A1 (en) 2002-08-01 2004-02-05 Del Monte Michael George Email authentication system
US20040093384A1 (en) 2001-03-05 2004-05-13 Alex Shipp Method of, and system for, processing email in particular to detect unsolicited bulk email

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5911043A (en) 1996-10-01 1999-06-08 Baker & Botts, L.L.P. System and method for computer-based rating of information retrieved from a computer network
US6006218A (en) * 1997-02-28 1999-12-21 Microsoft Methods and apparatus for retrieving and/or processing retrieved information as a function of a user's estimated knowledge
US7117358B2 (en) * 1997-07-24 2006-10-03 Tumbleweed Communications Corp. Method and system for filtering communication
US6256623B1 (en) 1998-06-22 2001-07-03 Microsoft Corporation Network search access construct for accessing web-based search services
US6549897B1 (en) 1998-10-09 2003-04-15 Microsoft Corporation Method and system for calculating phrase-document importance
US6473753B1 (en) 1998-10-09 2002-10-29 Microsoft Corporation Method and system for calculating term-document importance
JP3347088B2 (ja) 1999-02-12 2002-11-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 関連情報検索方法およびシステム
GB2347053A (en) * 1999-02-17 2000-08-23 Argo Interactive Limited Proxy server filters unwanted email
US6678681B1 (en) 1999-03-10 2004-01-13 Google Inc. Information extraction from a database
EP1240605A4 (en) 1999-12-08 2006-09-27 Amazon Com Inc SYSTEM AND METHOD FOR LOCATING AND PRESENTING OFFERS OF ACCESSIBLE PRODUCTS ON THE INTERNET
US7099859B2 (en) * 2000-01-20 2006-08-29 International Business Machines Corporation System and method for integrating off-line ratings of businesses with search engines
US6701314B1 (en) 2000-01-21 2004-03-02 Science Applications International Corporation System and method for cataloguing digital information for searching and retrieval
AU2000234758A1 (en) 2000-01-28 2001-08-07 Websense, Inc. Automated categorization of internet data
US6615209B1 (en) 2000-02-22 2003-09-02 Google, Inc. Detecting query-specific duplicate documents
US6529903B2 (en) 2000-07-06 2003-03-04 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
US7136854B2 (en) 2000-07-06 2006-11-14 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
WO2002041190A2 (en) 2000-11-15 2002-05-23 Holbrook David M Apparatus and method for organizing and/or presenting data
US6658423B1 (en) 2001-01-24 2003-12-02 Google, Inc. Detecting duplicate and near-duplicate files
US6526440B1 (en) 2001-01-30 2003-02-25 Google, Inc. Ranking search results by reranking the results based on local inter-connectivity
US8001118B2 (en) 2001-03-02 2011-08-16 Google Inc. Methods and apparatus for employing usage statistics in document retrieval
US7188106B2 (en) * 2001-05-01 2007-03-06 International Business Machines Corporation System and method for aggregating ranking results from various sources to improve the results of web searching
US7249058B2 (en) * 2001-11-13 2007-07-24 International Business Machines Corporation Method of promoting strategic documents by bias ranking of search results
CN1350247A (zh) * 2001-12-03 2002-05-22 上海交通大学 针对邮件内容的监管系统
US6993534B2 (en) 2002-05-08 2006-01-31 International Business Machines Corporation Data store for knowledge-based data mining system
US8214391B2 (en) 2002-05-08 2012-07-03 International Business Machines Corporation Knowledge-based data mining system
US7010526B2 (en) 2002-05-08 2006-03-07 International Business Machines Corporation Knowledge-based data mining system
US20040049514A1 (en) 2002-09-11 2004-03-11 Sergei Burkov System and method of searching data utilizing automatic categorization
US6983280B2 (en) * 2002-09-13 2006-01-03 Overture Services Inc. Automated processing of appropriateness determination of content for search listings in wide area network searches
CA2504118A1 (en) 2004-04-09 2005-10-09 Opinionlab, Inc. Using software incorporated into a web page to collect page-specific user feedback concerning a document embedded in the web page

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040093384A1 (en) 2001-03-05 2004-05-13 Alex Shipp Method of, and system for, processing email in particular to detect unsolicited bulk email
US20030229672A1 (en) 2002-06-05 2003-12-11 Kohn Daniel Mark Enforceable spam identification and reduction system, and method thereof
US20040024823A1 (en) 2002-08-01 2004-02-05 Del Monte Michael George Email authentication system

Also Published As

Publication number Publication date
CA2508060C (en) 2013-10-15
EP1598755A2 (en) 2005-11-23
JP4906273B2 (ja) 2012-03-28
EP1598755A3 (en) 2006-07-12
KR20060049165A (ko) 2006-05-18
CN1728148A (zh) 2006-02-01
MXPA05005428A (es) 2005-11-24
BRPI0504754A (pt) 2006-03-21
CN100461171C (zh) 2009-02-11
US7349901B2 (en) 2008-03-25
US20060004748A1 (en) 2006-01-05
JP2005339545A (ja) 2005-12-08
CA2508060A1 (en) 2005-11-21

Similar Documents

Publication Publication Date Title
KR101130357B1 (ko) 외부 데이터를 사용하는 검색 엔진 스팸 검출
US9268873B2 (en) Landing page identification, tagging and host matching for a mobile application
Drost et al. Thwarting the nigritude ultramarine: Learning to identify link spam
US20050060643A1 (en) Document similarity detection and classification system
US9009153B2 (en) Systems and methods for identifying a named entity
EP1428139B1 (en) System and method for extracting content for submission to a search engine
US8244752B2 (en) Classifying search query traffic
US7962510B2 (en) Using content analysis to detect spam web pages
US8244720B2 (en) Ranking blog documents
US7565350B2 (en) Identifying a web page as belonging to a blog
US6029192A (en) System and method for locating resources on a network using resource evaluations derived from electronic messages
KR100996311B1 (ko) 스팸 ucc를 감지하기 위한 방법 및 시스템
US20050027687A1 (en) Method and system for rule based indexing of multiple data structures
JPWO2003046764A1 (ja) 情報解析方法及び装置
KR100485321B1 (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템
WO2018077035A1 (zh) 恶意资源地址检测方法和装置、存储介质
US7219298B2 (en) Method, system, and program for verifying network addresses included in a file
Jepsen et al. Characteristics of scientific Web publications: Preliminary data gathering and analysis
US9361198B1 (en) Detecting compromised resources
Kim et al. BlogForever: D2. 5 Weblog spam filtering report and associated methodology
AU2011204929B2 (en) Ranking blog documents
Hayati Addressing the new generation of spam (Spam 2.0) through Web usage models
Teravanitakul The HTML web page digest search engine
KR20040086732A (ko) 검색 엔진에서 등록된 웹사이트를 관리하기 위한 방법 및그 시스템

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150217

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160218

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170220

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180219

Year of fee payment: 7