KR20060051939A

KR20060051939A - 컨텐츠 평가 방법 및 시스템

Info

Publication number: KR20060051939A
Application number: KR1020050092121A
Authority: KR
Inventors: 데니스 크레이그 페터리; 마르크 알렉산데르 나조르크; 마크 스티븐 마나쎄
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-09-30
Filing date: 2005-09-30
Publication date: 2006-05-19
Also published as: JP2006146882A; CN1770158A; EP1643392A1; US20060069667A1

Abstract

컨텐츠에 관련된 특성을 이용하여 데이터 집합을 생성하는 단계, 통계 이상점(statistical outlier)의 클래스를 식별하기 위해 통계 분포를 이용하여 데이터 집합을 평가하는 단계, 및 웹 페이지가 통계 이상점의 클래스의 일부인지를 판정하기 위해 웹 페이지를 분석하는 단계를 포함하는 컨텐츠를 평가하는 방법이 설명되어 있다. 시스템은 데이터를 저장하도록 구성된 메모리, 및 컨텐츠에 관련된 속성을 이용하여 데이터 집합을 생성하고, 통계 이상점의 클래스를 식별하기 위해 통계 분포를 이용하여 데이터 집합을 평가하고, 웹 페이지가 통계 이상점의 클래스의 일부인지를 판정하기 위해 웹 페이지를 분석하도록 구성된 프로세서를 포함한다. 또 다른 기술은 웹 페이지 집합을 크롤링(crawling)하는 단계, 통계 분포를 연산하기 위해 웹 페이지 집합을 평가하는 단계, 통계 분포 내의 이상점 페이지를 웹 스팸(web spam)으로 플래그(flag)하는 단계, 및 질의에 응답하기 위해 웹 페이지와 이상점 페이지의 인덱스를 생성하는 단계를 포함한다.

컨텐츠 평가, 웹 스팸, 통계 분포, 통계 이상점

Description

컨텐츠 평가 방법 및 시스템{CONTENT EVALUATION}

도 1은 스팸 웹 페이지를 도시.

도 2는 컨텐츠를 평가하는 예시적인 순서도를 도시.

도 3은 컨텐츠를 평가하는 다른 예시적인 순서도를 도시.

도 4는 호스트 이름을 평가함으로써 형성된 예시적인 통계 분포를 도시.

도 5는 주소당 호스트 이름의 개수를 펑가함으로써 형성된 예시적인 통계 분포를 도시.

도 6은 호스트-머신 비율을 평가함으로써 형성된 예시적인 통계 분포를 도시.

도 7a는 내차수(in-degree)를 이용하여 링크 구조를 평가함으로써 형성된 예시적인 통계 분포를 도시.

도 7b는 외차수(out-degree)를 이용하여 링크 구조를 평가함으로써 형성된 예시적인 통계 분포를 도시.

도 8은 웹 서버 상의 페이지들에 걸친 단어 총수의 변화를 평가함으로써 형성된 예시적인 통계 분포를 도시.

도 9는 페이지 진화를 평가함으로써 형성된 예시적인 통계 분포를 도시.

도 10은 복제에 가까운 페이지의 집단을 평가함으로써 형성된 예시적인 통계 분포를 도시.

도 11은 컨텐츠를 평가하는 데 적합한 예시적인 컴퓨터 시스템을 도시하는 블록도.

<도면의 주요 부분에 대한 부호의 설명>

100 : 스팸 웹 페이지

본 발명은 일반적으로 소프트웨어에 관한 것이다. 특히, 컨텐츠 평가가 개시된다.

종종, "스팸"이라고 지칭되는 불필요한 컨텐츠는, 매우 많은 양의 바람직하지 못한 데이터가 월드 와이드 웹("웹")을 포함한 다양한 전자 매체를 통해 사용자에게 전송되고 사용자에 의해 수신된다는 점에서 문제성이 있다. 스팸은 메시징, 인터넷, 웹, 또는 다른 전자 통신 매체를 포함하는 이메일 또는 다른 전자 컨텐츠 전달 메커니즘을 이용하여 전달될 수 있다. 검색 엔진, 크롤러(crawler), 봇(bot), 및 다른 컨텐츠 필터링 메커니즘의 문맥에서, 웹 상의 바람직하지 못한 컨텐츠("웹 스팸")를 검출하는 것은 점점 큰 문제로 부상하고 있다. 예를 들어, 검색이 수행되면, 주어진 검색에 맞는 모든 웹 페이지가 결과 페이지에 나열될 수 있다. 검색 결과 페이지에는, 특정 웹 사이트의 가시성을 특별히 향상시키기 위해 생성된 웹 페이지가 포함되어 있을 수 있다. 웹 스팸은 사용자가 특정 웹 사이트 를 방문하도록 부추기기를 바라면서, 요구되지 않은 컨텐츠를 사용자에게 "강요한다". 웹 스팸은 또한, 사용자에 대해 매우 많은 양의 쓸모없거나 흥미롭지 못한 데이터를 생성하고, 정확한 검색 엔진 수행을 느리게하거나 방해할 수 있다. 검색 리스팅 또는 랭킹에서 특정 웹 페이지의 가시성을 높이기 위한 다양한 유형의 메커니즘이 있다.

많은 경우에, 스팸은 상업적인 목적으로 웹 및 인터넷을 통해 발생할 수 있다. 예를 들어, 검색 엔진 최적화기(search engine optimizer; SEO)는 특정 웹 페이지의 바람직성 또는 "검색가능성"을 강화하기 위해, 자동 또는 수동적으로 스팸 웹 페이지("웹 페이지")를 생성한다. SEO는 검색 리스팅에서 웹 사이트 랭킹을 올리려고 하며, 이에 따라 스팸 웹 페이지의 양이 많아진다. 목적 웹 사이트 또는 웹 페이지는 특정 검색에서의 자신의 랭킹 또는 우선순위를 향상시켜서, 결과 페이지 상에서의 더 현저한 위치 및 배치를 가능하게 하여, 사용자로부터의 트래픽을 증가시킬 수 있다. 그 결과로서, SEO는 증가된 양의 트래픽 및 사용자에게 클라이언트 웹사이트를 노출하는 것을 개선하는 것에 기초한 수익을 창출할 수 있다. 몇몇 SEO는 웹 페이지를 작성하는 데 키워드 채워넣기를 채용할 수 있는데, 이 웹 페이지는 키워드는 포함할 수 있지만 실제 컨텐츠는 포함하지 않는다. 다른 문제점은, 특정 웹 페이지(상업상의 클라이언트)에 링크하고 있는 다수의 페이지를 작성하여, 검색 엔진이 특정 웹 사이트 또는 웹 페이지에 대한 검색 결과 내에서의 랭킹을 올리도록 오도하는 링크 스팸이다. 다른 경우에, 웹 스팸은, 서로 약간씩 다 를 수 있는 다수의 웹 페이지들 중 하나가 검색 엔진에 의해 높게 랭킹될 것이라는 의도로, 서로 약간씩 다를 수 있는 다수의 웹 페이지를 작성함으로써 생성될 수 있다.

따라서, 통상적인 기술의 제한 없이 불필요한 온라인 컨텐츠를 검색하기 위한 해결책이 필요하다.

다음의 상세한 설명 및 첨부 도면에서 본 발명의 다양한 실시예가 개시된다.

본 발명은, 프로세스, 장치, 시스템, 주요 구성, 컴퓨터 판독가능 저장 매체와 같은 컴퓨터 판독가능 매체, 또는 광 또는 전자 통신 링크를 통해 프로그램 명령어들이 전송되는 컴퓨터 네트워크를 포함한 여러 방법으로 구현될 수 있다. 본 명세서에서는, 본 구현예, 및 본 발명이 취할 수 있는 임의의 다른 형태를 기술이라고 지칭할 수 있다. 일반적으로, 개시된 프로세스의 단계들의 순서는 본 발명의 범주 내에서 변경될 수 있다.

본 발명의 하나 이상의 실시예에 대한 상세한 설명은 본 발명의 원리를 설명하는 첨부 도면과 함께 이하에서 제공된다. 본 발명은 그러한 실시예와 관련하여 설명되지만, 어떤 실시예로도 제한되지 않는다. 본 발명의 범주는 오직 청구범위에 의해서만 제한되며, 본 발명은 다수의 대안, 변경 및 등가물을 포함한다. 다수의 특정 상세사항은 본 발명의 완전한 이해를 제공하기 위해 다음의 설명에서 진술된다. 이러한 상세사항은 예시의 목적으로 제공되고, 본 발명은 이러한 특정 상세사항 중 일부 또는 전부 없이 청구범위에 따라 실시될 수 있다. 명료성의 목적상, 본 발명에 관련된 기술 분야에 공지되어 있는 기술 자료는 본 발명이 불필요하게 불명료해지지 않도록 상세히 설명되지 않았다.

웹 스팸의 검출은 바람직하지 못한 컨텐츠를 감소시키고 제거하는 데 있어서 중요한 목표이다. 사용자의 기호에 따라, 몇몇 컨텐츠는 바람직하지 못할 수 있고, 웹 스팸이 존재하는지를 결정하기 위해 검출이 수행될 수 있다. 크롤링된 웹 페이지의 집합에 관련된 다양한 매개변수 또는 속성을 이용함으로써 생성된 통계 분포를 사용함으로써, 검색 결과 내의 모든 페이지에 대한 그래프가 형성될 수 있다. 여기서, 그래프는 다이어그램, 도면, 또는 다양한 매개변수를 사용하여 데이터를 좌표에 그리는 것을 의미할 수 있다. 예를 들어, 검색 엔진에 의해 크롤링된 각각의 페이지에 대해 플로팅(plotting)하는 그래프가 형성될 수 있으며, 여기서, 페이지들의 하나 이상의 속성이 그래프에 플로팅하는 데 사용된다. 몇몇 예에서, 웹 스팸 검출 기술은 사용자에게 검색 결과를 지연하지 않기 위해, 질의가 수행될 때보다도, 검색 엔진 인덱스의 생성동안에 수행될 수 있다. 다른 예에서, 웹 스팸 검출은 다르게 수행될 수 있다. 이상점(outlier)이 식별되면, 이상점에 관련된 웹 페이지는 다양한 기술을 이용하여 더 평가될 수 있다. 그러나, 웹 스팸이 검출되면, 삭제, 필터링, 검색 엔진 랭킹의 감소, 또는 다른 액션이 수행될 수 있다. 소프트웨어 또는 하드웨어 어플리케이션(예를 들어, 컴퓨터 프로그램, 소프트웨어, 소프트웨어 시스템 및 다른 컴퓨팅 시스템)이 웹 스팸을 검출하기 위해 컨텐츠를 평가하기 위한 기술을 구현하는 데 사용될 수 있다.

도 1은 스팸 웹 페이지를 도시한다. 스팸 웹 페이지("웹 스팸")는 또한, 링 크 스팸, 키워드 채우기(keyword stuffing), URL(Uniform Resource Locator)와 같은 주소들의 합성(synthesizing address)과 같은 다른 형태의 스팸을 포함할 수 있지만, 일반적으로 이메일 스팸은 포함하지 않는다. 예를 들어, 스팸 웹 페이지(100)는 키워드, 검색 용어 및 링크를 포함하고, 이들 각각은 SEO에 의해 생성되어, 검색 엔진 등으로부터의 검색 결과 리스트에서 웹 사이트의 랭킹을 강화할 수 있다. 이 예에서, 키워드, 컨텐츠, 링크 및 합성 URL은 목적 웹 사이트로의 추가적인 트래픽을 구동하기 위한 메커니즘을 제공하기 위해 생성되었다. 여기서, 신용 수리 또는 대출 에이전시의 웹사이트가 스팸 웹 페이지(100)에 있어서 목적 사이트일 수 있다. 이러한 SEO 기술은 특정 컨텐츠, 또는 검색 엔진에 의해 발견된 컨텐츠 결과가 웹 스팸을 포함하는지의 여부를 나타내기 위해 검출되고 사용될 수 있다.

도 2는 컨텐츠를 평가하는 예시적인 순서도를 도시한다. 여기서, 다양한 기술을 이용하여 웹 스팸을 검출하기 위해 컨텐츠를 평가하기 위한 전체 프로세스가 제공된다. 이 예에서, 검색 엔진은 웹 페이지 집합을 크롤링함으로써(202) 데이터 집합을 생성한다. 크롤링된 웹 페이지는 통계 분포를 형성하기 위해 평가된다(204). 통계 분포 내의 이상점에 관련된 페이지는 웹 스팸으로서 플래그(flag)된다(206). 웹 스팸이 검출되고 플래그되면, 웹 스팸을 포함한 크롤링된 모든 페이지에 대해 검색 인덱스가 생성될 수 있다(208). 몇몇 예에서, 검출된 웹 스팸은 검색 엔진 인덱스로부터 배제되거나, 낮은 검색 랭킹을 부여받거나, 사용자 질의가 웹 스팸으로 영향을 받거나 파퓰레이트되지 않게 하는 방식으로 처리되어, 질의에 대한 응답으로 더 관련있는 검색 결과가 생성될 수 있다. 사용될 수 있는 통계 분포의 몇몇 예는 도 4 내지 10과 관련하여 이하에서 더 상세히 설명된다. 컨텐츠를 평가하기 위한 다른 프로세스가 도 3에 도시된다.

도 3은 컨텐츠를 평가하는 다른 예시적인 순서도를 도시한다. 이 예에서, 웹 스팸인지를 결정하는 대안적인 방법이 제공된다. 여기서, 데이터 집합은 크롤링된 웹 페이지 집합으로부터 생성될 수 있다(302). 웹 페이지는 검색 엔진 인덱스 내의 모든 페이지를 나타낼 수 있다. 다른 예에서, 다른 웹 페이지 집합으로부터 데이터 집합이 생성될 수 있다. 생성되면, 데이터 집합은 통계 이상점의 클래스를 식별하기 위해 통계 분포를 이용하여 평가된다(304). 식별된 클래스의 통계 이상점에 대하여, 개별 웹 페이지는 이 페이지가 통계 이상점의 클래스 내에 속하는 매개변수를 포함하는지를 결정하기 위해 분석될 수 있다(306). 통계 이상점의 클래스가 결정될 수 있는 다양한 유형의 통계 분포가 형성될 수 있다. 이 통계 이상점은 상술된 것과 같은 웹 스팸인 웹 페이지와 관련될 수 있다.

일례로서, URL(uniform resource locator)과 같은 다양한 속성 또는 매개변수를 이용하여 통계 분포가 형성될 때 다양한 이상점이 생길 수 있다. URL은 URL에 의해 주소매김된 페이지가 웹 스팸인지를 결정하기 위해 매개변수로서 사용될 수 있는 웹 페이지에 대한 주소를 나타낸다. 몇몇 예에서, 합성 URL은 페이지를 주소매김하는 데 사용될 수 있다. 합성 URL은 개발자, 운영자 또는 다른 웹 컨텐츠 제공자에 의해 수동으로 생성되기 보다는 자동으로 생성된다. 이 URL은 예를 들어, 숫자, 문자 또는 주소 내에 포함된 다른 아이템의 랜덤 시퀀스를 갖기 때문 에 서로 다르게 나타날 수 있다. 합성 URL은 어플리케이션, 프로그램 또는 머신에 의해 자동으로 생성될 수 있다. 웹 스팸을 검출하기 위해 형성된 통계 분포의 몇몇 예는 도 4 내지 10에서 도시된다.

도 4는 URL에 포함된 호스트 이름을 평가함으로써 형성된 예시적인 통계 분포를 도시한다. 여기서, 통계 분포는 데이터 집합 내에 포함된 모든 호스트 이름의 속성으로부터 형성된다. 통계 분포의 주요 본문의 외부에 속하는 이상점, 예를 들어, 그룹(420)은 이 호스트 상에 위치한 페이지가 웹 스팸인지를 결정하기 위해 추가적으로 평가된다. 예를 들어, 호스트 이름의 개수는 데이터 집합 내의 모든 점에 대해 호스트 이름 길이에 대하여 플로팅될 수 있다. 그룹(420) 내에 위치한 점은 상술된 프로세스를 이용하여 평가될 수 있는 통계 이상점을 나타낸다. 여기서, 통계 분포는 호스트 이름의 속성을 평가함으로써 수행될 수 있다.

호스트 이름은 다수의 IP 주소에 기호로 된 호스트 이름을 맵핑하기 위한 글로벌 분산 시스템인 DNS(domain name system)으로 사용될 수 있다. DNS는 매우 많은 독립적인 컴퓨터("DNS 서버")에 의해 구현된다. 각각의 DNS 서버는 맵핑의 일부분을 담당하며, 도메인 이름의 소유권을 등록한 조직에 의해 운영될 수 있다. 기호로 된 호스트 이름은 호스트 이름을 DNS 서버에 전송하는 클라이언트에 의해 해석될 수 있다. 호스트 이름은 호스트가 상주하는 도메인을 담당하는(예를 들어, 권한이 있는) DNS 서버에 직접 또는 간접적으로 전달되며, DNS 서버는 관련된 IP 주소를 리턴한다. 예를 들어, DNS 서버는 작고 고정된(또는 느리게 진화하는) 호스트 이름 집합을 담당할 수 있다. 그러나, 특정 도메인 내에서 임의의 주어진 호 스트 이름을 IP 주소로 해석하도록 DNS 서버를 구성하는 것은 가능하다. 따라서, 웹 서버는 하이퍼링크(예를 들어, URL)를 포함하는 웹 페이지를 생성하여, 하이퍼링크의 호스트 컴포넌트들이 서로 다른 호스트(예를 들어, "belgium.sometravelagency.com", "holland.sometravelagency.com", "france.sometravelagency.com")를 의미하는 것으로 나타날 수 있도록 할 수 있지만, 여기서 모든 호스트 이름은 동일한 IP 주소로 해석된다. 서로 다른 호스트들 각각은 머신-생성된 호스트 이름 또는 "합성 호스트 이름"으로서 분류될 수 있다.

합성 호스트 이름은 동적으로 생성될 수 있다. 합성 호스트 이름은 종종, 표준 호스트 이름보다 더 많은 도트, 대시, 숫자 또는 다른 문자를 포함한다. 몇몇 예에서, 합성 호스트 이름은 표준 호스트 이름과는 다른 외관을 가질 수 있다. 합성 호스트 이름은 또한, DNS(domain name system) 스팸이라고도 불릴 수 있다. 합성 호스트 이름이 존재하면, 그 호스트 이름으로부터 오는 모든 웹 페이지는 웹 스팸으로서 마킹 또는 표시될 수 있다(408). 합성 호스트 이름이 존재하지 않으면, 어떤 액션도 취하지 않는다. 프로세스는 검색 엔진에 의해 크롤링된 모든 호스트 이름에 대해 반복될 수 있다. 도 5는 주소에 할당된 호스트 이름의 개수를 평가함으로써 형성된 또 다른 통계 분포를 도시한다.

도 5는 주소에 할당된 호스트 이름의 개수를 평가함으로써 형성된 예시적인 통계 분포를 도시한다. 일례로서, 주소(예를 들어, IP 주소)는 웹 스팸이 존재하는지를 결정하기 위해 웹 페이지를 평가하는 데 사용될 수 있다. 그룹(520) 내의 점들의 그룹은 통계 이상점을 나타낸다. 예로서, 통계 이상점은 할당된 수천 또는 수백만의 호스트 이름을 가진 단일의 IP 주소를 나타낼 수 있고, 이것은 DNS 스팸을 나타낼 수 있으며, 머신 또는 자동 생성된 스팸 웹 페이지의 증거가 될 수 있다. 그러나, 다른 예에서, 이 통계 이상점들 중 몇몇도 유효한 웹 사이트일 수 있다. 이러한 유효한 웹 사이트의 예는 온라인 커뮤니티 웹 사이트, 사회 네트워크 웹 사이트, 개인 웹 페이지 커뮤니티 및 다른 유사한 사이트를 포함할 수 있다. 웹 사이트가 주어지면, 관련된 URL의 호스트 이름은 IP 주소로 해석될 수 있고, 동일한 IP 주소로 해석되는 다른 공지의 호스트 이름이 결정될 수 있다. 복수의 호스트 이름이 동일한 IP 주소로 해석될 수 있다. 주어진 페이지에 있어서, 동일한 IP 주소로 해석되는 공지의 호스트 이름의 개수가 임계치를 초과하면, 페이지는 웹 스팸으로서 마킹 또는 표시된다. 동일한 IP 주소로 해석되는 호스트 이름의 개수가 임계치를 초과하지 않으면, 페이지는 웹 스팸으로서 마킹되지 않는다. 그래픽 표시에서, 데이터 집합에 대하여, 주소에 할당된 호스트 이름의 개수를 주소의 개수에 대하여 플로팅할 수 있다. 다른 예에서, 호스트-머신 비율이 웹 스팸이 존재하는지를 결정하는 데 사용될 수 있다.

스팸 웹 페이지는 서로 다른 연계가 없는 웹 서버들을 의미는 것처럼 보이지만 실제로는 연계된 웹 서버를 의미할 수 있는 서로 다른 호스트 이름을 갖는 다수의 하이퍼링크를 포함할 수 있다. 이것은 웹 페이지가 다른 웹 사이트에 링크하여 그를 뒷받침하는 듯한 인상을 주어, 불편부당의 발생을 생성한다. 오퍼레이팅 독립적인 웹 서버에 관련된 비용을 줄이기 위해, 웹 스팸 제작자는 상술된 바와 같이, 서로 다른 호스트 이름을 단일 머신으로 해석하도록 DNS 서버를 구성할 수 있 다. 웹 스팸의 제작자는 서로 다른 웹 사이트에 링크하는 것으로 보이는 한편, 일반적으로 웹 페이지의 외양을 제공하기 위해 이 기술을 채용할 수 있다. 이 행위는 호스트-머신 비율을 계산함으로써 검출될 수 있다. 호스트 이름은 하나 이상의 물리적 머신으로 맵핑될 수 있고, 이 때, 각각의 머신은 IP 주소에 의해 식별된다. 예를 들어, 호스트-머신 비율은 주어진 웹 페이지가 링크하여 뒷받침하는 것처럼 보이는 웹 사이트 호스트 이름의 개수를, 실제 뒷받침되는 머신의 개수로 나누으로써 결정될 수 있다. 머신보다 훨씬 더 많은 웹 사이트를 뒷받침하는 웹 페이지는 높은 호스트-머신 비율을 갖는다. 그리고, 이 웹 페이지는 웹 스팸으로서 검출 및 식별될 수 있다. 높은 호스트-머신 비율이 한 웹 페이지와 관련면 그 웹 페이지는 웹 스팸으로서 마킹 또는 표시될 수 있다. 높은 호스트-머신 비율이 존재하지 않으면, 웹 페이지는 웹 스팸으로서 마킹 또는 표시되지 않는다. 호스트-머신 비율은 스팸이 식별되는 임계치를 가질 수 있다. 호스트-머신 비율 임계치는 더 높거나 더 낮게 조정될 수 있다. 한 페이지가 높은 호스트-머신 비율을 가지면, 그 페이지는 다수의 서로 다른 웹 페이지에 링크하는 것처럼 보이지만, 실제로는 더 적은 웹 서버에 링크되고 그것을 뒷받침한다. 또 다른 예에서, 평균 호스트-머신 비율은 머신에 의해 서비스를 제공받는 페이지에 대한 호스트-머신 비율의 평균이다. 높은 평균 호스트-머신 비율을 가진 머신에 의해 서비스를 제공받는 웹 페이지는 웹 스팸으로서 마킹 또는 표시된다. 도 6은 웹 스팸이 존재하는지를 판정하기 위해 호스트 이름 해석(host name resolution)를 이용하는 또 다른 기술을 예시한다.

도 6은 호스트-머신 비율을 평가함으로써 형성된 예시적인 통계 분포를 도시 한다. 그룹(620)은 머신 상의 평균 호스트-머신 비율에 대해 머신 상의 웹 페이지의 개수를 그래프로 나타낸 데이터 집합(예를 들어, 웹 페이지)에 대한 통계 분포의 이상점(outlier) 집합을 나타낸다. 여기서, 그룹(620)에 도시된 것과 같은 이상점은 스팸으로서 플래그 또는 표시될 수 있다. 도 7a-7b는 웹 스팸을 검출하는 데 이용될 수 있는 또 다른 예시적인 통계 분포를 예시한다.

도 7a는 내차수(in-degree)를 이용하여 링크 구조를 평가함으로써 형성된 예시적인 통계 분포를 도시한다. 웹 페이지의 내차수는 그 웹 페이지를 참조하는 하이퍼링크의 개수를 의미한다. 웹 페이지의 내차수를 평가함으로써, 통계 분포는 웹 스팸에 관련된 것일 수 있는 이상점을 발견하도록 형성될 수 있다. 내차수 d를 가진 웹 페이지가 주어지고, 내차수 d를 갖는 페이지가 관측된 내차수의 통계 분포에 따라 예상했던 것보다 더 많으면, 그 웹 페이지들은 웹 스팸으로서 마킹 또는 표시된다. 예를 들어, 데이터 집합은 1001의 내차수를 가진 369,457개의 페이지를 포함하지만 도 7a에 도시된 관측된 통계 분포에 따라 단지 2000개의 웹 페이지만이 예상되었으면, 이러한 웹 페이지들은 웹 스팸으로서 마킹 또는 표시된다. 상기 설명된 것과 같은 내차수를 가진 웹 페이지를 나타낼 수 있는 이상점 그룹의 예가 그룹(720)에 예시된다. 웹 페이지는 또한, 도 7b에 도시된 바와 같이 그룹(740) 내의 이상점으로 도시된 외차수(out-degree)를 이용하여 평가될 수도 있다.

도 7b는 외차수를 평가함으로써 형성되는 예시적인 통계 분포를 예시한다. 웹 페이지의 외차수는 그 웹 페이지에 내포된 하이퍼링크의 개수를 의미한다. 여기서, 통계 분포는 데이터 집합 내의 각각의 웹 페이지에 관련된 외차수의 개수를 이용함으로써 형성될 수 있다. 이상점은 그룹(740)으로 표시된다. 웹 스팸이 데이터 집합 내의 웹 페이지와 관련되어 있는지를 판정하기 위해, 통계 분포는 도 7a에 연관되어 상술된 바와 같이, 내차수 대신에 외차수를 이용하여 형성된다. 이 예에서, 웹 페이지의 개수 대 그 페이지들의 내차수 또는 외차수의 그래프는 Zipfian 분포가 될 수 있는데, 이것으로부터 통계 이상점(예를 들어, 분포의 외부에 있는 점들)이 선택될 수 있고, 그 외차수를 가진 웹 페이지가 사실상 웹 스팸인지를 판정하기 위해 더 평가될 수 있다. 도 7a 및 7b 모두의 예에서, 동일한 내차수 또는 외차수를 가진 동일한 웹 페이지들도 웹 스팸일 수 있다. 웹 스팸을 검출하기 위해 형성될 수 있는 통계 분포의 또 다른 예가 도 8에 도시된다.

도 8은 구문상의 문맥을 평가함으로써 웹 스팸을 검출하는 예시적인 순서도를 예시한다. 예를 들어, 구문상의 문맥은 크기 또는 단어 총수 분포에 기초하여 평가될 수 있다. 여기서, 변화는 일련의 수들의 속성으로서 판정된다. 주어진 웹 사이트 상의 모든 웹 페이지의 단어 총수 또는 크기의 변화(예를 들어, 호스트 이름, IP 주소 또는 다른 매개변수)가 연산된다. 주어진 웹 사이트 상의 모든 웹 페이지가 단어 총수에 있어서 변화가 거의 없으면{그룹(820)에 예시된 바와 같음}, 웹 페이지는 템플레틱(templatic)일 수 있다. 템플레틱 페이지는 머신 또는 자동으로 생성되는 컨텐츠(예를 들어, 전체적으로 키워드 또는 문단을 포함하는 페이지)를 나타내며, 웹 스팸으로 마킹되거나 표시될 수 있다. 거의 제로의 변화는, 검색 엔진, 크롤러, 봇 또는 다른 검색 어플리케이션에 의해 높게 랭킹될 수 있는 웹 페이지를 생성하기 위해, 웹 스팸을 템플레틱하게 생성하는 동안 행해진 경미한 변경을 설명한다. 다른 예에서, 구문상의 문맥을 평가하기 위한 다른 특성이 이용될 수 있다. 도 9는 웹 스팸을 검출하기 위해 형성된 또 다른 예시적인 통계 분포를 도시한다.

도 9는 페이지 진화를 평가함으로써 형성된 예시적인 통계 분포를 도시한다. 몇몇 예에서, 페이지 진화는, 웹 페이지가 다운로드들 사이에 행하는 변경을 의미한다. 예를 들어, SEO 또는 웹 스팸 생성자는 수동적으로 또는 자동적으로 다운로드들 사이에 웹 페이지를 생성 또는 변경할 수 있다. 웹 페이지는 그것의 진화에 기초하여 평가된다. 예를 들어, 웹 페이지가 현저하게 변경되는지 또는 각각의 다운로드에 의해 "진화"되는지가 판정된다. 현저한 변경은 전체 페이지 레이아웃 변경, 컨텐츠의 큰 부분의 변경, 또는 컨텐츠 유형의 변경(텍스트의 큰 섹션이 이미지로 스위칭됨)일 수 있다. 다른 유형의 현저한 변경은 각각의 페이지가 각각의 다운로드에 의해 현저하게 변경되는지를 판정하는데 이용될 수 있다. 주어진 웹 사이트 상의 웹 페이지에 관련된 평균 변경 양이 계산된다. 이 주어진 웹 사이트 상의 웹 페이지에 관련된 평균 변경 양이 특정 임계치를 초과하면, 웹 페이지는 웹 스팸으로서 마킹 또는 표시되며; 그렇지 않으면 웹 페이지는 마킹되지 않는다. 예를 들어, 스트립(strip; 920)은 한 주에서부터 다음주로의 낮은 평균 수의 매칭 특징을 나타내는 전체 데이터 집합의 일부분을 강조한다. 다른 예에서, 통계 분포가 형성되는 시간은 일(day), 시간, 년, 달, 또는 페이지 컨텐츠가 진화하였다고 판정하는 임의의 다른 기간 단위로 변경될 수 있다. 다른 예에서는, 다른 매개변수가 수정될 수 있다. 도 10은 웹 스팸을 검출하기 위해 형성된 또 다른 통계 분포를 나타낸다.

도 10은 복제에 가까운 페이지(near-duplicate page)의 집단을 평가함으로써 형성된 예시적인 통계 분포를 예시한다. 여기서, 복제에 가까운 페이지가 식별될 수 있다. 일단 식별되면, 복제에 가까운 페이지는, 예를 들어, 등가의 클래스로 집단화된다. 다른 예에서, 복제에 가까운 페이지는 다른 데이터 구조 또는 등가의 클래스 이외의 구조로 그룹화될 수 있다. 일단 집단화되면, 각각의 집단은 많은 웹 페이지가 포함되는지를 판정하기 위해 평가될 수 있다. 다수의 웹 페이지가 평가된 집단에 포함되면, 웹 스팸이 존재한다는 판정이 내려질 수 있다. 집단 크기가 증가함에 따라, 관련된 웹 페이지가 웹 스팸일 수 있다는 가능성이 증가한다. 여기서, 그룹(1020)은 웹 스팸을 나타내는 큰 집단으로서 도시된 통계 이상점 그룹을 예시한다. 이 예에서, 다수의 웹 페이지가 주어진 집단에 포함되면, 그 집단 내의 웹 페이지는 웹 스팸으로서 마킹 또는 표시된다.

상술한 예에서, 상이한 속성 및 특성을 평가하여, 웹 스팸을 검출하기 위해 컨텐츠를 평가하는 이러한 기술이 구현될 수 있다. 몇몇 예에서, 데이터 집합의 상이한 특성을 그래프로 나타내어, 통계 분포를 형성할 수 있는데, 이 통계 분석으로부터, 통계 이상점이 식별 및 선택될 수 있다. 다른 예에서, 상술된 통계 분포, 분석 및 평가 기술은 다른 환경 또는 특징적인 시스템에서, 데이터 집합을 평가하는 것에 관련된 통계 이상점과 관련 항목, 속성, 또는 특성을 판정하기 위해 이용될 수 있다.

도 11은 컨텐츠를 평가하기에 알맞은 예시적인 컴퓨터 시스템을 예시하는 블 록도이다. 몇몇 예에서, 컴퓨터 시스템(1100)은 상기 설명된 기술을 구현하는데 이용될 수 있다. 컴퓨터 시스템(1100)은 버스(1102) 및 정보를 전달하는 다른 통신 메커니즘을 포함하는데, 이 통신 메커니즘은 프로세서(1104), 시스템 메모리(1106)(예를 들어, RAM), 저장 장치(1108)(예를 들어, ROM), 디스크 드라이브(1110)(예를 들어, 자기 또는 광학), 통신 인터페이스(1112)(예를 들어, 모뎀 또는 이더넷 카드), 디스플레이(1114)(예를 들어, CRT 또는 LCD), 입력 장치(1116)(예를 들어, 키보드) 및 커서 제어기(1118)(예를 들어, 마우스 또는 트랙볼)와 같은 서브시스템 및 장치들을 상호연결시킨다.

본 발명의 한 실시예에 따르면, 컴퓨터 시스템(1100)은 시스템 메모리(1106)에 포함된 하나 이상의 명령어들의 하나 이상의 시퀀스를 실행시키는 특정 동작을 프로세서(1104)를 이용해 수행한다. 이러한 명령어는 정적 저장 장치(1108) 또는 디스크 드라이브(1110)와 같은 또 다른 컴퓨터 판독가능 매체로부터 시스템 메모리(1106)로 판독될 수 있다. 대안적인 실시예에서, 컴퓨터 내장 회로는 본 발명을 구현하기 위해 소프트웨어 명령어 대신에 또는 그것과 조합하여 이용될 수 있다.

"컴퓨터 판독가능 명령어"란 용어는 프로세서(1104)에게 실행할 명령어를 제공하는 임의의 매체를 의미한다. 이러한 매체는 비휘발성 매체, 휘발성 매체 및 전송 매체를 포함하는 다양한 형태를 취할 수 있지만, 이에만 한정되는 것은 아니다. 비휘발성 매체는, 예를 들어 디스크 드라이브(1110)와 같은 광학 또는 자기 디스크를 포함한다. 휘발성 매체는 시스템 메모리(1106)와 같은 동적 메모리를 포함한다. 전송 매체는 버스(1102)를 구성하는 전선을 포함하는 동축 케이블, 구리 선, 광섬유를 포함한다. 전송 매체는 또한 전자파 및 적외선 데이터 통신 동안 생성되는 것들과 같은 음파 또는 광파의 형태를 취할 수도 있다.

컴퓨터 판독가능 매체의 통상적인 형태는, 예를 들어 플로피 디스크, 플렉서블 디스크(flexible disk), 하드 디스크, 자기 테이프, 임의의 다른 자기 매체, CD-ROM, 임의의 다른 광학 매체, 천공 카드, 종이 테이프, 구멍난 패턴을 갖는 임의의 다른 물리적 매체, RAM, PROM, EPROM, FLASH-EPROM, 임의의 다른 메모리 칩 또는 카트리지, 반송파, 또는 컴퓨터가 판독할 수 있는 임의의 다른 매체를 포함한다.

본 발명의 한 실시예에서, 본 발명의 실현시키는 일련의 명령어들의 실행은 단일 컴퓨터 시스템(1100)에 의해 수행된다. 본 발명의 다른 실시예에 따르면, 통신 링크(1120)(예를 들어, LAN, PSTN 또는 무선 네트워크)에 의해 연결된 2개 이상의 컴퓨터 시스템(1100)은 다른 것들과 관련시켜 본 발명을 실현하는 일련의 명령어를 수행할 수 있다. 컴퓨터 시스템(1100)은 통신 링크(1120) 및 통신 인터페이스(1112)를 통해 프로그램, 즉 어플리케이션 코드를 포함하는 메시지, 데이터 및 명령어를 전송 및 수신할 수 있다. 수신된 프로그램 코드는 수신된 때에 프로세서(1104)에 의해 실행되고/실행되거나, 추후 실행을 위해 디스크 드라이브(1110) 또는 다른 비휘발성 저장소에 저장될 수 있다.

상기 실시예들이 명확한 이해를 위해 다소 상세하게 설명되었지만, 본 발명이 제공된 그 세부사항에 한정되는 것은 아니다. 본 발명을 구현하는 많은 대안적 방식들이 존재한다. 개시된 실시예들은 예시적인 것일 뿐 제한적인 것은 아니다.

본 발명은 웹 스팸을 검출하기 위해 컨텐츠를 평가하기 위한 기술을 제공한다.

Claims

컨텐츠를 평가하는 방법에 있어서,

컨텐츠에 관련된 특성을 이용하여 데이터 집합을 생성하는 단계;

통계 이상점(statistical outlier)들의 클래스를 식별하기 위해 통계 분포를 이용하여 상기 데이터 집합을 평가하는 단계; 및

웹 페이지가 상기 통계 이상점들의 클래스의 일부인지를 판정하기 위해 상기 웹 페이지를 분석하는 단계

를 포함하는 방법.
제1항에 있어서, 상기 특성은 주소인 방법.
제1항에 있어서, 상기 특성은 주소 속성인 방법.
제1항에 있어서, 상기 특성은 URL(uniform resource locator) 속성인 방법.
제1항에 있어서, 상기 특성은 호스트이름 해석 특징(hostname resolution characteristic)인 방법.
제5항에 있어서, 상기 호스트이름 해석 특징은 주소에 할당된 다수의 이름을 나타내는 방법.
제5항에 있어서, 상기 호스트이름 해석 특성은 호스트-머신 비율(host-machine ratio)인 방법.
제1항에 있어서, 상기 특성은 링크 구조인 방법.
제1항에 있어서, 상기 특성은 구문상의 컨텐츠(syntactic content)인 방법.
제1항에 있어서, 상기 특성은 컨텐츠 진화(content evolution)인 방법.
제1항에 있어서, 상기 특성은 유사한 웹 페이지들의 집단(cluster)인 방법.
제1항에 있어서, 상기 데이터 집합은 샘플 파퓰레이션(sample population)을 선택하기 전에 생성되는 방법.
제1항에 있어서, 상기 웹 페이지를 분석하는 단계는 웹 스팸이 존재하는지를 판정하는 단계를 더 포함하는 방법.
제13항에 있어서, 상기 웹 스팸이 존재하는지를 판정하는 단계는,

복수의 웹 페이지를 평가하는 단계; 및

상기 웹 페이지 각각에 관련된 호스트 이름의 길이를 판정하는 단계

를 더 포함하는 방법.
제13항에 있어서, 상기 웹 스팸이 존재하는지를 판정하는 단계는,

상기 웹 페이지를 평가하는 단계- 상기 웹 페이지에 관련된 호스트 이름은 주소로 해석됨-; 및

다른 웹 페이지가 다른 호스트 이름을 상기 주소로 해석하는지를 판정하는 단계

를 더 포함하는 방법.
제13항에 있어서, 상기 웹 스팸이 존재하는지를 판정하는 단계는 호스트-머신 비율을 판정하기 위해 상기 웹 페이지를 평가하는 단계를 더 포함하는 방법.
제16항에 있어서, 상기 호스트-머신 비율은 상기 웹 페이지에 포함된 별개의 호스트 이름들의 개수를 상기 별개의 호스트 이름들에 관련된 별개의 주소의 개수로 나눔으로써 결정되는 방법.
제1항에 있어서, 상기 데이터 집합을 평가하는 단계는 상기 통계 이상점들의 클래스에 포함된 내차수 값(in-degree value)을 식별하기 위해 상기 통계 분포를 이용하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 웹 페이지를 분석하는 단계는,

상기 웹 페이지의 내차수 값을 판정하는 단계; 및

상기 웹 페이지의 내차수 값이 상기 통계 이상점들의 클래스에 포함되는지를 판정하는 단계

를 더 포함하는 방법.
제1항에 있어서, 상기 데이터 집합을 평가하는 단계는 상기 통계 이상점의 클래스에 포함되는 외차수 값을 식별하기 위해 상기 통계 분포를 이용하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 웹 페이지를 분석하는 단계는,

상기 웹 페이지의 외차수 값(outdegree value)을 판정하는 단계; 및

상기 웹 페이지의 외차수 값이 상기 통계 이상점의 클래스에 포함되는지를 판정하는 단계

를 더 포함하는 방법.
제1항에 있어서, 상기 웹 페이지를 분석하는 단계는 상기 웹 페이지가 단어 총수에 대한 변화가 거의 없는지를 판정하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 웹 페이지를 분석하는 단계는 상기 웹 페이지가 크기에 대한 변화가 거의 없는지를 판정하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 웹 페이지를 분석하는 단계는 소정기간 동안 한 주소로부터의 다수의 연속적 다운로드에 관련하여 매치하는 특징의 평균 개수를 판정하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 웹 페이지를 분석하는 단계는 실질적으로 동일한 웹 페이지의 집단 크기를 판정하는 단계를 더 포함하는 방법.
제1항에 있어서, 상기 통계 이상점의 클래스는 바람직하지 못한 컨텐츠를 식별하는 방법.
컨텐츠를 평가하는 방법에 있어서,

웹 페이지 집합을 크롤링(crawling)하는 단계;

통계 분포를 연산하기 위해 상기 웹 페이지 집합을 평가하는 단계;

상기 통계 분포 내의 이상점 페이지를 웹 스팸으로서 플래그(flag)하는 단계; 및

질의에 응답하기 위해 상기 웹 페이지 및 상기 이상점 페이지의 인덱스를 생 성하는 단계

를 포함하는 방법.
컨텐츠를 평가하는 시스템에 있어서,

데이터를 저장하도록 구성된 메모리; 및

상기 컨텐츠에 관련된 특성을 이용하여 데이터 집합을 생성하고, 통계 이상점의 클래스를 식별하기 위해 통계 분포를 이용하여 상기 데이터 집합을 평가하고, 웹 페이지가 상기 통계 이상점의 클래스의 일부인지를 판정하기 위해 상기 웹 페이지를 분석하도록 구성된 프로세서

를 포함하는 시스템.
컨텐츠를 평가하기 위한 것으로서, 컴퓨터 판독가능 매체 내에 구현된 컴퓨터 프로그램 제품에 있어서,

상기 컨텐츠에 관련된 특성을 이용하여 데이터 집합을 생성하고,

통계 이상점의 클래스를 식별하기 위해 통계 분포를 이용하여 상기 데이터 집합을 평가하고,

웹 페이지가 상기 통계 이상점의 클래스의 일부인지를 판정하기 위해 상기 웹 페이지를 분석하기 위한 컴퓨터 명령어들을 포함하는 컴퓨터 프로그램 제품.