KR20080075501A

KR20080075501A - 정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템

Info

Publication number: KR20080075501A
Application number: KR1020087011666A
Authority: KR
Inventors: 지-롱 웬; 얀-펭 선; 웨이-잉 마; 자이큉 니; 렌쿠안 지앙
Original assignee: 마이크로소프트 코포레이션
Priority date: 2005-11-15
Filing date: 2006-11-15
Publication date: 2008-08-18
Also published as: CN101305370B; EP1955220A1; WO2007059272A1; EP1955220A4; KR101312770B1; US20070112756A1; CN101305370A; US7529748B2

Abstract

소스 다큐먼트들을 원하는 정보를 포함할 가능성이 있는 것과 원하는 정보를 포함할 가능성이 없는 것인 2가지 카테고리 중 하나로 분류하는 메카니즘을 개시한다. 일반적으로, 어려운 경우에 대하여 향상된 기술들을 이용하는 보다 깊은 분석과 함께 규칙 기반 분류의 일부 형태를 활용한다. 규칙 기반 분류는 일반적으로 인식가능 데이터 간의 관계에 기초하여 또는 데이터의 존재 또는 부재에 기초하여 추가 고려사항으로부터 경우들을 제거하고 관심 다큐먼트들을 식별하는 데 일반적으로 양호하다. 보다 깊은 분석은 관심 다큐먼트들을 식별할 수 있는 데이터 간의 더 복잡한 관계를 밝히는 데 사용된다. 프로세스의 일부분들은 전체 다큐먼트를 이용하는 동안 이 프로세스의 다른 부분들은 다큐먼트의 일부분만을 이용할 수 있다.

분류 식별자, 특징 벡터, 규칙 기반 분류자, 특징 추출기

Description

정보 분류를 위한 방법, 컴퓨터 판독가능 매체, 및 시스템{INFORMATION CLASSIFICATION PARADIGM}

본 발명은 일반적으로 데이터 처리에 관한 것으로서, 보다 상세하게는, 정보의 특별한 특성들에 기초하여 그 정보를 별도의 분류들로 조직화하는 것이다.

네트워크들을 형성하는 상호연결된 컴퓨터들은 유익한 정보에 대하여 발굴될 수 있는 많은 데이터 저장소를 구비할 수 있다. 많은 예들이 있을 수 있지만, 일반적인 일례로는 인터넷이 있으며, 이 인터넷의 독립적 호스트들의 비집중식 구조는 수많은 데이터의 활발한 교환을 장려한다. 그러나, HTML 또는 다른 유형의 다큐먼트와 같이 비교적 비구조형 소스로부터 유익한 정보를 발굴하는 것은 어려울 수 있다. 관련 정보의 위치를 파악하고 식별하는 것은, 다큐먼트의 대부분 비구조형 성질이 일반적으로 다큐먼트 내의 정보를 유형, 값, 목적 등에 의해 구분하지 않기 때문에, 통상적으로 쉽지 않다. 데이터 양이 증가하고 갱신 사이클이 짧아짐에 따라, 이러한 데이터로부터 원하는 정보를 추출하는 것이 점점 더 복잡해지고 있다.

다음에 따르는 것은 독자에게 기본적인 이해를 제공하고자 본 명세서의 간략한 요약을 제시한다. 이 요약은 본 명세서의 확장가능한 개요가 아니며 본 발명의 핵심/주요 요소들을 식별하지 않으며 또는 본 발명의 범위를 한정하지 않는다. 따라서, 이 요약은 청구 대상의 범위를 한정하는 데 사용되어선 안된다. 이 요약의 유일한 목적은 본 명세서에 개시된 일부 개념을 후술되는 상세한 설명에 대한 전제부로서 간략한 형태로 제시하는 것이다.

본 명세서는 소스 다큐먼트들의 그룹을 관심 정보를 포함할 가능성이 있는 것 또는 관심 정보를 포함할 가능성이 없는 것으로 분류하는 메카니즘을 설명한다. 일부 예들은 2가지 기본적인 분류자를 갖는다. 그 중 하나는 다큐먼트들을 3개 그룹 중 하나의 그룹으로 분류하는데, 즉, 관심 정보를 포함할 가능성이 있는 그룹, 관심 정보를 포함할 가능성이 없는 그룹, 또는 추가 심사를 필요로 하는 그룹이다. 많은 경우에, 이 분류자는 적어도 하나의 분류 식별자의 존재 또는 부재에 기초하여 추가 고려 사항으로부터 대부분의 다큐먼트들을 빨리 제거하도록 설정될 수 있다.

제1 분류자는 관심 정보를 포함할 가능성이 있는 것으로 분류되어야 하는 그러한 다큐먼트들을 식별하기 위해 추가 정보에 대하여 파일의 스니펫(예를 들어, 통상적으로 분류 식별자의 근처로부터 규칙들의 세트에 따라 추출된 일부분)을 탐색할 수도 있다.

그러나, 일부 경우에서는, 더 복잡한 분석을 수행해야 한다. 따라서, 제1 분류자가 명백히 식별할 수 없는 경우는, 스니펫으로부터 특징들의 세트를 추출할 수 있고 특징 벡터를 형성하는 특징 추출기에 전달된다. 이러한 특징 벡터는, 다큐먼트가 관심 정보를 포함할 가능성이 있는지 여부를 결정하기 위해 더 복잡한 분석을 행하는 제2 분류자에 의해 사용된다.

다음에 따르는 상세한 설명은 첨부 도면과 함께 읽을 때 보다 쉽게 인식 및 이해될 것이다.

도 1은 정보 분류 시스템의 일례의 일반적인 기능도이다.

도 2는 정보 분류 시스템의 일례의 보다 상세한 기능도이다.

도 3은 정보 분류 시스템의 일례의 흐름도이다.

도 4는 스니퍼 및 특징 벡터 생성의 기능도이다.

도 5는 도시한 예들을 구현하도록 사용하는 데 적합한 컴퓨터의 일례이다.

첨부 도면 전체에 걸쳐 채용되는 동일한 참조 번호 및/또는 다른 참조 부호는, 다른 점에서 제공될 수 있는 것들을 제외하고는 동일한 구성 요소들을 식별하는 데 사용된다.

첨부 도면 및 이 상세한 설명은, 설명의 편의 및 예시적인 목적으로만 개시된 주제에 대한 예시적인 구현예들을 제공하며, 이에 따라 개시한 주제의 하나 이상의 구성 요소를 구성 및/또는 활용하는 유일한 형태를 나타내는 것이 아니다. 게다가, 이 상세한 설명은 하나 이상의 흐름도로 표현된 단계들의 하나 이상의 시퀀스로서 구현될 수 있는 하나 이상의 예시적인 동작을 설명하고 있지만, 동작들의 동일한 동작들 및/또는 동작들의 등가 시퀀스들을 다른 방식들로 구현할 수 있다.

도 1은 고 레벨에서 예시적인 정보 분류 시스템(10)을 도시하고 있다. 이 도는 임의의 특별한 구현을 예시하는 것이 아니라 기능성 관점으로부터 시스템을 예시하도록 설계된 것이다. 시스템(10)에서, 소스 다큐먼트(12)는 관심 정보를 포함할 수 있으며, 이 정보는 추가 처리 블록(14)에 의해 예시한 바와 같이 추가 사용 또는 처리를 위해 추출될 수 있다. 그러나, 소스 다큐먼트(12)들 모두를 추가 처리하기 보다는, 이 다큐먼트들을, 관심 정보를 포함할 가능성이 높은 분류들과 관심 정보를 포함할 가능성이 낮은 분류들로 먼저 정렬하는 것이 바람직할 수 있다.

도 1에서, 분류는, 소스 다큐먼트(12)들을 관심 정보를 포함할 가능성이 높은 것(소스 다큐먼트 18) 또는 관심 정보를 포함할 가능성이 낮은 것(소스 다큐먼트 20)으로 식별하는 분류자(16)에 의해 수행된다.

도 1에서, 소스 다큐먼트(12)들은 저장되어 있거나 네트워크(22)로부터 검색되는 것으로 예시되어 있다. 그러나, 이것은 예시일 뿐이다. 소스 다큐먼트(12)들이 식별되고 분류자(16)에 의해 이용가능해지는 방식은 대체적으로 본 발명의 핵심과 무관한다.

이러한 시스템을 채용할 수 있는 방식의 실질적인 예로서, 관심 정보를 갖는 인터넷으로부터의 웹 페이지들을 식별하는 문제점을 고려해 본다. 이러한 예시에서, 네트워크(22)는 인터넷이며 소스 다큐먼트(12)는 관심 정보를 포함하거나 포함하지 않을 수 있는 웹 페이지 또는 기타 다큐먼트 페이지일 수 있다. 이러한 소스 다큐먼트들은 웹 크롤러에 의해 검색될 수 있으며 또는 일부 다른 방법에 의해 이 용가능해질 수 있다.

일례로, 어떤 회사는 제품 설명, 가격, 공급자 등과 같이 제품에 관한 정보를 제공하길 원할 수 있다. 제품 정보를 포함하는 페이지들을 식별하고 이들을 이러한 제품 정보를 포함하지 않는 페이지들로부터 구별하는 것은 복잡한 작업이다. 이 작업은, 웹 페이지 또는 다른 다큐먼트 내의 데이터가 비교적 비구조화되어 있고 원하는 제품 정보가 페이지로부터 쉽게 식별 및 추출될 수 있도록 일반적으로 충분한 설명 정보를 포함하지 않는다는 사실로 인해, 훨씬 더 복잡해진다. 그러나, 제품 정보를 포함하는 페이지들이 식별될 수 있다면, 관련 정보는 다양한 방식으로 추출 및 사용될 수 있고 또는 다양한 포맷으로 제공될 수 있다. 예를 들어, 관련 정보는 XML 쇼핑 공급원에서 추출 및 공급될 수 있고, 또는 카탈로그가 편집되거나, 디렉토리가 조립되거나, 임의의 개수의 다른 것들이 조립될 수 있다.

도 1을 다시 참조해 보면, 분류자는 다큐먼트들을 2개 카테고리 중 하나의 카테고리로 분류하는 것으로 예시되어 있다. 그러나, 분류자는 임의의 개수의 카테고리를 제공할 수도 있다. 분류자는 다큐먼트가 관련 정보를 포함할 가능성이 얼마나 되는지를 설명하는 신뢰 레벨과 같은 추가 정보를 공급할 수도 있다. 마지막으로, 분류자는 분류에 대하여 판단을 전혀 내리지 않고 단순히 신뢰 레벨을 제공하고 다른 시스템이나 모듈에게 추가 처리를 남겨둘 수 있다.

이제 도 2를 참조해 보면, 분류자(16)와 같은 분류자의 기능의 일례가 예시되어 있다. 도 2에서, 예시적인 분류자는 2개의 서로 다른 메카니즘을 활용하여 다큐먼트들이 관심 정보를 포함하는지 여부를 식별한다. 이러한 메카니즘들은 규 칙 기반 분류자(30) 및 이차 분류자(32)에 의해 예시되어 있다.

많은 경우에, 관심 정보는 본 명세서에서 분류 식별자라 칭하는 소정의 식별가능 특성들을 포함한다. 전술한 예를 이용하여, 가격을 비롯한 제품 정보에 관심있는 경우, 이 관심 정보는 달러($), 유로화(EUR) 등과 같은 통화 또는 가격 식별자를 포함할 가능성이 있다. 가격 식별자와 같은 식별가능 특성은 규칙 기반 분류자(30)에 의한 식별에 적합하다. 또한, 흔히 통화 식별자와 같은 소정의 분류 식별자들은 원하는 정보를 포함할 가능성이 낮은 소스 다큐먼트들을 빨리 정렬하는 데 사용될 수 있다. 계속해서 이 예에서는, 제품 페이지가 "one hundred dollars"와 같은 가격 보다는 "$100.00"과 같은 가격을 가질 가능성이 훨씬 많다. 따라서, 이 예에서, 통화 식별자를 찾지 못하는 경우, 소스 다큐먼트가 관심 정보를 포함하는 가능성은 낮고 이러한 다큐먼트는 빠르게 폐기될 수 있다. 소스 다큐먼트가 통화 식별자를 포함하더라도, 소스 다큐먼트가 관심 정보를 여전히 갖지 않을 수 있지만, 이 예에서 통화 식별자는 낮은 가능성의 소스 다큐먼트들을 빨리 제거할 수 있다는 점에 주목하기 바란다. 이러한 방식은 관련 정보를 가질 가능성이 훨씬 더 높은 그러한 경우들에 집중하기 위한 컴퓨팅 자원들을 절약한다.

도 2에서, 규칙 기반 분류자(30)는 규칙 데이터(34)를 활용하여 그 데이터의 행동 방식(behavior)을 정의한다. 규칙 데이터(34)는 분류자(30)가 포함하거나 배제해야 하는 분류 식별자들과 같은 이러한 정보, 적용되어야 하는 규칙 등을 포함할 수 있다. 전술한 예에서, 분류 식별자들은 텍스트로서 예시되었음에 주목하기 바란다. 그러나, 분류 식별자는 텍스트보다 넓을 수 있으며 예를 들어 소스 다큐 먼트 내에 포함되는 구조적 요소 또는 데이터 구조를 포함할 수 있다는 점에 주목하기 바란다. 예를 들어, 소스 다큐먼트가 HTML 다큐먼트이면, 분류 식별자들은 텍스트, HMTL 태그, 링크, 데이터 등과 같은 것들을 포함할 수 있다. 기본적으로 소스 다큐먼트의 어떠한 식별 요소라도 분류 식별자로서 활용될 수 있다.

도 2에 예시한 바와 같이, 분류자(30)는 3가지 결과 중 하나를 생성한다. 분류자(30)는 다큐먼트를 임의의 관심 정보를 포함할 가능성이 낮은 것으로서 식별할 수 있다. 이것은 소스 다큐먼트 그룹(36)에 의해 예시되어 있다. 또한, 분류자(30)는 다큐먼트를 관심 정보를 포함할 가능성이 높은 것으로서 식별할 수 있다. 이것은 다큐먼트 그룹(38)에 의해 예시되어 있다. 마지막으로, 분류자(30)가 다큐먼트를 어느 카테고리로 분류해야 하는지를 도저히 결정할 수 없는 경우가 있을 수 있다. 이것은 다큐먼트 그룹(40)에 의해 예시되어 있다.

분류 프로세스를 높은 가능성 및 낮은 가능성 면에서 설명하였지만, 이러한 용어들은 관심 다큐먼트 또는 관심 대상이 아닌 다큐먼트를 설명할 뿐이다. 실제 분류자는 가능성의 개념을 명시적으로 활용하거나 활용하지 않을 수 있다. 일부 경우에, 분류 기준은 실제로 가능성 메트릭(metric)을 계산할 수 있고 이에 따라 이 가능성 메트릭을 이용하여 카테고리를 식별할 수 있다. 다른 경우에, 가능성의 개념은 기준 분류자에 내장될 수 있다. 마찬가지로, 다큐먼트가 관심 대상으로서 또는 관심 대상이 아닌 것으로서 분류될 때, 일부 경우엔 가능성(또는 신뢰 메트릭)이 존재할 수 있는 한편 다른 경우엔 어떠한 가능성 메트릭도 출력되지 않는다.

전술한 예를 이용할 때, 시스템이 제품 정보를 찾는 경우, 다큐먼트가 통화 분류자를 포함하지 않는 경우, 이것은 관심이 없는 것으로서 분류된다. 이 규칙을 이용하여 분류 기준을 설정하는 것은 통화 분류자의 부재를 낮은 가능성으로 하는 것과 같다. 이러한 규칙은 제품 정보 페이지들이 구성되는 통상적인 방식의 분석을 통해 또는 다른 수단을 통해 유도될 수 있다.

규칙 기반 분류자(30)에 의해 활용되는 규칙은 임의의 개수 또는 유형의 분류 식별자의 존재 또는 부재에 기초할 수 있다는 점에 주목하기 바란다. 또한, 규칙 기반 분류자(30)에 의해 다른 기준들를 이용하여 다큐먼트들을 분류할 수도 있다.

임의의 조합의 분류 식별자들의 존재 또는 부재가 다큐먼트의 분류를 확실히 결정하지 않는 소정의 경우가 있을 수 있다. 이러한 경우, 일반적으로 보다 깊은 분석이 필요하다. 일부 경우에, 특별한 소스 다큐먼트가 관심 정보를 포함하는지 여부를 식별하려면, 다큐먼트에 포함된 정보의 유형, 정보의 유형들 간의 상호 관계, 정보의 콘텐츠 등과 같은 더 복잡한 인자들의 분석이 필요하다.

이러한 경우, 규칙 기반 엔진은, 어느 소스 다큐먼트가 관심 정보를 포함하는지를 식별하는 데 가장 적합한 툴이 아닐 수 있다. 도 2에 예시한 경우에, 특징 추출기(42) 및 이차 분류자(32)에 의해 더 복잡한 분석이 수행된다.

특징 추출기(42)는 다큐먼트 그룹(40)내의 다큐먼트로부터 적어도 하나의 특징를 추출하고, 이 특징의 구성 요소들은 특징 벡터(44)에 의해 표현될 수 있다. 이후, 특징 벡터(44)는 이차 분류자(32)에 의해 분석된다. 이차 분류자(32)는 모델 데이터(46)와 같은 모델 데이터를 활용하는 유형을 가질 수 있다. 분류자(32) 가 이러한 유형을 갖는 경우, 모델 데이터(46)를 이용하게 되면, 이차 분류자(32)는 다큐먼트를 다큐먼트 그룹(48)에 의해 표현되는 관심 정보를 갖는 것으로서 분류한다. 다큐먼트 그룹들(38, 48)의 조합은 참조 번호 18과 같이 도 1에서 식별된 다큐먼트들의 그룹을 발생시킨다는 점에 주목하기 바란다.

분류자(32)에 의해 수행되는 더 복잡한 분석은 다큐먼트가 관심 정보를 포함하고 있는지 여부를 가리키는 다큐먼트의 특징들 간의 복잡한 관계들을 밝히는 데 종종 필요하다. 전술한 바와 같이, 분류자(32)에 의해 활용되는 메카니즘은 모델 데이터(46)와 같은 모델 데이터를 이용하여, 관심 정보를 포함하는 다큐먼트들이 관심 정보가 없는 다큐먼트들로부터 구별될 수 있게 하는 복잡한 상호 관계를 캡쳐할 수 있다. 모델 데이터(46)는 통상적으로 모델 트레이너(52)와 함께 트레이닝 데이터(50)의 세트를 이용하여 생성된다.

서로 다른 많은 유형의 기술들 및 메카니즘들은 이차 분류자(32)에 적합할 수 있다. 예시하자면, 이러한 메카니즘은, 뉴럴 네트워크에 대한 칼만(Kalman), 최대 가능성 필터 또는 일부 베이스(Bayesian) 방안 또는 기타 패턴 인식 방안, 또는 다른 다양한 기술들과 같은 필터링 또는 추정에 기초하여 분류자들을 포함할 수 있지만, 이러한 예시로 한정되지 않는다. 일례로, 이차 분류자(32)는 지원 벡터 머신(SVM)에 기초할 수 있다. SVM 기반 분류자는 경험적 위험 최소화가 아닌 구조적 위험 최소화의 사상을 전제로 하고 있다. 이것은 특징 벡터(44)와 같은 입력 벡터를 고차원 공간에 매핑하고 2개의 클래스 간에 최대 마진을 남기는 면(hyperplane)을 적용한다. 라벨링된 트레이닝 데이터 세트가 아래와 같이 주어 진다.

여기서,

이다.

SVM의 대응하는 결정 함수는 다음과 같은 형태를 갖는다.

여기서, K는 커널 함수이다. 통상적인 커널 함수는, 다항 커널 함수, 가우스 RBF 커널, 시그모이드(sigmoid) 커널 등을 포함하지만, 이에 한정되지는 않는다. SVM 기술은 널리 알려져 있으며 다양한 참조 문헌들에 설명되어 있으므로 여기선 더 이상 언급하지 않는다.

규칙 기반 분류자(30) 및 이차 분류자(32) 둘 다에 대하여 설명하였지만, 이들은 예시일 뿐이다. 특별한 구현예에서는 서로 다른 기술들에 기초하여 분류자들의 다른 조합을 가질 수 있다.

도 2에 관한 설명에서, 이 설명의 핵심이 로케일 및 언어에 독립적이라는 점은 명백하다. 그러나, 특정한 응용에서는, 분류 모델이 언어 또는 로케일에 의존할 수 있다. 대략적인 분류를 수행하기 위해 분류자(30)가 통화 식별자를 찾는 예로 다시 돌아가서, 분류자(30)를 어떤 통화 식별자를 찾을 필요가 있는지는 소스 다큐먼트의 언어 또는 로케일 (또는 둘 다)에 기초할 수 있다. 따라서, 규칙 데이터(34) 및/또는 모델 데이터(46)는 소스 다큐먼트의 특별한 언어 또는 로케일에 따라 다를 수 있다. 또한, 규칙 데이터(34) 및/또는 모델 데이터(46)는 임의의 개수 의 다른 인자들에 따라 다를 수도 있다. 다시 말하면, 언어 및 로케일은 규칙 및/또는 모델 데이터를 선택할 때 고려할 수 있는 인자들의 예일 뿐이다.

언어 또는 로케일, 또는 기타 인자들은, 규칙 데이터(34) 및/또는 모델 데이터(46)에 영향을 끼칠 수 있을 뿐만 아니라 일부 경우에 분류 시스템의 구조에도 영향을 끼칠 수 있다. 예를 들어, 언어, 로케일, 또는 소정의 다른 인자, 또는 이들의 조합에 따라 규칙들을 다른 시퀀스에 적용하는 것이 바람직할 수 있다.

도 2에서는 규칙 기반 분류자(30) 및 이차 분류자(32)를 별도로 예시하였지만, 이들을 하나의 분류 엔티티로 결합하거나 다른 순서로 적용할 수 있다는 점에 주목하기 바란다.

이제 도 3을 참조하여, 흐름도에 대한 특별한 예를 예시한다. 이 예에서, 단계의 일반적인 설명에는 통상적으로 더 상세한 한 예 또는 예들이 뒤따른다. 특정 예(또는 예들)는 예시를 위해 이용하며 본 발명의 궁극적 범위를 제한하려는 것이 아니다.

도 3의 프로세스는 적어도 하나의 분류 식별자(62)에 대하여 소스 다큐먼트(60)가 검색될 때 시작된다. 이것은 결정 블록(64)에 의해 예시되어 있다. 결정 블록(64)이 특별한 분류 식별자의 존재 또는 부재를 찾을 수 있다는 점에 주목하기 바란다. 또한, 결정 블록(64)은 특별한 분류 식별자의 존재 또는 부재가 아니라 분류 식별자들의 세트 또는 패턴의 존재 또는 부재를 찾을 수 있다. 다른 옵션들도 가능하다.

대표적인 예에서, 결정 블록(64)은 추가 고려 사항으로부터 소스 다큐먼트들 을 배제하는 데 사용될 수 있는 적어도 하나의 분류자의 존재 또는 부재를 테스트한다. 예를 들어, 재화와 용역 세트의 가격이 관심 대상이고 재화 또는 용역의 가격을 설명하는 대부분의 소스 다큐먼트들이 통화 식별자를 활용하는 경우, 결정 블록(64)은 적합한 통화 식별자의 존재 또는 부재를 테스트할 수 있다. 다른 예에서, 퍼센트로 표현된 데이터가 관심 대상이면, "%" 기호(또는 이것의 등가)를 포함하는 분류 식별자는 블록(64)에 의해 테스트받을 수 있다. 추가 예에서, 특별한 링크를 갖는 HTML 페이지들의 집합이 관심 대상일 수 있으며 링크 성질을 갖는 분류 식별자가 테스트받을 수 있다.

블록(64)이 원하는 분류 식별자가 부재라고 (또는 테스트가 설정되는 방식에 따라 존재한다고) 결정하면, 다큐먼트는 블록(66)에 의해 예시한 바와 같이 관심없는 것으로서 분류될 수 있고 (다음 다큐먼트가 존재하는 경우 이러한) 다음 다큐먼트를 검사할 수 있다.

블록(64)이 원하는 분류 식별자가 존재한다고 (또는 테스트가 설정되는 방식에 따라 부재라고) 결정하면, 블록(68)은 다큐먼트로부터 적절한 분류 식별자 스니펫을 추출한다.

많은 경우에, 관심 다큐먼트 내의 관련 정보는 소정의 친밀도를 갖는다. 예를 들어, 가격에 관심이 있는 경우, 통화 식별자를 뒤따르는 가장 가능성있는 수치 값이 관심 대상으로 된다. 따라서, 전체 다큐먼트 대신에 스니펫(snippet)이라 칭하는 다큐먼트의 서브세트로 작업할 수 있다. 여기서 사용되는 바와 같이, 스니펫은 전체보다 작은 또는 전체와 동일한 다큐먼트의 일부분이다. 또한, 스니펫은 규 칙 기반 식별자에서 규칙들의 적용가능성을 결합하는 데 사용될 수 있는 자연스러운 윈도우를 제공한다. 예를 들어, 분류 식별자에 가깝게 발견되길 원하는 키워드 또는 구(phrase)의 탐색은 텍스트 다큐먼트 내의 단락 중단에 의해 결합될 수 있다. 다른 유형의 다큐먼트에서는, 다른 기준을 이용하여 어떤 부분이 스니펫으로 추출되는지를 결정할 수 있다.

많은 비구조 데이터를 포함하는, 대부분은 아니더라도 많은 소스 다큐먼트들은, 관심 정보가 있을 수 있는 곳을 식별하는 것을 돕는데 유익할 수 있는 구조를 여전히 포함한다. 예를 들어, 텍스트 다큐먼트는 자신과 관련된 텍스트나 정보 외에도 단락, 페이지, 문장, 도면, 표, 및 기타 구조를 가질 수 있다. HTML 다큐먼트는 다양한 태그, 데이터 구조, 컴포넌트, 제어부, 실행가능 코드 등 및 이러한 항목들의 각각에 관련된 데이터의 값을 포함할 수 있다.

HTML 다큐먼트를 이용하는 일례에서, 스니펫은 분류 식별자 앞 및/또는 뒤에 개수의 태그를 포함할 수 있다. 이 개수는 소정의 초기 개수로 설정된 후 다양한 기준에 따라 튜닝 또는 조절될 수 있다. 일실시예에서, 취해진 스니펫은, 다른 값들이 유익하며 대체 실시예들에서 사용될 수 있지만, 분류 식별자 앞의 10개의 태그 및 분류 식별자 뒤의 10개의 태그이다. 텍스트 다큐먼트를 이용하는 다른 일실시예에서, 스니펫은 분류 식별자 앞 및/또는 뒤에 소정 개수의 워드, 문장, 단락, 또는 페이지를 포함할 수 있다.

또한, 스니펫은 다큐먼트의 어느 정도가 스니펫에 포함되어야 하는지를 계산하는데 있어서 소정의 특징들만을 이용함으로써 생성될 수 있다. 예를 들어, 소스 다큐먼트들이 HTML로 저장되고 다큐먼트가 관심 정보를 포함하는 가능성이 소정 유형의 태그 구조들(예를 들어, 일부 태그 구조들은 가능성 결정을 내리는 데 유익할 정보를 운반하지 않음)만을 검사함으로써 보다 쉽게 인식될 수 있다고 가정해 본다. 이 경우, 스니펫을 고려할 때 소정 유형의 태그들만을 고려하는 것이 바람직할 수 있다. 특별한 예에서는, 4개의 요소들을 고려한다. 즉, <A> 태그, <IMG> 태그, <INPUT> 태그, 텍스트 요소이다. 다큐먼트가 텍스트 다큐먼트 또는 다른 유형의 다큐먼트라면, 스니펫을 선택할 때 고려할 중요한 구조들 또는 특징들은 다를 수 있지만, 원리는 동일하다.

일단 적어도 하나의 관련 스니펫이 식별되었다면, 결정 블록(70)은 식별 스니펫 구(72 및/또는 74)를 이용하여, 다큐먼트가 관심 정보를 포함하고 있음을 가리키는 경향이 있는 분류 식별자 주위의 구의 위치를 파악한다. 식별 스니펫 구는 키워드라고 칭할 수도 있다. 이러한 스니펫 구/키워드가 단순히 텍스트 이상일 수 있다는 점에 주목하는 것이 중요하다. 스니펫 구/키워드는 다큐먼트 내의 임의의 정보, 오브젝트, 구성체(construct), 데이터 등일 수 있다. 도 3에는, 스니펫 구의 특별한 예가 참조 번호 72 및 74로서 예시되어 있다. 도 3에서, 식별 스니펫 구(72)는 관심 다큐먼트 내의 분류 식별자를 둘러싸는 텍스트에서 발견될 가능성이 있는 구에 대한 것인 한편 식별 스니펫 구(74)는 분류 식별자를 둘러싸는 링크들에서 발견될 가능성이 있는 구에 대한 것이다.

이러한 정렬은 소스 다큐먼트가 HMTL로 되어 있을 때 특히 유익하다. 다른 유형의 소스 다큐먼트에서는, 다른 유형의 스니펫 구가 유익할 수 있다. 그러나, 이것은, 구들이 분류 식별자를 둘러싸는 구조 또는 데이터의 유형에 따라 가변되는 상황에서, 서로 다른 유형들의 구조들에서의 차이 구들을 탐색하는 것이 바람직할 수 있음을 예시한다.

관련 구가 발견된다고 가정하면, 다큐먼트는 블록(76)에서 예시한 바와 같이 관심있는 것으로 분류된다. 관련 구가 발견되지 않으면, 블록(78)에서 특징 추출이 발생한다.

블록(70)이 구를 탐색하는 것으로서 예시되어 있지만, 블록(70)은 구의 부재, 다수의 구의 존재 또는 부재의 소정의 조합, 또는 다른 유형의 로직을 탐색하도록 구성될 수도 있다.

도 3에서, 점선(80) 위의 블록들은 도 2에 도시한 규칙 기반 분류자(30)와 같은 규칙 기반 분류자의 가능한 일례를 나타낸다. 이러한 특별 예에서 규칙은 분류자의 구조 내로 코딩되는 경향이 있음에 주목하기 바란다. 그러나, 다른 예에서, 규칙은 소정의 로직 유형 언어로 표현될 수 있고 보다 일반적인 규칙 기반 분류자를 맞춤화하는 데 사용될 수 있다.

스니펫이 분류 식별자를 둘러싸는 탐색 구를 포함하지 않으면, 다큐먼트가 관심 정보를 포함하는지 여부를 결정하기 위해, 스니펫 내에 포함된 정보의 더 복잡한 분석을 요구할 수 있다. 따라서, 블록(78)은 특징들이 더 검사받을 수 있도록 스니펫으로부터 추출되는 것을 예시한다. 점선들(80, 82) 간에 도 3에 도시한 블록(78)은 도 2의 특징 추출기(42)의 가능한 일례이다.

잠시 도 4를 참조하여, 특징 추출에 대하여 추가 상세를 설명한다. 도 4에 서, 다큐먼트(110)는 관심 정보를 포함할 수 있는 다큐먼트를 나타낸다. 전술한 바와 같이, 이러한 다큐먼트들이 대부분 비구조화되어 있더라도, 이들은 통상적으로 다큐먼트가 관심 정보를 포함하는지 여부를 식별하는 데 유익한 적어도 일부 구조들을 갖는다.

도 4에서, 이러한 구조들은 다큐먼트 오브젝트들(112, 114, 116, 118) 및 이들의 관련된 오브젝트 정보(122, 124, 126, 128)에 의해 예시되어 있다. 여기서 사용되는 바와 같이, 오브젝트라는 용어는 매우 광범위하다. 이것은 다큐먼트 내의 임의의 구조를 포함한다. 오브젝트의 예로는, HTML 태그, 링크, 실행가능 오브젝트, 구성체, 버튼, 제어부, 단락, 표, 페이지 등이 있지만, 이에 한정되지는 않는다. 통상적으로, 오브젝트는 텍스트, 값 등과 같이 관련된 오브젝트 정보를 갖는다.

도 4에서, 스니펫은 점선(132)으로 표시된다. 스니펫(132)은 도 3의 블록(68)에 의해 식별되는 스니펫의 일례이다. 스니펫(132)은 관심 특징들을 추출하기 위해 특징 추출기(130)에 의해 처리된다. 특징 추출기(130)는 도 2의 특징 추출기(42)의 다른 일례이다.

특징들은 관심있는 다큐먼트 또는 스니펫의 양태들이다. 이하의 예로부터 더욱 명백하듯이, 특징들은 다큐먼트 내의 오브젝 뿐만 아니라 그 오브젝트에 관련된 정보, (비를 계산하고, 메트릭에 따라 정보를 평가하는 등) 정보를 조작함으로써 추출될 수 있는 정보, 또는 다큐먼트가 관심 정보를 포함하는지 여부를 확인하는 데 유익할 수 있는 다큐먼트의 다른 양태도 포함한다.

일단 특징 추출기(130)에 의해 스니펫(132)으로부터 원하는 특징들이 추출되면, 이 특징들은 통상적으로 도 4의 특징 벡터(134)와 같은 특징 벡터로 조립된다. 여기서 사용되는 바와 같이, 벡터라는 용어는 임의의 특별한 유형의 데이터 구조를 의미하는 데 활용되지 않는다. 이 용어는, 오히려 시스템에서의 추가 사용을 위해 추출되는 특징들의 집합을 가리키는 유익한 수단으로서 사용된다.

스니펫으로부터 특징들을 추출하기 위해, 규칙들의 세트는 어떤 특징들이 관심있는지를 식별하도록 확립될 수 있다. 일반적으로, 어느 특징들이 관심있는지는 관심있는 특별한 정보에 기초한다. 다시 말하면, 관심있는 특별한 유형의 정보가 주어진 경우, 그리고 이러한 정보를 포함할 수 있는 스니펫이 주어진 경우, 스니펫 내의 일부 특징들은 스니펫이 원하는 정보를 포함하고 있는지 여부를 식별하는데 있어서 다른 특징들보다 중요할 수 있다. 그러나, 이러한 결정이 스니펫의 특징들 중 복잡한 관계들의 세트에 기초할 때에만 행해질 수 있기 때문에 어떤 특징들이 중요한지는 흔히 명백하지 않다.

따라서, 적어도 초기에 많은 특징들의 세트를 식별하고 추출하여 SVM 또는 다른 적절한 방법에 의해 이러한 복잡한 관계들의 세트에 대하여 추후에 추가로 검사받을 수 있는 특징 벡터를 형성하는 것이 바람직할 수 있다. HTML 다큐먼트를 소스 다큐먼트로서 이용하고 제품을 설명하는 페이지를 찾는 대표적인 예에서, 특징 벡터의 일례는 아래의 표 1의 특징들의 일부 또는 전체를 포함할 수 있다.

특징 벡터의 예

특징 번호	설명
1	스니펫이 픽처를 포함한다.
2	스니펫이 링크를 포함한다.
3	스니펫이 링크를 갖는 픽처를 포함한다.
4	스니펫이 링크를 갖는 픽처를 포함하며 이것은 다른 링크와 동일하다.
5	스니펫이 jpg 이미지를 포함한다.
6	스니펫이 "입력" 또는 "제출" 태그를 포함한다.
7	스니펫이 정확한 가격을 가리키도록 텍스트에서 충분한 문자들을 갖는 가격 태그를 포함한다(예를 들어, 10 미만).
8	스니펫이 가격 식별자를 포함하는 태그를 카운팅하지 않는 다른 자유 텍스트에서 통화 기호를 포함한다.
9	스니펫이 링크 속성을 갖는 가격 태그를 포함한다.
10	스니펫이 동일한 링크를 갖는 2개의 태그를 포함한다.
11	스니펫이 숨은 입력 태그를 포함한다.
12	스니펫이 임의의 다른 태그에서 자유로운 텍스트를 갖는 대체 텍스트를 갖춘 이미지 태그를 포함한다.
13	스니펫이 대체 텍스트를 갖는 jpg 이미지를 포함한다.
14	스니펫이 이미지, 링크, 텍스트를 갖는 태그를 포함한다.
15	태그들의 전체 개수 대 이미지 태그들의 비
16	태그들의 전체 개수 대 자유 텍스트를 갖는 태그들의 비
17	태그들의 전체 개수 대 링크를 갖는 태그들의 비
18	태그들의 전체 개수 대 이미지와 링크를 갖는 태그들의 비
19	태그들의 전체 개수 대 텍스트와 링크를 갖는 태그들의 비
20	태그들의 전체 개수 대 이미지, 텍스트, 링크를 갖는 태그들의 비

다른 예로, 특징 벡터는 이하의 표 2에서의 특징들의 일부 또는 전체를 포함할 수 있다.

특징 벡터의 예

특징 번호	특징 설명
1	문자들의 평균 워드 길이
2	문자들의 계산된 평균 워드 길이
3	문자들의 평균 단락 길이
4	워드들의 평균 단락 길이
5	문장들의 평균 단락 길이
6	문자들의 평균 섹션 길이
7	단락들의 평균 섹션 길이
8	문장들의 평균 섹션 길이
9	워드들의 평균 섹션 길이
10	문자들의 평균 문장 길이
11	워드들의 평균 문장 길이
12	문자들의 계산된 다큐먼트 길이
13	워드들의 계산된 다큐먼트 길이
14	워드 길이들의 개수 N
15	다큐먼트에서의 워드 길이들의 표준 편차
16	다큐먼트에서의 워드 길이들의 편차
17	넌스페이스 문자들의 개수
18	전체 문자들의 개수
19	워드들의 개수
20	워드 카운트의 제곱근
21	워드 카운트의 사제곱근
22	(전체) 스펠링 에러의 개수
23	오기 가능성의 개수 (cf. AutoCorrect)
24	비오기 스펠링 에러 가능성의 개수
25	문장들의 개수 (마침표로 구분)
26	수동태 문장들의 개수
27	능동태 문장들의 개수
28	문법 에러들의 개수
29	단락들의 개수
30	섹션들의 개수
31	페이지들의 개수
32	문자 카운트에 대한 스펠링 에러 카운트의 비
33	전체 문자 카운트에 대한 스펠링 에러 카운트의 비
34	워드 카운트에 대한 스펠링 에러 카운트의 비
35	문장 카운트에 대한 스펠링 에러 카운트의 비
36	단락 카운트에 대한 스펠링 에러 카운트의 비
37	문자 카운트에 대한 오기 가능성 카운트의 비
38	전체 문자 카운트에 대한 오기 가능성 카운트의 비
39	워드 카운트에 대한 오기 가능성 카운트의 비
40	스펠링 에러 카운트에 대한 오기 가능성 카운트의 비
41	문장 카운트에 대한 오기 가능성 카운트의 비
42	문법 에러 카운트에 대한 오기 가능성 카운트의 비
43	단락 카운트에 대한 오기 가능성 카운트의 비
44	전체 문자 카운트에 대한 넌스페이스(ns) 문자 카운트의 비
45	ns 문자 카운트에 대한 문법 에러 카운트의 비
46	전체 문자 카운트에 대한 문법 에러 카운트의 비
47	워드 카운트에 대한 문법 에러 카운트의 비
48	문장 카운트에 대한 문법 에러 카운트의 비
49	단락 카운트에 대한 문법 에러 카운트의 비
50	능동태 문장들에 대한 수동태 문장들의 비
51	모든 문장들에 대한 수동태 문장들의 비
52	플레쉬 킨케이드(Flesh-Kinkaid) 쉽게 읽기 통계
53	플레쉬 킨케이드 등급 레벨

물론, 표 1 및 표 2에 제시한 가능한 특징들은 가능한 예들을 나타낼 뿐이며 모든 특징들이 활용되어야 함을 가리키는 것은 아니다. 실제로, 분석은, 분류의 정밀도에 영향을 끼치지 않거나 거의 끼치지 않으면서 특징 세트가 줄어들 수 있음을 가리킬 수 있다(때때로 특징 제거(ablation)라 함). 일반적으로, 충분한 정밀도를 제공하는 가장 작은 특징 세트를 활용하는 것이 바람직하다.

이제 도 3을 참조해 보면, 일단 특징 벡터(84)가 생성되면, 이 특징 벡터는 블록(86)에서 SVM 모델에 의해 처리된다. 이 처리에 따라 블록(88)에서 예시한 바와 같이 분류 결정이 발생한다. 블록(90)은 스니펫이 관심 정보를 포함하며 소스 다큐먼트가 관심있는 것으로서 식별된다는 것을 가리킨다.

스니펫이 관심 정보를 포함하지 않는 것으로서 분류되면, 블록(92)은 다큐먼트 내에 위치하는 더 많은 분류 식별자들이 존재하는 한 프로세스가 계속된다는 것을 가리킨다. 더 이상의 분류 식별자들이 발견되지 않으면, 다음 다큐먼트가 존재하는 경우 이러한 다음 다큐먼트를 검사한다.

SVM 모델 데이터(94)에 의해 지시되듯이, 블록(86)에서의 SVM 모델은 스니펫을 관심 정보를 갖는 것으로서 또는 갖지 않는 것으로서 분류하기 위해 입력을 가져야 한다. 전술한 바와 같이, SVM 모델 데이터는 소스 다큐먼트들의 로케일 또는 언어와 같은 다양한 정보에 따라 다를 수 있다.

SVM 모델 데이터(94)는 통상적으로 트레이닝 프로세스를 통해 전개된다. 이것은 점선(96)으로 된 프로세스에 의해 예시되어 있다. 이 프로세스에서, 트레이닝 다큐먼트들은 관심 정보를 갖거나 갖지 않는 것으로서 식별되는 다큐먼트들을 생성하기 위해 통상적으로 분석되고 라벨링된다(블록 98, 100, 102). 이후, 다큐먼트들은 (블록(104)에 의해 표시된) SVM 모델 트레이너에 의해 분석된다.

여기서 설명하는 예들 및 실시예들은 다양한 컴퓨팅 장치들에서 구현될 수 있다. 일반적으로, 컴퓨팅 장치는 다양한 구성 요소들을 포함할 수 있다. 예시적인 컴퓨팅 장치가 도 5에 도시되어 있다. 이러한 컴퓨팅 장치의 가장 기본적인 구성에 있어서, 컴퓨팅 장치(140)는 통상적으로 적어도 하나의 처리 유닛(142) 및 메모리(144)를 포함한다. 컴퓨팅 장치의 정확한 구성 및 유형에 따라, 메모리(144)는 (RAM과 같은) 휘발성, (ROM, 플래시 메모리 등과 같은) 비휘발성, 또는 휘발성과 비휘발성의 소정의 조합일 수 있다. 또한, 일부 구성에서, 컴퓨팅 장치(142)는 자기 디스크나 광 디스크, 고상 분리형 메모리, 또는 테이프와 같은 (분리형 및/또는 비분리형) 대용량 저장소를 포함할 수도 있다. 이들은 일반적으로 도 5에서 참조 번호 146 및 148로 예시되어 있다. 마찬가지로, 컴퓨팅 장치(140)는 키보드 또는 키패드, 포인팅 장치, 또는 다른 유형의 입력 장치와 같은 입력 장치들, 및/또는 디스플레이 또는 기타 출력 장치와 같은 출력 장치들을 포함할 수도 있다. 이들은 일반적으로 도 5에서 각각 참조 번호 150 및 152로 예시되어 있다. 관심을 갖는 소스 다큐먼트들이 네트워크를 통해 액세스되는 경우처럼 다른 장치들 또는 네트워크와 통신이 중요한 실시예들에서, 컴퓨팅 장치(140)는 다른 장치들 또는 네트워크와 통신하는 하나 이상의 메카니즘을 구비할 수도 있다. 이들은 도 5에서 참조 번호 154로 예시되어 있다. 이러한 유형의 통신 메카니즘은, 유선 매체 또는 무선 매체를 이용하여 다른 장치, 컴퓨터, 네트워크, 서버 등에 대한 네트워크 접속부를 포함한다. 이러한 모든 장치들은 당해 기술에 널리 알려져 있으며 여기서 설명할 필요는 없다.

게다가, 특별한 예들 및 가능성있는 구현예들을 위에서 언급하였지만, 존재하는 또는 현재로선 예측할 수 없는 대체예, 수정예, 변경예, 개선예, 실질적인 등가예가 출원인 또는 당업자에게 발생할 수 있다. 이에 따라, 출원시 청구범위는, 수정될 수 있듯이, 이러한 모든 대체예, 수정예, 변경예, 개선예, 실질적 등가예를 포함하려는 것이다. 게다가, 요소들이나 시퀀스들을 처리하는 순서, 또는 숫자, 글자 혹은 이들의 다른 지정의 사용은 청구 프로세스를 청구범위에서 특정될 수 있는 바를 제외하고 임의의 순서로 한정하려는 것이 아니다.

Claims

적어도 하나의 분류 식별자에 적어도 부분적으로 기초하여 소스 다큐먼트들의 초기 세트를 적어도 3개 그룹 중 하나의 그룹으로 분류하는 단계 - 상기 적어도 3개 그룹은, 관심 다큐먼트들을 포함하는 제1 그룹과, 관심없는 다큐먼트들을 포함하는 제2 그룹과, 관심 레벨이 미결정되어 있는 제3그룹을 포함함 - 와,

상기 제3 그룹으로 분류된 각 다큐먼트에 대하여,

하나의 다큐먼트로부터 적어도 하나의 특징 벡터를 추출하는 단계와,

상기 적어도 하나의 특징 벡터에 기초하여 상기 다큐먼트를 상기 제1 그룹 또는 상기 제2 그룹으로 분류하는 단계를 포함하는 방법.
제1항에 있어서,

상기 분류 식별자는 적어도 언어 또는 로케일(locale)에 또는 둘 다에 의존하는 방법.
제1항에 있어서,

상기 소스 다큐먼트들의 초기 세트는,

상기 소스 다큐먼트들 중 하나의 소스 다큐먼트를 선택하는 단계와,

상기 소스 다큐먼트를 검사하여 상기 분류 식별자의 존재 또는 부재를 결정하는 단계와,

상기 분류 식별자의 존재 또는 부재에 기초하여, 상기 소스 다큐먼트를 상기 제2 그룹으로 분류하거나 상기 소스 다큐먼트를 추가 검사를 필요로 하는 것으로서 식별하는 단계와,

상기 소스 다큐먼트가 추가 검사를 필요로 하는 경우, 상기 분류 식별자에 적어도 부분적으로 기초하여 상기 소스 다큐먼트로부터 스니펫(snippet)을 추출하는 단계와,

추가 정보를 찾기 위해 상기 스니펫을 탐색하고 상기 정보의 존재 또는 부재에 기초하여, 상기 소스 다큐먼트를 상기 제1 그룹 또는 상기 제3 그룹으로 분류하는 단계

에 의해 상기 3개 그룹으로 분류되는 방법.
제3항에 있어서,

상기 추가 정보는 적어도 언어 또는 로케일 또는 둘 다에 의존하는 방법.
다큐먼트 내에 적어도 하나의 통화 식별자(currency identifier)가 존재하는지 여부를 결정하고, 상기 적어도 하나의 통화 식별자의 존재 또는 부재에 기초하여 상기 다큐먼트를 관심있는 것으로서 또는 추가 검사를 필요로 하는 것으로서 분류하는 단계와,

상기 다큐먼트가 추가 검사를 필요로 하는 경우, 상기 다큐먼트 내의 정보의 다수의 특성들을 나타내는 적어도 하나의 특징 벡터를 생성하는 단계와,

상기 생성한 적어도 하나의 특징 벡터가 상기 다큐먼트가 제품에 관련될 가능성이 있는 것을 가리키는지 여부를 결정하는 단계

를 포함하는 방법.
제5항에 있어서,

상기 다큐먼트 내에 적어도 하나의 통화 식별자가 존재하는지 여부를 결정하는 단계는, 상기 다큐먼트로부터 적어도 하나의 통화 식별자를 둘러싸는 다수의 다큐먼트 요소들을 나타내는 적어도 하나의 가격 스니펫을 추출하는 단계를 더 포함하는 방법.
제5항에 있어서,

하나 이상의 키워드 인디케이터가 상기 통화 식별자 근처에 존재하는지 여부를 식별하는 단계를 더 포함하는 방법.
제7항에 있어서,

적어도 하나의 키워드가 식별되는 경우 상기 다큐먼트를 관심 가능성이 있는 것으로서 분류하는 단계를 더 포함하는 방법.
실행가능 명령어들이 저장된 적어도 하나의 컴퓨터 판독가능 매체로서,

소스 다큐먼트들의 초기 세트를 적어도 3개 그룹 중 하나의 그룹으로 분류하 도록 구성되고, 분류 결정을 내리는 데 사용되는 적어도 하나의 언어 의존적 분류 식별자를 포함하는 입력을 갖는 제1 분류자 - 상기 적어도 3개 그룹은, 관심 다큐먼트들을 포함하는 제1 그룹과, 관심없는 다큐먼트들을 포함하는 제2 그룹과, 관심 레벨이 미결정되어 있는 제3그룹을 포함함 - 와,

상기 제3 그룹으로 분류된 다큐먼트로부터 특징들을 추출하고 적어도 하나의 특징 벡터를 형성하도록 구성된 특징 추출기와,

상기 적어도 하나의 특징 벡터 및 언어 의존적 모델 정보를 포함하는 입력을 수신하도록 구성되고, 상기 적어도 하나의 특징 벡터 및 상기 언더 의존적 모델 정보에 기초하여 상기 적어도 하나의 특징 벡터에 관련된 다큐먼트를 상기 제1 그룹 또는 상기 제2 그룹으로 분류하도록 더 구성된 제2 분류자

를 포함하는 컴퓨터 판독가능 매체.
제9항에 있어서,

상기 제1 식별자는,

소스 다큐먼트 내에 상기 적어도 하나의 언어 의존적 분류 식별자의 존재 또는 부재를 결정하는 단계와,

상기 소스 다큐먼트 내에 상기 적어도 하나의 분류 식별자가 부재인 경우, 상기 소스 다큐먼트를 상기 제2 그룹으로 분류하는 단계와,

상기 소스 다큐먼트 내에 상기 적어도 하나의 분류 식별자가 존재하는 경우, 상기 다큐먼트로부터 스니펫을 추출하고 상기 스니펫 내에 적어도 하나의 키워드의 존재 또는 부재를 결정하는 단계와,

상기 스니펫 내에 적어도 하나의 키워드가 존재하는 경우 상기 소스 다큐먼트를 상기 제1 그룹으로 분류하고, 상기 스니펫 내에 적어도 하나의 키워드가 부재인 경우 상기 소스 다큐먼트를 상기 제3 그룹으로 분류하는 단계

를 포함하는 방법을 수행하는 컴퓨터 판독가능 매체.
제9항에 있어서,

상기 적어도 하나의 언어 의존적 분류 식별자는 통화 식별자를 포함하는 컴퓨터 판독가능 매체.
제11항에 있어서,

상기 적어도 하나의 키워드는 상기 통화 식별자가 가격에 관련되어 있음을 가리키는 정보를 포함하는 컴퓨터 판독가능 매체.
제9항에 있어서,

상기 적어도 하나의 특징 벡터는, 다큐먼트 내의 HTML 태그들의 전체 개수에 대한 HTML 태그의 적어도 하나의 유형의 카운트의 비를 취함으로써 계산되는 비 메트릭(ratio metric)을 포함하는 컴퓨터 판독가능 매체.
제9항에 있어서,

상기 적어도 하나의 특징 벡터는 이미지 요소, 링크 요소, 텍스트 요소, 또는 비 메트릭 중 적어도 하나를 포함하는 컴퓨터 판독가능 매체.
제9항에 있어서,

상기 적어도 하나의 특징 벡터로부터 특징들을 추출하는 상기 특징 추출기에 의해 사용되는 다큐먼트의 스니펫을 추출하도록 구성된 스니펫 추출기를 더 포함하는 컴퓨터 판독가능 매체.
제15항에 있어서,

상기 스니펫은 소스 다큐먼트에서 이용가능한 구조들의 전체 유형의 서브세트에 기초하여 선택되는 컴퓨터 판독가능 매체.
소스 다큐먼트들의 초기 세트로부터의 하나의 소스 다큐먼트 내에 적어도 하나의 분류 식별자의 존재 또는 부재를 결정하는 단계와, 상기 소스 다큐먼트 내에 상기 적어도 하나의 분류 식별자가 부재인 경우 상기 소스 다큐먼트를 제2 그룹으로 분류하는 단계와, 상기 소스 다큐먼트 내에 상기 적어도 하나의 분류 식별자가 존재하는 경우 상기 소스 다큐먼트로부터 스니펫을 추출하고 상기 스니펫 내에 적어도 하나의 키워드의 존재 또는 부재를 결정하는 단계와, 상기 스니펫 내에 적어도 하나의 키워드가 존재하는 경우 상기 소스 다큐먼트를 제1 그룹으로 분류하고 상기 스니펫 내에 적어도 하나의 키워드가 부재인 경우 상기 소스 다큐먼트를 제3 그룹으로 분류하는 단계를 포함하는 방법에 의해, 상기 소스 다큐먼트들의 초기 세트를 적어도 3개 그룹 중 하나의 그룹으로 분류하도록 구성된 제1 분류자 - 상기 적어도 3개 그룹은, 관심 다큐먼트들을 포함하는 상기 제1 그룹과, 관심없는 다큐먼트들을 포함하는 상기 제2 그룹과, 관심 레벨이 미결정되어 있는 상기 제3그룹을 포함함 - 와,

상기 제3 그룹으로 분류된 다큐먼트에 관련된 상기 스니펫으로부터 특징들을 추출하고 상기 스니펫으로부터 적어도 하나의 특징 벡터를 형성하도록 구성된 특징 추출기와,

상기 적어도 하나의 특징 벡터 및 모델 정보를 포함하는 입력을 수신하도록 구성되고, 상기 적어도 하나의 특징 벡터 및 상기 모델 정보에 기초하여 상기 적어도 하나의 특징 벡터에 관련된 다큐먼트를 상기 제1 그룹 또는 상기 제2 그룹으로 분류하도록 더 구성된 제2 분류자

를 포함하는 시스템.
제17항에 있어서,

상기 적어도 하나의 특징 벡터는, 다큐먼트 내의 HTML 태그들의 전체 개수에 대한 HTML 태그의 적어도 하나의 유형의 카운트의 비를 취함으로써 계산되는 비 메트릭을 포함하는 시스템.
제17항에 있어서,

상기 적어도 하나의 특징 벡터는 이미지 요소, 링크 요소, 텍스트 요소, 또는 비 메트릭 중 적어도 하나를 포함하는 시스템.
제17항에 있어서,

상기 적어도 하나의 언어 의존적 분류 식별자는 통화 식별자를 포함하는 시스템.