KR101203345B1

KR101203345B1 - 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템

Info

Publication number: KR101203345B1
Application number: KR1020050036077A
Authority: KR
Inventors: 벤유 장; 도우 센; 후아-준 젱; 웨이-잉 마; 젱 첸
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-04-30
Filing date: 2005-04-29
Publication date: 2012-11-20
Also published as: JP2005322245A; EP1591924A1; CA2505957A1; KR20060047636A; EP1591924B1; CN1758245B; CA2505957C; BRPI0502155A; US7392474B2; MXPA05004682A; ATE470192T1; US20090119284A1; RU2377645C2; AU2005201766A1; RU2005113190A; DE602005021581D1; CN1758245A; US20050246410A1

Abstract

디스플레이 페이지들의 자동적으로 생성되는 요약들에 기초하여 디스플레이 페이지들을 분류하는 방법 및 시스템이 제공된다. 웹 페이지 분류 시스템에서는 웹 페이지 요약화 시스템을 이용하여 웹 페이지들의 요약들을 생성한다. 웹 페이지의 요약에는 그 웹 페이지의 주요 토픽에 가장 밀접하게 관련된 웹 페이지의 문장들이 포함된다. 요약화 시스템에서는 여러 요약화 기법들의 장점들을 조합하여 웹 페이지의 주요 토픽을 나타내는 그 웹 페이지의 문장들을 식별할 수 있다. 일단 요약이 생성되면, 분류 시스템은 통상적인 분류 기법들을 그 요약에 적용하여 그 웹 페이지를 분류할 수 있다. 분류 시스템은 나이브 베이지안 분류자 또는 서포트 벡터 머신과 같은 통상적인 분류 기법들을 이용하여, 요약화 시스템에 의해 생성되는 요약에 기초하여 웹 페이지의 분류를 식별할 수 있다.

요약화 기법, 웹 페이지 분류, 문장, 스코어, 디스플레이 페이지

Description

요약을 이용하여 디스플레이 페이지를 분류하는 방법 및 시스템{METHOD AND SYSTEM FOR CLASSIFYING DISPLAY PAGES USING SUMMARIES}

도 1은 일 실시예에서의 분류 시스템 및 요약화 시스템의 컴포넌트들을 도시한 블럭도.

도 2는 일 실시예에서의 웹 페이지 분류 컴포넌트의 처리를 도시한 흐름도.

도 3은 일 실시예에서의 웹 페이지 요약화 컴포넌트의 처리를 도시한 흐름도.

도 4는 일 실시예에서의 스코어 계산 컴포넌트의 처리를 도시한 흐름도.

도 5는 일 실시예에서의 룬(Luhn) 스코어 계산 컴포넌트의 처리를 도시한 흐름도.

도 6은 일 실시예에서의 은닉 의미 분석(latent semantic analysis) 스코어 계산 컴포넌트의 처리를 도시한 흐름도.

도 7은 일 실시예에서의 컨텐트 보디(content body) 스코어 계산 컴포넌트의 처리를 도시한 흐름도.

도 8은 일 실시예에서의 통제(supervised) 스코어 계산 컴포넌트의 처리를 도시한 흐름도.

도 9는 일 실시예에서의 스코어 조합 컴포넌트의 처리를 도시한 흐름도.

<도면의 주요 부분에 대한 부호의 설명>

110 : 분류 시스템

111 : 웹 페이지 분류 컴포넌트

112 : 분류자 컴포넌트

120 : 요약화 시스템

121 : 웹 페이지 요약화 컴포넌트

122 : 문장 정렬 컴포넌트

123 : 스코어 계산 컴포넌트

124 : 상위 문장 선택 컴포넌트

본 발명은 일반적으로 자동적으로 정보를 분류하는 것에 관한 것이다.

구글(Google) 및 오버추어(Overture)와 같은 많은 검색 엔진 서비스는 인터넷을 통해 액세스할 수 있는 정보를 검색할 수 있게 해준다. 이들 검색 엔진 서비스는, 사용자로 하여금 사용자가 원할 수도 있는 웹 페이지들과 같은 디스플레이 페이지들을 검색할 수 있게 해준다. 사용자가 검색 용어들을 포함하는 검색 요구를 청하면, 검색 엔진 서비스는 이들 검색 용어들과 관련될 수 있는 웹 페이지들을 식별한다. 관련된 웹 페이지들을 신속하게 식별하기 위해, 검색 엔진 서비스는 웹 페이지들에 대한 키워드의 맵핑을 유지할 수 있다. 이 맵핑은 웹(즉, 월드 와이드 웹)을 "크롤링(crawling)"함으로써 생성되어서 각 웹 페이지의 키워드들을 식별할 수 있게 된다. 웹을 크롤링하기 위해, 검색 엔진 서비스는 루트(root) 웹 페이지들의 리스트를 이용하여서 이들 루트 웹 페이지들을 통해 액세스할 수 있는 모든 웹 페이지들을 식별할 수 있다. 임의의 특정 웹 페이지의 키워드들은, 헤드라인의 단어들, 그 웹 페이지의 메타데이터에서 제공되는 단어들, 하이라이트된 단어들 등을 식별하는 것과 같은 여러 공지된 정보 검색 기법을 이용하여 식별될 수 있다. 이 검색 엔진 서비스는, 각 매치의 근접도, 웹 페이지 인기도(예를 들면 구글의 페이지 랭크(PageRank)) 등에 기초하여, 그 검색 요구와 그 웹 페이지의 정보가 얼마나 관련이 있는지를 나타내기 위한 관련 스코어를 생성할 수 있다. 그 후 검색 엔진 서비스는 이들의 랭킹에 기초한 순서대로 이들 웹 페이지에 대한 링크들을 사용자에게 디스플레이한다.

검색 엔진 서비스는 검색 결과로서 많은 웹 페이지들을 리턴할 수도 있지만, 랭크 순서대로 웹 페이지들을 표시하는 것으로 인해, 사용자가 특별히 관심이 있는 웹 페이지들을 실질적으로 찾아내는 것이 어렵게 될 수 있다. 처음에 표시되는 웹 페이지들이 인기있는 토픽에 관한 것일 수 있기 때문에, 잘 알려지지 않은 토픽에 관심이 있는 사용자는 관심있는 웹 페이지를 찾아내기 위해 검색 결과의 많은 페이지들을 스캔할 필요가 있을 수 있다. 사용자가 관심있는 웹 페이지들을 좀 더 용이하게 찾아내도록 하기 위해, 검색 결과의 웹 페이지들은 웹 페이지들의 몇몇 분류 또는 카테고리화에 기초하여 계층적 구조로 표시될 수도 있을 것이다. 예를 들면, 사용자가 "코트 배틀(court battles)"의 검색 요구를 청하는 경우, 검색 결과 에는 스포츠 관련 또는 법률 관련으로 분류될 수 있는 웹 페이지들이 포함될 수 있다. 사용자는 처음에 웹 페이지들의 분류 리스트가 보여질 것을 선호할 수도 있고 이에 따라 사용자는 관심있는 웹 페이지들의 분류를 선택할 수 있게 된다. 예를 들면, 사용자에게는 처음에, 검색 결과의 웹 페이지들이 스포츠 관련 및 법률 관련으로 분류되었음을 나타내는 것이 표시될 수도 있다. 그 후 사용자는 법률 관련된 웹 페이지들을 보기 위해 법률 관련 분류를 선택할 수 있다. 반면에, 스포츠 웹 페이지들은 법률 웹 페이지들보다 인기있기 때문에, 대부분의 인기있는 웹 페이지들이 처음에 표시되는 경우 사용자는 법률 관련 웹 페이지들을 찾아내기 위해 많은 페이지들을 스캔해야 할 것이다.

현재 이용가능한 수많은 웹 페이지들을 수동으로 분류하는 것은 비실용적일 것이다. 텍스트 기반 컨텐트를 분류하는 데에 자동화된 분류 기법들이 이용되어 왔지만, 이들 기법은 웹 페이지들의 분류에 일반적으로 적용할 수 있는 것은 아니다. 웹 페이지들은, 웹 페이지의 주요 토픽과 직접 관련되지 않은 광고 또는 네비게이션 바(bar)와 같은 노이지(noisy) 컨텐트를 포함하는 구조를 갖고 있다. 종래의 텍스트 기반 분류 기법들에서는 웹 페이지를 분류할 때 이러한 노이지 컨텐트를 사용하고 있기 때문에, 이들 기법들은 웹 페이지의 부정확한 분류를 생성할 수도 있을 것이다.

웹 페이지의 분류를 그 웹 페이지의 주요 토픽에 기초하여 행하고 그 웹 페이지의 노이지 컨텐트에는 거의 가중치를 주지 않는, 웹 페이지들에 대한 분류 기법을 갖는 것이 바람직할 것이다.

분류 및 요약화 시스템은 디스플레이 페이지들의 자동적으로 생성되는 요약들에 기초하여 웹 페이지들과 같은 디스플레이 페이지들을 분류한다. 일 실시예에서, 웹 페이지 분류 시스템은 웹 페이지 요약화 시스템을 이용하여 웹 페이지들의 요약들을 생성한다. 웹 페이지의 요약에는 그 웹 페이지의 주요 토픽에 가장 밀접하게 관련된 웹 페이지의 문장들이 포함될 수 있다. 요약화 시스템은 여러 요약화 기법들의 장점들을 조합시켜서 웹 페이지의 주요 토픽을 나타내는 웹 페이지의 문장들을 식별한다. 일단 요약이 생성되면, 분류 시스템은 통상적인 분류 기법들을 그 요약에 적용하여 웹 페이지를 분류할 수 있다.

디스플레이 페이지들의 자동적으로 생성되는 요약들에 기초하여 디스플레이 페이지들을 분류하는 방법 및 시스템이 제공된다. 일 실시예에서, 웹 페이지 분류 시스템은 웹 페이지 요약화 시스템을 이용하여 웹 페이지들의 요약들을 생성한다. 웹 페이지의 요약에는, 그 웹 페이지의 주요 토픽에 가장 밀접하게 관련된 웹 페이지의 문장들이 포함될 수 있다. 일단 요약이 생성되면, 분류 시스템은 통상적인 분류 기법들을 그 요약에 적용하여 웹 페이지를 분류할 수 있다. 요약화 시스템은 여러 요약화 기법들의 장점들을 조합하여 웹 페이지의 주요 토픽을 나타내는 그 웹 페이지의 문장들을 식별할 수 있다. 일 실시예에서 요약화 시스템은, 룬(Luhn) 요약화 기법과, 은닉 의미 분석(latent semantic analysis) 요약화 기법과, 통제(supervised) 요약화 기법들을 개별적으로 혹은 서로 조합하여 사용하여서 요약을 생성한다. 요약화 시스템은 각 요약화 기법들을 이용하여서, 웹 페이지의 각 문장에 대한 요약화 기법에 특정한 스코어를 생성한다. 그 후 요약화 시스템은 문장에 대한 요약화 기법에 특정한 스코어들을 조합하여 그 문장에 대한 전체적인 스코어를 생성한다. 요약화 시스템은 가장 높은 전체 스코어들을 갖는 웹 페이지의 문장들을 선택하여 그 웹 페이지의 요약을 형성한다. 분류 시스템은 나이브 베이지안 분류자(Naive Bayesian classifier) 또는 서포트 벡터 머신(support vector machine)과 같은 통상적인 분류 기법들을 이용하여, 요약화 시스템에 의해 생성되는 요약에 기초하여 웹 페이지의 분류를 식별할 수 있다. 이러한 방식으로, 웹 페이지들은 웹 페이지들의 자동적으로 생성된 요약들에 기초하여 자동적으로 분류될 수 있다.

일 실시예에서, 요약화 시스템에서는 룬 요약화 기법의 변경된 버전을 이용하여 웹 페이지의 각 문장에 대한 룬 스코어를 생성한다. 룬 요약화 기법에서는 문장 내에 있는 "중요한 단어들"에 기초하여 문장에 대한 스코어를 생성한다. 문장에 대한 스코어를 생성하기 위해, 룬 요약화 기법에서는, 소정의 중요하지 않은 단어들의 수 이하인 중요한 단어들에 의해 브래킷(bracket)되는 문장의 일부를 식별한다. 룬 요약화 기법에서는 브래킷된 부분 내의 단어들의 수에 의해 나눠지는 브래킷된 부분 내에 포함되는 중요 단어들의 수의 제곱의 비로서 문장의 스코어를 계산한다(H.P.Luhn의 The Automatic Creation of Literature Abstracts, 2 IBM J. of RES.& DEV. No. 2, 159-65(1958년 4월) 참조). 요약화 시스템은 각 분류에 대한 중요한 단어들의 컬렉션(collection)을 정의함으로써 룬 요약화 기법을 변경한 다. 예를 들면, 스포츠 관련 분류는 "코트", "농구", 및 "스포츠"를 포함하는 중요 단어들의 컬렉션을 가질 수 있고, 반면에 법률 관련 분류는 "코트", "변호사", 및 "범죄자"를 포함하는 중요 단어들의 컬렉션을 가질 수 있다. 요약화 시스템은, 미리 분류된 웹 페이지들의 트레이닝 세트에 기초하여 중요 단어들의 컬렉션을 식별할 수 있다. 요약화 시스템은, 소정의 분류를 갖는 웹 페이지들에 대해 가장 빈번하게 사용되는 단어들을 그 분류에 대한 중요 단어들의 컬렉션으로서 선택할 수 있다. 요약화 시스템은 또한 노이지 컨텐트를 나타낼 수도 있는 컬렉션으로부터 소정의 스톱(stop) 단어들을 제거할 수 있다. 웹 페이지의 문장에 스코어를 매길 때, 변경된 룬 요약화 기법에서는 각 분류에 대한 스코어를 계산한다. 그 후 요약화 기법에서는, 임계 레벨보다 위에 있는 각 분류에 대한 스코어를 평균화하여 그 문장에 대한 조합된 룬 스코어를 제공한다. 요약화 시스템은 가장 높은 룬 스코어들을 갖는 문장들을 선택하여 요약을 생성할 수 있다.

일 실시예에서, 요약화 시스템은 은닉 의미 분석 요약화 기법을 이용하여 웹 페이지의 각 문장에 대한 은닉 의미 분석 스코어를 생성한다. 은닉 의미 분석 요약화 기법에서는 단일 값 분해(singular value decomposition)를 이용하여 각 문장에 대한 스코어를 생성한다. 요약화 시스템은, 각 단어-문장 조합에 대한 가중치 부여된 용어 빈도 값을 포함하는 웹 페이지에 대한 단어-문장 행렬을 생성한다. 이 행렬은 이하와 같이 표현될 수 있다.

A=U∑V^T

여기서, A는 단어-문장 행렬을 나타내며, U는 칼럼이 좌측 단일 벡터인 칼럼-정규 직교(orthonormal) 행렬이며, ∑는 대각 원소들이 내림 차순으로 정렬된 네가티브가 아닌 단일 값인 대각 행렬이며, V는 칼럼이 우측 단일 벡터인 정규 직교 행렬이다. 요약화 시스템은, 행렬을 U, ∑, 및 V로 분해한 후, 우측 단일 벡터를 이용하여 그 문장들에 대한 스코어들을 생성한다(Y.H.Gong & X. Liu의 Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis, in PROC. OF THE 24^TH ANNUAL INTERNATIONAL ACM SIGIR, New Orleans, Louisiana, 19-25(2001) 참조). 요약화 시스템은 첫 번째 우측 단일 벡터를 선택하고 그 벡터 내의 가장 높은 인덱스 값을 갖는 문장을 선택할 수 있다. 그 후 요약화 시스템은 가장 높은 스코어를 그 문장에 부여한다. 그 후, 요약화 시스템은 두 번째 우측 단일 벡터를 선택하고 두 번째 높은 스코어를 그 벡터 내의 가장 높은 인덱스 값을 갖는 문장에 부여한다. 그 후 요약화 시스템은 유사한 방식으로 계속 진행하여 그 밖의 다른 문장들에 대한 스코어들을 생성한다. 요약화 시스템은 가장 높은 스코어들을 갖는 문장들을 선택하여 그 웹 페이지의 요약을 생성할 수 있다.

일 실시예에서, 요약화 시스템은 컨텐트 보디 요약화 기법을 이용하여 웹 페이지의 각 문장에 대한 컨텐트 보디 스코어를 생성한다. 컨텐트 보디 요약화 기법에서는 웹 페이지의 컨텐트 보디를 식별하고 그 컨텐트 보디 내의 문장들에 높은 스코어를 부여한다. 웹 페이지의 컨텐트 보디를 식별하기 위해, 컨텐트 보디 요약 화 기법에서는 웹 페이지의 기본 오브젝트 및 복합 오브젝트를 식별한다. 기본 오브젝트는 더 이상 분할될 수 없는 가장 작은 정보 영역이다. 예를 들면, HTML에서, 기본 오브젝트는 두 개의 태그 내의 깨질 수 없는 엘리먼트 또는 삽입된 오브젝트이다. 복합 오브젝트는 하나의 기능을 수행하기 위해 조합하는 기본 오브젝트 또는 그 밖의 다른 복합 오브젝트들의 세트이다. 오브젝트들을 식별한 후에, 요약화 시스템은 오브젝트들을, 정보, 네비게이션, 상호작용, 데커레이션(decoration), 또는 특수 기능과 같은 카테고리들로 카테고리화한다. 정보 카테고리는 컨텐트 정보를 나타내는 오브젝트용이며, 네비게이션 카테고리는 네비게이션 가이드를 나타내는 오브젝트용이며, 상호작용 카테고리는 사용자 상호작용(예를 들면, 입력 필드)을 나타내는 오브젝트용이며, 데커레이션 카테고리는 데커레이션을 나타내는 오브젝트용이며, 특수 기능 카테고리는 법률 정보, 컨택트 정보, 로고 정보 등과 같은 정보를 나타내는 오브젝트용이다(J.L,Chen 등의 Function-based Object Model Towards Website Adaptation, PROC. OF WWW10, Hong Kong, China(2001) 참조). 일 실시예에서, 요약화 시스템은 각 오브젝트에 대한 반전된 도큐먼트 빈도 인덱스(즉, TF*IDF)에 의해 용어 빈도를 구축한다. 그 후 요약화 시스템은 코사인 유사도(cosine similarity)와 같은 유사도 계산을 이용하여 오브젝트 쌍들 간의 유사도를 계산한다. 그 쌍의 오브젝트들 간의 유사도가 임계 레벨보다 클 경우, 요약화 시스템은 그 쌍의 오브젝트들을 링크한다. 그 후 요약화 시스템은, 이에 대한 가장 많은 링크를 갖는 오브젝트를, 그 웹 페이지의 주요 토픽을 나타내는 코어 오브젝트로서 식별한다. 그 웹 페이지의 컨텐트 보디는 코어 오브젝트에 대한 링크를 갖 는 각 오브젝트와 함께 코어 오브젝트이다. 요약화 시스템은 컨텐트 보디의 각 문장에 높은 스코어를 부여하며, 그 웹 페이지의 그 밖의 다른 모든 문장에 낮은 스코어를 부여한다. 요약화 시스템은 높은 스코어를 갖는 문장들을 선택하여 그 웹 페이지의 요약을 생성할 수 있다.

일 실시예에서, 요약화 시스템은 통제 요약화 기법을 이용하여 웹 페이지의 각 문장에 대한 통제 스코어를 생성한다. 통제 요약화 기법에서는 트레이닝 데이터를 이용하여 문장이 요약의 부분으로서 선택되어야 하는지의 여부를 식별하는 요약화 함수를 학습한다. 통제 요약화 기법은 특성 벡터에 의해 각 문장을 나타낸다. 일 실시예에서, 통제 요약화 기법은 표 1에서 정의된 특성들을 이용하며, 여기서 f_ij는 문장 i의 i번째 특성의 값을 나타낸다.

특성	디스크립션
f_i1	포함되는 패러그래프 내의 문장 S_i의 위치
f_i2	S_i 내의 단어들의 수인 문장 S_i의 길이
f_i3	∑TF_w*SF_w, 이는 단어들 w의 수 뿐만 아니라, 문장들간의 분포도 고려함, 여기서 TF_w는 타겟 웹 페이지 내의 단어 w의 발생 횟수이며, SF_w는 타겟 웹 페이지 내의 단어 w를 포함하는 문장들의 수임.
f_i4	S_i 및 타이틀 간의 유사도, 이는 문장과 타이틀 간의 도트 프로덕트로서 계산될 수 있음.
f_i5	웹 페이지 내의 S_i 및 모든 텍스트간의 코사인 유사도
f_i6	웹 페이지 내의 S_i 및 메타데이터간의 코사인 유사도
f_i7	S_i 내에 있는 특수 단어 세트로부터의 단어의 발생 횟수, 이 특수 단어 세트는 하이라이트된(예를 들면, 이탤릭체, 볼드체, 또는 언더라인으로 표시된) 웹 페이지 내의 단어들을 컬렉팅함으로써 구축될 수 있음.
f_i8	S_i 내의 단어들의 평균 폰트 사이즈. 일반적으로, 더 높은 중요도를 가진 것에는 웹 페이지 내에서 더 큰 폰트 사이즈가 부여됨.

요약화 시스템은 나이브 베이지안 분류자를 이용하여 요약화 함수를 학습할 수 있다. 요약화 함수는 이하와 같이 표현될 수 있다.

여기서, p(s∈S)는 요약기의 요약률(이는 서로 다른 애플리케이션들에 대해 사전정의될 수 있음)을 나타내며, p(f_j)는 각 특성 j에 대한 확률을 나타내며, p(f_j｜s∈S)는 각 특성 j에 대한 조건부 확률을 나타낸다. 후자의 두 개의 팩터는 트레이닝 세트로부터 측정될 수 있다.

일 실시예에서, 요약화 시스템은 룬 요약화 기법, 은닉 의미 분석 요약화 기법, 컨텐트 보디 요약화 기법, 및 통제 요약화 기법의 스코어들을 조합하여 전체적인 스코어를 생성한다. 스코어들은 이하와 같이 조합된다.

S=S_luhn + S_lsa + S_cb + S_sup

여기서, S는 조합된 스코어를 나타내며, S_luhn은 룬 스코어를 나타내며, S_lsa는 은닉 의미 분석 스코어를 나타내며, S_cb는 컨텐트 보디 스코어를 나타내며, S_sup는 통제 스코어를 나타낸다. 다른 대안으로는, 요약화 시스템은 각 요약화 기법 스코어에 가중치 부여된 팩터를 적용하여, 모든 요약화 기법 스코어들이 동일하게 가중치 부여되지는 않도록 한다. 예를 들면, 룬 스코어가, 웹 페이지의 주요 토픽에 대한 문장의 관련성을 보다 정확하게 반영한 것으로 생각되는 경우, 룬 스코어에 대한 가중화 팩터는 .7일 수 있으며, 그 밖의 다른 스코어들에 대한 가중화 팩 터는 각각에 대해 .1일 수 있다. 요약화 기법에 대한 가중화 팩터가 제로에 세트될 경우, 요약화 시스템은 그 요약화 기법을 이용하지 않는다. 당업자라면, 임의의 수의 요약화 기법들이 자신들의 가중치를 제로에 세트되도록 할 수 있음을 알 것이다. 예를 들면, 1의 가중화 팩터가 룬 스코어에 사용되고 그 밖의 다른 스코어에 대해 제로가 사용되는 경우, "조합된" 스코어는 단순히 룬 스코어일 것이다. 또한, 요약화 시스템은 각 요약화 기법 스코어들을 표준화할 수 있다. 요약화 시스템은 또한 요약화 기법 스코어들의 비선형적 조합을 사용할 수 있다. 요약화 시스템은 조합된 가장 높은 스코어들을 갖는 문장들을 선택하여 그 웹 페이지의 요약을 형성할 수 있다.

일 실시예에서, 분류 시스템은 나이브 베이지안 분류자를 이용하여 그 요약에 기초하여 웹 페이지를 분류한다. 나이브 베이지안 분류자는 베이즈 규칙(Bayes' rule)을 이용하며 이는 이하와 같이 정의될 수 있다.

여기서,

는 트레이닝 데이터에서 발생하는 각 카테고리 cj로 빈도를 카운팅함으로써 계산될 수 있으며, ｜C｜는 카테고리들의 수이며, p(w_i｜c_j)는 단어 w_i가 등급 c_j에서 발생하는 확률을 나타내며, N(w_k, d_i)는 d_i에서 단어 w_k의 발생의 횟수를 나타내며, n은 트레이닝 데이터 내의 단어들의 수를 나타낸다(A.McCallum & K.Nigam의 A Comparison of Event Models for Naive Bayes Text Classification, in AAAl-98 WORKSHOP ON LEARNING FOR TEXT CATEGORIZATION(1998) 참조). w_i는 트레이닝 데이터 내에서 작을 수도 있기 때문에, 그 값을 측정하는 데에 라플라스 평활화(Laplace smoothing)가 이용될 수도 있다.

다른 실시예에서, 분류 시스템은 서포트 벡터 머신을 이용하여, 그 요약에 기초하여 웹 페이지를 분류한다. 서포트 벡터 머신은, 가능한 입력의 스페이스 내의 초평면(hyper-surface)을 찾아냄으로써 동작한다. 초평면은 초평면의 가장 가까운 포지티브 및 네거티브 예들 간의 거리를 최대화함으로써 네거티브 예로부터 포지티브 예로 분할하려고 한다. 이로 인해 트레이닝 데이터와 유사하지만 동일하지는 않는 데이터의 정확한 분류가 가능하게 된다. 서포트 벡터 머신을 트레이닝하는 데에 여러 기법들이 이용될 수 있다. 그 중 하나의 기법에서는, 큰 2차 프로그래밍 문제를, 분석적으로 해결될 수 있는 일련의 작은 2차 프로그래밍 문제로 바꾸는 순차적인 최소 최적화 알고리즘을 이용한다(http://research.microsoft.com/~jplatt/smo.html에서의 순차적 최소 최적화 참조).

도 1은 일 실시예에서의 분류 시스템 및 요약화 시스템의 컴포넌트들을 도시한 블럭도이다. 분류 시스템(110)은 웹 페이지 분류 컴포넌트(111) 및 분류자 컴포넌트(112)를 포함한다. 요약화 시스템(120)은 웹 페이지 요약화 컴포넌트(121), 문장 정렬 컴포넌트(122), 스코어 계산 컴포넌트(123), 및 상위 문장 선택 컴포넌 트(124)를 포함한다. 웹 페이지 분류 컴포넌트는 웹 페이지 요약화 컴포넌트를 이용하여 웹 페이지에 대한 요약을 생성하고 그 후, 그 요약에 기초하여 웹 페이지를 분류하기 위해 분류자 컴포넌트를 이용한다. 웹 페이지 요약화 컴포넌트는 스코어 계산 컴포넌트를 이용하여 그 웹 페이지의 각 문장에 대한 스코어를 계산한다. 그 후, 웹 페이지 요약화 컴포넌트는 문장 정렬 컴포넌트를 이용하여 자신들의 스코어들에 기초하여 그 웹 페이지의 문장들을 정렬하고, 상위 문장 선택 컴포넌트는 가장 높은 스코어들을 갖는 문장들을 선택하여 그 웹 페이지의 요약을 생성한다. 스코어 계산 컴포넌트는 룬 스코어 계산 컴포넌트(125), 은닉 의미 분석 스코어 계산 컴포넌트(126), 컨텐트 보디 스코어 계산 콤포넌트(127), 및 통제 스코어 계산 컴포넌트(128)를 이용하여 여러 요약화 기법들에 대한 스코어들을 생성한다. 그 후, 스코어 계산 컴포넌트는 요약화 기법들에 대한 스코어들을 조합하여 각 문장에 대한 전체적인 스코어를 제공한다.

요약화 시스템이 구현되는 컴퓨팅 디바이스는 중앙 처리 장치, 메모리, 입력 장치(예를 들면, 키보드 및 포인팅 장치), 출력 장치(예를 들면, 디스플레이 장치), 및 저장 장치(예를 들면, 디스크 드라이브)를 포함할 수 있다. 메모리 및 저장 장치는 요약화 시스템을 구현하는 인스트럭션들을 포함할 수 있는 컴퓨터 판독가능 매체이다. 또한, 데이터 구조 및 메시지 구조는 통신 링크 상의 신호처럼 데이터 전송 매체를 통하여 저장되거나 전송될 수 있다. 인터넷, 근거리 통신망, 원거리 통신망, 또는 지점간(point-to-point) 다이얼 업(dial-up) 접속과 같은 여러 통신 링크들이 사용될 수 있다.

요약화 시스템은 여러 동작 환경에서 구현될 수 있다. 본 명세서에서 개시되는 동작 환경은 적절한 동작 환경에 대한 단지 일례일 뿐이며 요약화 시스템의 사용 또는 기능의 범주에 대해 임의의 제한을 가하려는 의도는 아니다. 사용하기에 적절할 수 있는 그 밖의 다른 공지된 컴퓨팅 시스템, 환경, 및 구성에는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드 헬드 또는 랩탑 디바이스, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 프로그램가능 소비자 전자기기, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전술한 시스템 또는 디바이스들중 임의의 것을 포함하는 분산 컴퓨팅 환경 등이 포함된다.

요약화 시스템은 하나 이상의 컴퓨터 또는 그 밖의 다른 디바이스들에 의해 실행되는 프로그램 모듈들과 같은 컴퓨터 실행가능한 인스트럭션의 일반적인 문맥으로 기술될 수 있다. 일반적으로, 프로그램 모듈에는, 특정 태스크를 수행하거나 특정 추상 데이터 타입을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조가 포함된다. 전형적으로, 프로그램 모듈의 기능은 여러 실시예에서 요구되는 바와 같이 조합되거나 분배될 수 있다.

도 2는 일 실시예에서의 웹 페이지 분류 컴포넌트의 처리를 도시한 흐름도이다. 이 컴포넌트는 웹 페이지를 패싱(passing)하고 그 분류를 리턴한다. 블럭 201에서, 이 컴포넌트는 웹 페이지 요약화 컴포넌트로 하여금 그 웹 페이지에 대한 요약을 생성하도록 한다. 블럭 202에서, 이 컴포넌트는 나이브 베이지안 분류자 또는 서포트 벡터 머신과 같은 분류자를 이용하여 그 웹 페이지의 요약에 기초하여 그 웹 페이지를 분류한다. 그 후 웹 페이지 컴포넌트는 완료된다.

도 3은 일 실시예에서의 웹 페이지 요약화 컴포넌트의 처리를 도시한 흐름도이다. 이 컴포넌트는 웹 페이지를 패싱하고 그 웹 페이지의 각 문장에 대한 스코어를 계산하여 가장 높은 스코어들을 갖는 문장들을 선택하여 그 웹 페이지의 요약을 생성한다. 블럭 301에서, 이 컴포넌트는 스코어 계산 컴포넌트로 하여금 각 문장에 대한 스코어를 계산하게 한다. 블럭 302에서, 이 컴포넌트는 계산된 스코어들에 기초하여 문장들을 정렬한다. 블럭 303에서, 이 컴포넌트는 상위 스코어들을 갖는 문장들을 선택하여 그 웹 페이지에 대한 요약을 생성한다. 그 후 이 컴포넌트는 이 요약을 리턴한다.

도 4는 일 실시예에서의 스코어 계산 컴포넌트의 처리를 도시한 흐름도이다. 이 컴포넌트는 웹 페이지를 패싱하고 그 웹 페이지의 문장들에 대한 여러 요약화 기법 스코어들을 계산하고, 이들 요약화 기법 스코어들에 기초하여 각 문장에 대한 조합된 스코어를 계산한다. 이와 달리 이 컴포넌트는 오직 하나의 요약화 기법 또는 요약화 기법들의 다양한 조합을 이용하여 스코어를 계산할 수도 있다. 블럭 401에서, 이 컴포넌트는 룬 스코어 계산 컴포넌트로 하여금 그 웹 페이지의 각 문장에 대한 룬 스코어를 계산하게 한다. 블럭 402에서, 이 컴포넌트는, 은닉 의미 분석 스코어 계산 컴포넌트로 하여금 그 웹 페이지의 각 문장에 대한 은닉 의미 분석 스코어를 계산하게 한다. 블럭 403에서, 이 컴포넌트는, 컨텐트 보디 스코어 계산 컴포넌트로 하여금 이 웹 페이지의 각 문장에 대한 컨텐트 보디 스코어를 계산하게 한다. 블럭 404에서, 이 컴포넌트는, 통제 스코어 계산 컴포넌트로 하여금 그 웹 페이지의 각 문장에 대한 통제 스코어를 계산하게 한다. 블럭 405에서, 이 컴포넌트는, 스코어 조합 컴포넌트로 하여금 그 웹 페이지의 각 문장에 대한 조합된 스코어를 계산하게 한다. 그 후 이 컴포넌트는 조합된 스코어들을 리턴한다.

도 5는 일 실시예에서의 룬 스코어 계산 컴포넌트의 처리를 도시한 흐름도이다. 이 컴포넌트는 웹 페이지를 패싱하고 이 패싱된 웹 페이지의 각 문장에 대한 룬 스코어를 계산한다. 블럭 501에서, 이 컴포넌트는 그 웹 페이지의 다음 문장을 선택한다. 판단 블럭 502에서, 그 웹 페이지의 모든 문장들이 이미 선택된 경우, 이 컴포넌트는 상기 룬 스코어들을 리턴하며, 그렇지 않은 경우 이 컴포넌트는 블럭 503으로 진행한다. 블럭 503-509에서, 이 컴포넌트는 각 분류를 위한 선택된 문장에 대한 등급 스코어를 생성하는 처리를 한다. 블럭 503에서, 이 컴포넌트는 다음 분류를 선택한다. 판단 블럭 504에서, 모든 분류가 이미 선택된 경우, 이 컴포넌트는 블럭 510으로 진행하고, 그렇지 않은 경우 컴포넌트는 블럭 505로 진행한다. 블럭 505에서, 이 컴포넌트는 선택된 분류의 중요 단어들에 의해 브래킷되는 선택된 문장들의 단어들을 식별한다. 판단 블럭 506에서, 브래킷된 단어들이 식별되면, 이 컴포넌트는 블럭 507로 진행하고, 그렇지 않은 경우 이 컴포넌트는 블럭 503으로 진행하여 다음 분류를 선택한다. 블럭 507에서, 이 컴포넌트는 선택된 문장의 브래킷된 부분 내의 중요 단어들을 카운트한다. 블럭 508에서, 이 컴포넌트는 선택된 문장의 브래킷된 부분 내의 단어들을 카운트한다. 블럭 509에서, 이 컴포넌트는 단어들의 카운트에 의해 나눠지는 중요 단어들의 카운트의 제곱으로서 분류에 대한 스코어를 계산한다. 그 후, 이 컴포넌트는 블럭 503으로 진행하여 다음 분류를 선택한다. 블럭 510에서, 이 컴포넌트는, 선택된 문장의 브래킷된 부분이 식별된 분류의 수에 의해 나눠지는 등급 스코어의 합(즉, 계산된 등급 스코어들의 평균)으로서 선택된 문장에 대한 룬 스코어를 계산한다. 그 후 이 컴포넌트는 블럭 501로 진행하여 다음 문장을 선택한다.

도 6은 일 실시예에서의 은닉 의미 분석 스코어 계산 컴포넌트의 처리를 도시한 흐름도이다. 이 컴포넌트는 웹 페이지를 패싱하고 패싱된 웹 페이지의 각 문장에 대한 은닉 의미 분석 스코어를 계산한다. 블럭 601-603에서, 이 컴포넌트는 이 웹 페이지의 각 문장에 대한 텀 바이 웨이트(term-by-weight) 벡터를 구성하는 처리를 행한다. 블럭 601에서, 이 컴포넌트는 이 웹 페이지의 다음 문장을 선택한다. 판단 블럭 602에서, 이 웹 페이지의 모든 문장들이 이미 선택된 경우, 이 컴포넌트는 블럭 604로 진행하고, 그렇지 않은 경우 이 컴포넌트는 블럭 603으로 진행한다. 블럭 603에서, 이 컴포넌트는 선택된 문장에 대한 텀 바이 웨이트 벡터를 구성한 후 블럭 601로 진행하여 다음 문장을 선택한다. 이 문장들에 대한 텀 바이 웨이트 벡터는 우측 단일 벡터의 행렬을 제공하도록 분해되는 행렬을 생성한다. 블럭 604에서, 이 컴포넌트는 그 행렬의 단일 값 분해를 수행하여 우측 단일 벡터를 생성한다. 블럭 605-607에서, 이 컴포넌트는 이 우측 단일 벡터에 기초하여 각 문장에 대한 스코어를 설정하는 처리를 행한다. 블럭 605에서, 이 컴포넌트는 다음 우측 단일 벡터를 선택한다. 결정 블럭 606에서, 모든 우측 단일 벡터가 이미 선택된 경우, 이 컴포넌트는 은닉 의미 분석 스코어로서 이 스코어들을 리턴하고, 그렇지 않은 경우 이 컴포넌트는 블럭 607로 진행한다. 블럭 607에서, 이 컴포넌트는 선택된 우측 단일 벡터의 가장 높은 인덱스 값을 갖는 문장의 스코어를 설정 한 후, 블럭 605로 진행하여 다음 우측 단일 벡터를 선택한다.

도 7은 일 실시예에서의 컨텐트 보디 스코어 계산 컴포넌트의 처리를 도시한 흐름도이다. 이 컴포넌트는 웹 페이지를 패싱하고 패싱된 웹 페이지의 각 문장에 대한 컨텐트 보디 스코어를 계산한다. 블럭 701에서, 이 컴포넌트는 이 웹 페이지의 기본 오브젝트를 식별한다. 블럭 702에서, 이 컴포넌트는 이 웹 페이지의 복합 오브젝트를 식별한다. 블럭 703-705에서, 이 컴포넌트는 각 오브젝트에 대한 텀 빈도/반전된 도큐먼트 빈도 벡터를 생성하는 처리를 한다. 블럭 703에서, 이 컴포넌트는 다음 오브젝트를 선택한다. 판단 블럭 704에서, 모든 오브젝트들이 이미 선택되었으면, 이 컴포넌트는 블럭 706으로 진행하고, 그렇지 않은 경우 이 컴포넌트는 블럭 705로 진행한다. 블럭 705에서, 이 컴포넌트는 선택된 오브젝트에 대한 텀 빈도/반전된 도큐먼트 빈도 벡터를 생성한 후, 블럭 703으로 진행하여 다음 오브젝트를 선택한다. 블럭 706-710에서, 이 컴포넌트는 오브젝트 쌍들 간의 유사도를 계산하는 처리를 한다. 블럭 706에서, 이 컴포넌트는 다음 오브젝트들의 쌍을 선택한다. 판단 블럭 707에서, 모든 오브젝트 쌍들이 이미 선택된 경우, 이 컴포넌트는 블럭 711로 진행하며, 그렇지 않은 경우, 이 컴포넌트는 블럭 708로 진행한다. 블럭 708에서, 이 컴포넌트는 선택된 오브젝트 쌍 간의 유사도를 계산한다. 판단 블럭 709에서, 이 유사도가 임계 유사도 레벨보다 높은 경우, 이 컴포넌트는 블럭 710으로 진행하고, 그렇지 않은 경우 이 컴포넌트는 블럭 706으로 진행하여 다음 오브젝트 쌍을 선택한다. 블럭 710에서, 이 컴포넌트는 선택된 오브젝트 쌍 간의 링크를 추가한 후, 블럭 706으로 진행하여 다음 오브젝트 쌍을 선택한다. 블 럭 711-715에서, 이 컴포넌트는, 코어 오브젝트 및 이 코어 오브젝트에 대한 링크를 갖는 모든 오브젝트를 식별함으로써 이 웹 페이지의 컨텐트 보디를 식별한다. 블럭 711에서, 이 컴포넌트는 이에 대한 가장 많은 수의 링크를 갖는 오브젝트로서 코어 오브젝트를 식별한다. 블럭 712에서, 이 컴포넌트는 이 웹 페이지의 다음 문장을 선택한다. 판단 블럭 713에서, 모든 문장들이 이미 선택된 경우, 이 컴포넌트는 이 컨텐트 보디 스코어들을 리턴하고, 그렇지 않은 경우 이 컴포넌트는 블럭 714로 진행한다. 판단 블럭 714에서, 이 문장이 이 코어 오브젝트에 링크되어 있는 오브젝트 내에 있는 경우, 이 문장은 컨텐트 보디 내에 있으며, 이 컴포넌트는 블럭 715로 진행하며, 그렇지 않은 경우 이 컴포넌트는 선택된 문장의 스코어를 제로로 설정하고 블럭 712로 진행하여 다음 문장을 선택한다. 블럭 715에서, 이 컴포넌트는 선택된 문장의 스코어를 높은 스코어로 설정한 후 블럭 712로 진행하여 다음 문장을 선택한다.

도 8은 일 실시예에서의 통제 스코어 계산 컴포넌트의 처리를 도시하는 흐름도이다. 이 컴포넌트는 웹 페이지를 패싱하고 이 웹 페이지의 각 문장에 대한 통제 스코어를 계산한다. 블럭 801에서, 이 컴포넌트는 이 웹 페이지의 다음 문장을 선택한다. 판단 블럭 802에서, 이 웹 페이지의 모든 문장들이 이미 선택된 경우, 이 컴포넌트는 이 통제 스코어들을 리턴하며, 그렇지 않은 경우 이 컴포넌트는 블럭 803으로 진행한다. 블럭 803에서, 이 컴포넌트는 이 선택된 문장에 대한 특성 벡터를 생성한다. 블럭 804에서, 이 컴포넌트는 생성된 특성 벡터 및 학습된 요약화 함수를 이용하여 선택된 문장에 대한 스코어를 계산한다. 그 후, 이 컴포넌트 는 블럭 801로 진행하여 다음 문장을 선택한다.

도 9는 일 실시예에서의 스코어 조합 컴포넌트의 처리를 도시하는 흐름도이다. 이 컴포넌트는 룬 스코어, 은닉 의미 분석 스코어, 컨텐트 보디 스코어, 및 통제 스코어에 기초하여 웹 페이지의 각 문장에 대한 조합된 스코어를 생성한다. 블럭 901에서, 이 컴포넌트는 이 웹 페이지의 다음 문장을 선택한다. 판단 블럭 902에서, 모든 문장들이 이미 선택된 경우, 이 컴포넌트는 이 조합된 스코어들을 리턴하고, 그렇지 않은 경우 이 컴포넌트는 블럭 903으로 진행한다. 블럭 903에서, 이 컴포넌트는 이 선택된 문장에 대한 스코어들을 조합한 후, 블럭 901로 진행하여 다음 문장을 선택한다.

당업자라면, 예시를 위해 본 명세서에서 요약화 시스템의 특정 실시예들이 개시되었지만, 본 발명의 정신 및 범주를 벗어나지 않고 여러가지 변경이 가해질 수 있음을 알 것이다. 당업자라면, 분류란 디스플레이 페이지와 관련된 등급 또는 카테고리를 식별하는 처리를 칭함을 알 것이다. 이 등급들은 사전정의될 수 있다. 분류될 디스플레이 페이지의 속성은, 분류된 그 밖의 다른 디스플레이 페이지들(예를 들면, 트레이닝 세트)로부터 얻어지는 속성과 비교될 수 있다. 이 비교에 기초하여, 이 디스플레이 페이지는, 디스플레이 페이지 속성이 분류되어 있는 디스플레이 페이지의 속성과 유사한 등급으로 분류된다. 이와 대조적으로, 클러스터링(clustering)이란, 서로 유사한 디스플레이 페이지들의 한 세트의 디스플레이 페이지 그룹으로부터 식별하는 처리를 칭하는 것이다. 따라서, 본 발명의 첨부된 특허청구범위 이외에는 한정되지 않는다.

본 발명에 따르면, 디스플레이 페이지들의 자동적으로 생성되는 요약들에 기초하여 디스플레이 페이지들을 분류하는 방법 및 시스템이 제공된다.

Claims

컴퓨터 시스템에서 웹 페이지들을 분류하기 위한 방법으로서, 상기 컴퓨터 시스템은 분류 시스템과 요약화 시스템을 포함하며, 상기 방법은,

상기 컴퓨터 시스템에 의해, 웹 페이지를 검색하는 단계;

상기 요약화 시스템에 의해, 컨텐트 보디 요약화 기법(content body summarization technique)과, 분류가 중요 단어의 컬렉션(collection of significant words)을 갖는 변경된 룬 요약화 기법(modified Luhn summarization technique)을 사용하여, 상기 검색된 웹 페이지의 요약(summary)을 자동적으로 생성하는 단계; 및

상기 분류 시스템에 의해, 상기 자동적으로 생성된 요약에 기초하여 상기 검색된 웹 페이지에 대한 분류를 판정하는 단계를 포함하고,

상기 컨텐트 보디 요약화 기법은,

상기 웹 페이지의 오브젝트들(objects)을 식별하는 단계 - 상기 오브젝트들은 문장들(sentences)을 가짐 -;

각 오브젝트에 대한 반전된 도큐먼트 빈도 인덱스(inverted document frequency index)에 의해 용어 빈도(term frequency)를 구축하는 단계;

상기 오브젝트들의 반전된 도큐먼트 빈도 인덱스들에 의한 상기 용어 빈도에 기초하여 오브젝트들의 쌍들 간의 유사도를 계산하는 단계;

한 쌍의 오브젝트들 간의 상기 계산된 유사도가 유사도 임계치를 충족할 때, 상기 한 쌍의 오브젝트들이 상기 임계치를 충족한다는 것을 지시하기 위해 상기 한 쌍의 오브젝트들을 링크(linking)하는 단계;

가장 많은 링크들을 가지는 오브젝트를 상기 웹 페이지의 코어 오브젝트(core object)로서 선택하는 단계;

상기 코어 오브젝트 및 상기 코어 오브젝트와 링크들을 가지는 오브젝트들의 문장들에 높은 스코어들을 할당하고 상기 웹 페이지의 모든 다른 문장들에 낮은 스코어들을 할당하는 단계를 포함하고,

상기 변경된 룬 요약화 기법은,

상기 웹 페이지의 문장을 선택하는 단계;

선택된 분류의 중요 단어들에 의해 브래킷(bracket)되는 상기 선택된 문장의 단어를 식별하는 것에 기초하여 각 분류에 대한 스코어를 계산하는 단계;

상기 선택된 문장의 조합 룬 스코어(combined Luhn score)를 산출하도록, 각 분류에 대한 임계 레벨을 넘는 상기 스코어들을 평균하는 단계를 포함하고,

상기 검색된 웹 페이지의 요약을 자동적으로 생성하는 단계는,

복수의 요약화 기법들을 이용하여 상기 웹 페이지의 각 문장에 대한 조합 스코어를 계산하는 단계를 포함하되, 각 문장에 대한 상기 조합 스코어는 상기 복수의 요약화 기법들의 상기 스코어들의 선형적 조합(linear combination)이며,

상기 웹 페이지의 상기 요약을 생성하기 위해 높은 조합 스코어를 가지는 문장들을 선택하는 단계를 포함하는,

방법.
삭제
제1항에 있어서,

상기 요약을 생성하기 위해 상위 스코어(top score)들을 가지는 상기 문장들이 선택되는,

방법.
제1항에 있어서,

상기 분류를 판정하는 단계에서는,

나이브 베이지안 분류자(Naive Bayesian classifier); 및

서포트 벡터 머신(support vector machine) 중 하나를 이용하는,

방법.
제1항에 있어서,

상기 요약을 자동적으로 생성하는 단계에서는,

은닉 의미 분석 요약화 기법(latent semantic analysis summarization technique); 및

통제 요약화 기법(supervised summarization technique) 중 적어도 하나를 더 이용하는,

방법
삭제
삭제
삭제
삭제
삭제
제1항에 있어서,

상기 요약을 자동적으로 생성하는 단계는,

문장이 상기 웹 페이지의 상기 문장 및 메타데이터 간의 유사도에 기초한 특성을 포함하는 특성들의 세트에 의해 표현되는 통제 요약화 기법을 더 이용하는,

방법.
제1항에 있어서,

상기 요약을 자동적으로 생성하는 단계는,

문장이 상기 웹 페이지에서 하이라이트되어 있는 상기 문장의 단어들에 기초한 특성을 포함하는 특성들의 세트에 의해 표현되는 통제 요약화 기법을 더 이용하는,

방법.
제1항에 있어서,

상기 요약을 자동적으로 생성하는 단계는,

문장이 상기 문장 내의 단어들의 폰트 사이즈에 기초한 특성을 포함하는 특성들의 세트에 의해 표현되는 통제 요약화 기법을 더 이용하는,

방법.
요약화 시스템을 포함하는 컴퓨터 시스템으로 하여금 방법에 의해 디스플레이 페이지에 대한 요약을 생성하는 방법을 수행하게 하는 명령어들을 포함하는 컴퓨터 판독가능 저장 매체로서,

상기 방법은,

상기 요약화 시스템에 의해, 상기 디스플레이 페이지의 각 문장에 대해, 복수의 요약화 기법들에 기초한 스코어를 상기 문장에 할당하는 단계; 및

상기 요약화 시스템에 의해, 상기 디스플레이 페이지의 요약을 생성하기 위해 가장 높은 할당된 스코어들을 가지는 문장들을 선택하는 단계를 포함하되,

상기 복수의 요약화 기법들은 컨텐트 보디 요약화 기법과, 분류가 중요 단어의 컬렉션을 갖는 변경된 룬 요약화 기법을 포함하고,

상기 컨텐트 보디 요약화 기법은

문장들을 가지는 상기 디스플레이 페이지의 오브젝트들의 쌍들 간의 유사도를 계산하는 단계;

한 쌍의 오브젝트들 간의 상기 계산된 유사도가 유사도 임계치를 충족할 때, 상기 한 쌍의 오브젝트들이 상기 임계치를 충족한다는 것을 지시하기 위해 상기 한 쌍의 오브젝트들을 링크하는 단계;

가장 많은 링크들을 가지는 상기 오브젝트를 상기 디스플레이 페이지의 코어 오브젝트로서 선택하는 단계;

상기 코어 오브젝트 및 상기 코어 오브젝트와의 링크들을 가지는 오브젝트들의 문장들에 높은 스코어를 할당하고 모든 다른 문장들에 낮은 스코어를 할당하는 단계를 포함하고,

상기 변경된 룬 요약화 기법은

상기 디스플레이 페이지의 문장을 선택하는 단계;

선택된 분류의 중요 단어들에 의해 브래킷(bracket)되는 상기 선택된 문장의 단어를 식별하는 것에 기초하여 각 분류에 대한 스코어를 계산하는 단계;

상기 선택된 문장의 조합 룬 스코어를 산출하도록, 각 분류에 대한 임계 레벨을 넘는 상기 스코어들을 평균하는 단계를 포함하는,

컴퓨터 판독가능 저장 매체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제