KR101203345B1 - 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템 - Google Patents

요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템 Download PDF

Info

Publication number
KR101203345B1
KR101203345B1 KR1020050036077A KR20050036077A KR101203345B1 KR 101203345 B1 KR101203345 B1 KR 101203345B1 KR 1020050036077 A KR1020050036077 A KR 1020050036077A KR 20050036077 A KR20050036077 A KR 20050036077A KR 101203345 B1 KR101203345 B1 KR 101203345B1
Authority
KR
South Korea
Prior art keywords
web page
delete delete
summarization
sentence
classification
Prior art date
Application number
KR1020050036077A
Other languages
English (en)
Other versions
KR20060047636A (ko
Inventor
벤유 장
도우 센
후아-준 젱
웨이-잉 마
젱 첸
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20060047636A publication Critical patent/KR20060047636A/ko
Application granted granted Critical
Publication of KR101203345B1 publication Critical patent/KR101203345B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Abstract

디스플레이 페이지들의 자동적으로 생성되는 요약들에 기초하여 디스플레이 페이지들을 분류하는 방법 및 시스템이 제공된다. 웹 페이지 분류 시스템에서는 웹 페이지 요약화 시스템을 이용하여 웹 페이지들의 요약들을 생성한다. 웹 페이지의 요약에는 그 웹 페이지의 주요 토픽에 가장 밀접하게 관련된 웹 페이지의 문장들이 포함된다. 요약화 시스템에서는 여러 요약화 기법들의 장점들을 조합하여 웹 페이지의 주요 토픽을 나타내는 그 웹 페이지의 문장들을 식별할 수 있다. 일단 요약이 생성되면, 분류 시스템은 통상적인 분류 기법들을 그 요약에 적용하여 그 웹 페이지를 분류할 수 있다. 분류 시스템은 나이브 베이지안 분류자 또는 서포트 벡터 머신과 같은 통상적인 분류 기법들을 이용하여, 요약화 시스템에 의해 생성되는 요약에 기초하여 웹 페이지의 분류를 식별할 수 있다.
요약화 기법, 웹 페이지 분류, 문장, 스코어, 디스플레이 페이지

Description

요약을 이용하여 디스플레이 페이지를 분류하는 방법 및 시스템{METHOD AND SYSTEM FOR CLASSIFYING DISPLAY PAGES USING SUMMARIES}
도 1은 일 실시예에서의 분류 시스템 및 요약화 시스템의 컴포넌트들을 도시한 블럭도.
도 2는 일 실시예에서의 웹 페이지 분류 컴포넌트의 처리를 도시한 흐름도.
도 3은 일 실시예에서의 웹 페이지 요약화 컴포넌트의 처리를 도시한 흐름도.
도 4는 일 실시예에서의 스코어 계산 컴포넌트의 처리를 도시한 흐름도.
도 5는 일 실시예에서의 룬(Luhn) 스코어 계산 컴포넌트의 처리를 도시한 흐름도.
도 6은 일 실시예에서의 은닉 의미 분석(latent semantic analysis) 스코어 계산 컴포넌트의 처리를 도시한 흐름도.
도 7은 일 실시예에서의 컨텐트 보디(content body) 스코어 계산 컴포넌트의 처리를 도시한 흐름도.
도 8은 일 실시예에서의 통제(supervised) 스코어 계산 컴포넌트의 처리를 도시한 흐름도.
도 9는 일 실시예에서의 스코어 조합 컴포넌트의 처리를 도시한 흐름도.
<도면의 주요 부분에 대한 부호의 설명>
110 : 분류 시스템
111 : 웹 페이지 분류 컴포넌트
112 : 분류자 컴포넌트
120 : 요약화 시스템
121 : 웹 페이지 요약화 컴포넌트
122 : 문장 정렬 컴포넌트
123 : 스코어 계산 컴포넌트
124 : 상위 문장 선택 컴포넌트
본 발명은 일반적으로 자동적으로 정보를 분류하는 것에 관한 것이다.
구글(Google) 및 오버추어(Overture)와 같은 많은 검색 엔진 서비스는 인터넷을 통해 액세스할 수 있는 정보를 검색할 수 있게 해준다. 이들 검색 엔진 서비스는, 사용자로 하여금 사용자가 원할 수도 있는 웹 페이지들과 같은 디스플레이 페이지들을 검색할 수 있게 해준다. 사용자가 검색 용어들을 포함하는 검색 요구를 청하면, 검색 엔진 서비스는 이들 검색 용어들과 관련될 수 있는 웹 페이지들을 식별한다. 관련된 웹 페이지들을 신속하게 식별하기 위해, 검색 엔진 서비스는 웹 페이지들에 대한 키워드의 맵핑을 유지할 수 있다. 이 맵핑은 웹(즉, 월드 와이드 웹)을 "크롤링(crawling)"함으로써 생성되어서 각 웹 페이지의 키워드들을 식별할 수 있게 된다. 웹을 크롤링하기 위해, 검색 엔진 서비스는 루트(root) 웹 페이지들의 리스트를 이용하여서 이들 루트 웹 페이지들을 통해 액세스할 수 있는 모든 웹 페이지들을 식별할 수 있다. 임의의 특정 웹 페이지의 키워드들은, 헤드라인의 단어들, 그 웹 페이지의 메타데이터에서 제공되는 단어들, 하이라이트된 단어들 등을 식별하는 것과 같은 여러 공지된 정보 검색 기법을 이용하여 식별될 수 있다. 이 검색 엔진 서비스는, 각 매치의 근접도, 웹 페이지 인기도(예를 들면 구글의 페이지 랭크(PageRank)) 등에 기초하여, 그 검색 요구와 그 웹 페이지의 정보가 얼마나 관련이 있는지를 나타내기 위한 관련 스코어를 생성할 수 있다. 그 후 검색 엔진 서비스는 이들의 랭킹에 기초한 순서대로 이들 웹 페이지에 대한 링크들을 사용자에게 디스플레이한다.
검색 엔진 서비스는 검색 결과로서 많은 웹 페이지들을 리턴할 수도 있지만, 랭크 순서대로 웹 페이지들을 표시하는 것으로 인해, 사용자가 특별히 관심이 있는 웹 페이지들을 실질적으로 찾아내는 것이 어렵게 될 수 있다. 처음에 표시되는 웹 페이지들이 인기있는 토픽에 관한 것일 수 있기 때문에, 잘 알려지지 않은 토픽에 관심이 있는 사용자는 관심있는 웹 페이지를 찾아내기 위해 검색 결과의 많은 페이지들을 스캔할 필요가 있을 수 있다. 사용자가 관심있는 웹 페이지들을 좀 더 용이하게 찾아내도록 하기 위해, 검색 결과의 웹 페이지들은 웹 페이지들의 몇몇 분류 또는 카테고리화에 기초하여 계층적 구조로 표시될 수도 있을 것이다. 예를 들면, 사용자가 "코트 배틀(court battles)"의 검색 요구를 청하는 경우, 검색 결과 에는 스포츠 관련 또는 법률 관련으로 분류될 수 있는 웹 페이지들이 포함될 수 있다. 사용자는 처음에 웹 페이지들의 분류 리스트가 보여질 것을 선호할 수도 있고 이에 따라 사용자는 관심있는 웹 페이지들의 분류를 선택할 수 있게 된다. 예를 들면, 사용자에게는 처음에, 검색 결과의 웹 페이지들이 스포츠 관련 및 법률 관련으로 분류되었음을 나타내는 것이 표시될 수도 있다. 그 후 사용자는 법률 관련된 웹 페이지들을 보기 위해 법률 관련 분류를 선택할 수 있다. 반면에, 스포츠 웹 페이지들은 법률 웹 페이지들보다 인기있기 때문에, 대부분의 인기있는 웹 페이지들이 처음에 표시되는 경우 사용자는 법률 관련 웹 페이지들을 찾아내기 위해 많은 페이지들을 스캔해야 할 것이다.
현재 이용가능한 수많은 웹 페이지들을 수동으로 분류하는 것은 비실용적일 것이다. 텍스트 기반 컨텐트를 분류하는 데에 자동화된 분류 기법들이 이용되어 왔지만, 이들 기법은 웹 페이지들의 분류에 일반적으로 적용할 수 있는 것은 아니다. 웹 페이지들은, 웹 페이지의 주요 토픽과 직접 관련되지 않은 광고 또는 네비게이션 바(bar)와 같은 노이지(noisy) 컨텐트를 포함하는 구조를 갖고 있다. 종래의 텍스트 기반 분류 기법들에서는 웹 페이지를 분류할 때 이러한 노이지 컨텐트를 사용하고 있기 때문에, 이들 기법들은 웹 페이지의 부정확한 분류를 생성할 수도 있을 것이다.
웹 페이지의 분류를 그 웹 페이지의 주요 토픽에 기초하여 행하고 그 웹 페이지의 노이지 컨텐트에는 거의 가중치를 주지 않는, 웹 페이지들에 대한 분류 기법을 갖는 것이 바람직할 것이다.
분류 및 요약화 시스템은 디스플레이 페이지들의 자동적으로 생성되는 요약들에 기초하여 웹 페이지들과 같은 디스플레이 페이지들을 분류한다. 일 실시예에서, 웹 페이지 분류 시스템은 웹 페이지 요약화 시스템을 이용하여 웹 페이지들의 요약들을 생성한다. 웹 페이지의 요약에는 그 웹 페이지의 주요 토픽에 가장 밀접하게 관련된 웹 페이지의 문장들이 포함될 수 있다. 요약화 시스템은 여러 요약화 기법들의 장점들을 조합시켜서 웹 페이지의 주요 토픽을 나타내는 웹 페이지의 문장들을 식별한다. 일단 요약이 생성되면, 분류 시스템은 통상적인 분류 기법들을 그 요약에 적용하여 웹 페이지를 분류할 수 있다.
디스플레이 페이지들의 자동적으로 생성되는 요약들에 기초하여 디스플레이 페이지들을 분류하는 방법 및 시스템이 제공된다. 일 실시예에서, 웹 페이지 분류 시스템은 웹 페이지 요약화 시스템을 이용하여 웹 페이지들의 요약들을 생성한다. 웹 페이지의 요약에는, 그 웹 페이지의 주요 토픽에 가장 밀접하게 관련된 웹 페이지의 문장들이 포함될 수 있다. 일단 요약이 생성되면, 분류 시스템은 통상적인 분류 기법들을 그 요약에 적용하여 웹 페이지를 분류할 수 있다. 요약화 시스템은 여러 요약화 기법들의 장점들을 조합하여 웹 페이지의 주요 토픽을 나타내는 그 웹 페이지의 문장들을 식별할 수 있다. 일 실시예에서 요약화 시스템은, 룬(Luhn) 요약화 기법과, 은닉 의미 분석(latent semantic analysis) 요약화 기법과, 통제(supervised) 요약화 기법들을 개별적으로 혹은 서로 조합하여 사용하여서 요약을 생성한다. 요약화 시스템은 각 요약화 기법들을 이용하여서, 웹 페이지의 각 문장에 대한 요약화 기법에 특정한 스코어를 생성한다. 그 후 요약화 시스템은 문장에 대한 요약화 기법에 특정한 스코어들을 조합하여 그 문장에 대한 전체적인 스코어를 생성한다. 요약화 시스템은 가장 높은 전체 스코어들을 갖는 웹 페이지의 문장들을 선택하여 그 웹 페이지의 요약을 형성한다. 분류 시스템은 나이브 베이지안 분류자(Naive Bayesian classifier) 또는 서포트 벡터 머신(support vector machine)과 같은 통상적인 분류 기법들을 이용하여, 요약화 시스템에 의해 생성되는 요약에 기초하여 웹 페이지의 분류를 식별할 수 있다. 이러한 방식으로, 웹 페이지들은 웹 페이지들의 자동적으로 생성된 요약들에 기초하여 자동적으로 분류될 수 있다.
일 실시예에서, 요약화 시스템에서는 룬 요약화 기법의 변경된 버전을 이용하여 웹 페이지의 각 문장에 대한 룬 스코어를 생성한다. 룬 요약화 기법에서는 문장 내에 있는 "중요한 단어들"에 기초하여 문장에 대한 스코어를 생성한다. 문장에 대한 스코어를 생성하기 위해, 룬 요약화 기법에서는, 소정의 중요하지 않은 단어들의 수 이하인 중요한 단어들에 의해 브래킷(bracket)되는 문장의 일부를 식별한다. 룬 요약화 기법에서는 브래킷된 부분 내의 단어들의 수에 의해 나눠지는 브래킷된 부분 내에 포함되는 중요 단어들의 수의 제곱의 비로서 문장의 스코어를 계산한다(H.P.Luhn의 The Automatic Creation of Literature Abstracts, 2 IBM J. of RES.& DEV. No. 2, 159-65(1958년 4월) 참조). 요약화 시스템은 각 분류에 대한 중요한 단어들의 컬렉션(collection)을 정의함으로써 룬 요약화 기법을 변경한 다. 예를 들면, 스포츠 관련 분류는 "코트", "농구", 및 "스포츠"를 포함하는 중요 단어들의 컬렉션을 가질 수 있고, 반면에 법률 관련 분류는 "코트", "변호사", 및 "범죄자"를 포함하는 중요 단어들의 컬렉션을 가질 수 있다. 요약화 시스템은, 미리 분류된 웹 페이지들의 트레이닝 세트에 기초하여 중요 단어들의 컬렉션을 식별할 수 있다. 요약화 시스템은, 소정의 분류를 갖는 웹 페이지들에 대해 가장 빈번하게 사용되는 단어들을 그 분류에 대한 중요 단어들의 컬렉션으로서 선택할 수 있다. 요약화 시스템은 또한 노이지 컨텐트를 나타낼 수도 있는 컬렉션으로부터 소정의 스톱(stop) 단어들을 제거할 수 있다. 웹 페이지의 문장에 스코어를 매길 때, 변경된 룬 요약화 기법에서는 각 분류에 대한 스코어를 계산한다. 그 후 요약화 기법에서는, 임계 레벨보다 위에 있는 각 분류에 대한 스코어를 평균화하여 그 문장에 대한 조합된 룬 스코어를 제공한다. 요약화 시스템은 가장 높은 룬 스코어들을 갖는 문장들을 선택하여 요약을 생성할 수 있다.
일 실시예에서, 요약화 시스템은 은닉 의미 분석 요약화 기법을 이용하여 웹 페이지의 각 문장에 대한 은닉 의미 분석 스코어를 생성한다. 은닉 의미 분석 요약화 기법에서는 단일 값 분해(singular value decomposition)를 이용하여 각 문장에 대한 스코어를 생성한다. 요약화 시스템은, 각 단어-문장 조합에 대한 가중치 부여된 용어 빈도 값을 포함하는 웹 페이지에 대한 단어-문장 행렬을 생성한다. 이 행렬은 이하와 같이 표현될 수 있다.
A=U∑VT
여기서, A는 단어-문장 행렬을 나타내며, U는 칼럼이 좌측 단일 벡터인 칼럼-정규 직교(orthonormal) 행렬이며, ∑는 대각 원소들이 내림 차순으로 정렬된 네가티브가 아닌 단일 값인 대각 행렬이며, V는 칼럼이 우측 단일 벡터인 정규 직교 행렬이다. 요약화 시스템은, 행렬을 U, ∑, 및 V로 분해한 후, 우측 단일 벡터를 이용하여 그 문장들에 대한 스코어들을 생성한다(Y.H.Gong & X. Liu의 Generic Text Summarization Using Relevance Measure and Latent Semantic Analysis, in PROC. OF THE 24TH ANNUAL INTERNATIONAL ACM SIGIR, New Orleans, Louisiana, 19-25(2001) 참조). 요약화 시스템은 첫 번째 우측 단일 벡터를 선택하고 그 벡터 내의 가장 높은 인덱스 값을 갖는 문장을 선택할 수 있다. 그 후 요약화 시스템은 가장 높은 스코어를 그 문장에 부여한다. 그 후, 요약화 시스템은 두 번째 우측 단일 벡터를 선택하고 두 번째 높은 스코어를 그 벡터 내의 가장 높은 인덱스 값을 갖는 문장에 부여한다. 그 후 요약화 시스템은 유사한 방식으로 계속 진행하여 그 밖의 다른 문장들에 대한 스코어들을 생성한다. 요약화 시스템은 가장 높은 스코어들을 갖는 문장들을 선택하여 그 웹 페이지의 요약을 생성할 수 있다.
일 실시예에서, 요약화 시스템은 컨텐트 보디 요약화 기법을 이용하여 웹 페이지의 각 문장에 대한 컨텐트 보디 스코어를 생성한다. 컨텐트 보디 요약화 기법에서는 웹 페이지의 컨텐트 보디를 식별하고 그 컨텐트 보디 내의 문장들에 높은 스코어를 부여한다. 웹 페이지의 컨텐트 보디를 식별하기 위해, 컨텐트 보디 요약 화 기법에서는 웹 페이지의 기본 오브젝트 및 복합 오브젝트를 식별한다. 기본 오브젝트는 더 이상 분할될 수 없는 가장 작은 정보 영역이다. 예를 들면, HTML에서, 기본 오브젝트는 두 개의 태그 내의 깨질 수 없는 엘리먼트 또는 삽입된 오브젝트이다. 복합 오브젝트는 하나의 기능을 수행하기 위해 조합하는 기본 오브젝트 또는 그 밖의 다른 복합 오브젝트들의 세트이다. 오브젝트들을 식별한 후에, 요약화 시스템은 오브젝트들을, 정보, 네비게이션, 상호작용, 데커레이션(decoration), 또는 특수 기능과 같은 카테고리들로 카테고리화한다. 정보 카테고리는 컨텐트 정보를 나타내는 오브젝트용이며, 네비게이션 카테고리는 네비게이션 가이드를 나타내는 오브젝트용이며, 상호작용 카테고리는 사용자 상호작용(예를 들면, 입력 필드)을 나타내는 오브젝트용이며, 데커레이션 카테고리는 데커레이션을 나타내는 오브젝트용이며, 특수 기능 카테고리는 법률 정보, 컨택트 정보, 로고 정보 등과 같은 정보를 나타내는 오브젝트용이다(J.L,Chen 등의 Function-based Object Model Towards Website Adaptation, PROC. OF WWW10, Hong Kong, China(2001) 참조). 일 실시예에서, 요약화 시스템은 각 오브젝트에 대한 반전된 도큐먼트 빈도 인덱스(즉, TF*IDF)에 의해 용어 빈도를 구축한다. 그 후 요약화 시스템은 코사인 유사도(cosine similarity)와 같은 유사도 계산을 이용하여 오브젝트 쌍들 간의 유사도를 계산한다. 그 쌍의 오브젝트들 간의 유사도가 임계 레벨보다 클 경우, 요약화 시스템은 그 쌍의 오브젝트들을 링크한다. 그 후 요약화 시스템은, 이에 대한 가장 많은 링크를 갖는 오브젝트를, 그 웹 페이지의 주요 토픽을 나타내는 코어 오브젝트로서 식별한다. 그 웹 페이지의 컨텐트 보디는 코어 오브젝트에 대한 링크를 갖 는 각 오브젝트와 함께 코어 오브젝트이다. 요약화 시스템은 컨텐트 보디의 각 문장에 높은 스코어를 부여하며, 그 웹 페이지의 그 밖의 다른 모든 문장에 낮은 스코어를 부여한다. 요약화 시스템은 높은 스코어를 갖는 문장들을 선택하여 그 웹 페이지의 요약을 생성할 수 있다.
일 실시예에서, 요약화 시스템은 통제 요약화 기법을 이용하여 웹 페이지의 각 문장에 대한 통제 스코어를 생성한다. 통제 요약화 기법에서는 트레이닝 데이터를 이용하여 문장이 요약의 부분으로서 선택되어야 하는지의 여부를 식별하는 요약화 함수를 학습한다. 통제 요약화 기법은 특성 벡터에 의해 각 문장을 나타낸다. 일 실시예에서, 통제 요약화 기법은 표 1에서 정의된 특성들을 이용하며, 여기서 fij는 문장 i의 i번째 특성의 값을 나타낸다.
특성 디스크립션
fi1 포함되는 패러그래프 내의 문장 Si의 위치
fi2 Si 내의 단어들의 수인 문장 Si의 길이
fi3 ∑TFw*SFw, 이는 단어들 w의 수 뿐만 아니라, 문장들간의 분포도 고려함, 여기서 TFw는 타겟 웹 페이지 내의 단어 w의 발생 횟수이며, SFw는 타겟 웹 페이지 내의 단어 w를 포함하는 문장들의 수임.
fi4 Si 및 타이틀 간의 유사도, 이는 문장과 타이틀 간의 도트 프로덕트로서 계산될 수 있음.
fi5 웹 페이지 내의 Si 및 모든 텍스트간의 코사인 유사도
fi6 웹 페이지 내의 Si 및 메타데이터간의 코사인 유사도
fi7 Si 내에 있는 특수 단어 세트로부터의 단어의 발생 횟수, 이 특수 단어 세트는 하이라이트된(예를 들면, 이탤릭체, 볼드체, 또는 언더라인으로 표시된) 웹 페이지 내의 단어들을 컬렉팅함으로써 구축될 수 있음.
fi8 Si 내의 단어들의 평균 폰트 사이즈. 일반적으로, 더 높은 중요도를 가진 것에는 웹 페이지 내에서 더 큰 폰트 사이즈가 부여됨.
요약화 시스템은 나이브 베이지안 분류자를 이용하여 요약화 함수를 학습할 수 있다. 요약화 함수는 이하와 같이 표현될 수 있다.
Figure 112005022726378-pat00001
여기서, p(s∈S)는 요약기의 요약률(이는 서로 다른 애플리케이션들에 대해 사전정의될 수 있음)을 나타내며, p(fj)는 각 특성 j에 대한 확률을 나타내며, p(fj|s∈S)는 각 특성 j에 대한 조건부 확률을 나타낸다. 후자의 두 개의 팩터는 트레이닝 세트로부터 측정될 수 있다.
일 실시예에서, 요약화 시스템은 룬 요약화 기법, 은닉 의미 분석 요약화 기법, 컨텐트 보디 요약화 기법, 및 통제 요약화 기법의 스코어들을 조합하여 전체적인 스코어를 생성한다. 스코어들은 이하와 같이 조합된다.
S=Sluhn + Slsa + Scb + Ssup
여기서, S는 조합된 스코어를 나타내며, Sluhn은 룬 스코어를 나타내며, Slsa는 은닉 의미 분석 스코어를 나타내며, Scb는 컨텐트 보디 스코어를 나타내며, Ssup는 통제 스코어를 나타낸다. 다른 대안으로는, 요약화 시스템은 각 요약화 기법 스코어에 가중치 부여된 팩터를 적용하여, 모든 요약화 기법 스코어들이 동일하게 가중치 부여되지는 않도록 한다. 예를 들면, 룬 스코어가, 웹 페이지의 주요 토픽에 대한 문장의 관련성을 보다 정확하게 반영한 것으로 생각되는 경우, 룬 스코어에 대한 가중화 팩터는 .7일 수 있으며, 그 밖의 다른 스코어들에 대한 가중화 팩 터는 각각에 대해 .1일 수 있다. 요약화 기법에 대한 가중화 팩터가 제로에 세트될 경우, 요약화 시스템은 그 요약화 기법을 이용하지 않는다. 당업자라면, 임의의 수의 요약화 기법들이 자신들의 가중치를 제로에 세트되도록 할 수 있음을 알 것이다. 예를 들면, 1의 가중화 팩터가 룬 스코어에 사용되고 그 밖의 다른 스코어에 대해 제로가 사용되는 경우, "조합된" 스코어는 단순히 룬 스코어일 것이다. 또한, 요약화 시스템은 각 요약화 기법 스코어들을 표준화할 수 있다. 요약화 시스템은 또한 요약화 기법 스코어들의 비선형적 조합을 사용할 수 있다. 요약화 시스템은 조합된 가장 높은 스코어들을 갖는 문장들을 선택하여 그 웹 페이지의 요약을 형성할 수 있다.
일 실시예에서, 분류 시스템은 나이브 베이지안 분류자를 이용하여 그 요약에 기초하여 웹 페이지를 분류한다. 나이브 베이지안 분류자는 베이즈 규칙(Bayes' rule)을 이용하며 이는 이하와 같이 정의될 수 있다.
Figure 112005022726378-pat00002
여기서,
Figure 112005022726378-pat00003
는 트레이닝 데이터에서 발생하는 각 카테고리 cj로 빈도를 카운팅함으로써 계산될 수 있으며, |C|는 카테고리들의 수이며, p(wi|cj)는 단어 wi가 등급 cj에서 발생하는 확률을 나타내며, N(wk, di)는 di에서 단어 wk의 발생의 횟수를 나타내며, n은 트레이닝 데이터 내의 단어들의 수를 나타낸다(A.McCallum & K.Nigam의 A Comparison of Event Models for Naive Bayes Text Classification, in AAAl-98 WORKSHOP ON LEARNING FOR TEXT CATEGORIZATION(1998) 참조). wi는 트레이닝 데이터 내에서 작을 수도 있기 때문에, 그 값을 측정하는 데에 라플라스 평활화(Laplace smoothing)가 이용될 수도 있다.
다른 실시예에서, 분류 시스템은 서포트 벡터 머신을 이용하여, 그 요약에 기초하여 웹 페이지를 분류한다. 서포트 벡터 머신은, 가능한 입력의 스페이스 내의 초평면(hyper-surface)을 찾아냄으로써 동작한다. 초평면은 초평면의 가장 가까운 포지티브 및 네거티브 예들 간의 거리를 최대화함으로써 네거티브 예로부터 포지티브 예로 분할하려고 한다. 이로 인해 트레이닝 데이터와 유사하지만 동일하지는 않는 데이터의 정확한 분류가 가능하게 된다. 서포트 벡터 머신을 트레이닝하는 데에 여러 기법들이 이용될 수 있다. 그 중 하나의 기법에서는, 큰 2차 프로그래밍 문제를, 분석적으로 해결될 수 있는 일련의 작은 2차 프로그래밍 문제로 바꾸는 순차적인 최소 최적화 알고리즘을 이용한다(http://research.microsoft.com/~jplatt/smo.html에서의 순차적 최소 최적화 참조).
도 1은 일 실시예에서의 분류 시스템 및 요약화 시스템의 컴포넌트들을 도시한 블럭도이다. 분류 시스템(110)은 웹 페이지 분류 컴포넌트(111) 및 분류자 컴포넌트(112)를 포함한다. 요약화 시스템(120)은 웹 페이지 요약화 컴포넌트(121), 문장 정렬 컴포넌트(122), 스코어 계산 컴포넌트(123), 및 상위 문장 선택 컴포넌 트(124)를 포함한다. 웹 페이지 분류 컴포넌트는 웹 페이지 요약화 컴포넌트를 이용하여 웹 페이지에 대한 요약을 생성하고 그 후, 그 요약에 기초하여 웹 페이지를 분류하기 위해 분류자 컴포넌트를 이용한다. 웹 페이지 요약화 컴포넌트는 스코어 계산 컴포넌트를 이용하여 그 웹 페이지의 각 문장에 대한 스코어를 계산한다. 그 후, 웹 페이지 요약화 컴포넌트는 문장 정렬 컴포넌트를 이용하여 자신들의 스코어들에 기초하여 그 웹 페이지의 문장들을 정렬하고, 상위 문장 선택 컴포넌트는 가장 높은 스코어들을 갖는 문장들을 선택하여 그 웹 페이지의 요약을 생성한다. 스코어 계산 컴포넌트는 룬 스코어 계산 컴포넌트(125), 은닉 의미 분석 스코어 계산 컴포넌트(126), 컨텐트 보디 스코어 계산 콤포넌트(127), 및 통제 스코어 계산 컴포넌트(128)를 이용하여 여러 요약화 기법들에 대한 스코어들을 생성한다. 그 후, 스코어 계산 컴포넌트는 요약화 기법들에 대한 스코어들을 조합하여 각 문장에 대한 전체적인 스코어를 제공한다.
요약화 시스템이 구현되는 컴퓨팅 디바이스는 중앙 처리 장치, 메모리, 입력 장치(예를 들면, 키보드 및 포인팅 장치), 출력 장치(예를 들면, 디스플레이 장치), 및 저장 장치(예를 들면, 디스크 드라이브)를 포함할 수 있다. 메모리 및 저장 장치는 요약화 시스템을 구현하는 인스트럭션들을 포함할 수 있는 컴퓨터 판독가능 매체이다. 또한, 데이터 구조 및 메시지 구조는 통신 링크 상의 신호처럼 데이터 전송 매체를 통하여 저장되거나 전송될 수 있다. 인터넷, 근거리 통신망, 원거리 통신망, 또는 지점간(point-to-point) 다이얼 업(dial-up) 접속과 같은 여러 통신 링크들이 사용될 수 있다.
요약화 시스템은 여러 동작 환경에서 구현될 수 있다. 본 명세서에서 개시되는 동작 환경은 적절한 동작 환경에 대한 단지 일례일 뿐이며 요약화 시스템의 사용 또는 기능의 범주에 대해 임의의 제한을 가하려는 의도는 아니다. 사용하기에 적절할 수 있는 그 밖의 다른 공지된 컴퓨팅 시스템, 환경, 및 구성에는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드 헬드 또는 랩탑 디바이스, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 프로그램가능 소비자 전자기기, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전술한 시스템 또는 디바이스들중 임의의 것을 포함하는 분산 컴퓨팅 환경 등이 포함된다.
요약화 시스템은 하나 이상의 컴퓨터 또는 그 밖의 다른 디바이스들에 의해 실행되는 프로그램 모듈들과 같은 컴퓨터 실행가능한 인스트럭션의 일반적인 문맥으로 기술될 수 있다. 일반적으로, 프로그램 모듈에는, 특정 태스크를 수행하거나 특정 추상 데이터 타입을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조가 포함된다. 전형적으로, 프로그램 모듈의 기능은 여러 실시예에서 요구되는 바와 같이 조합되거나 분배될 수 있다.
도 2는 일 실시예에서의 웹 페이지 분류 컴포넌트의 처리를 도시한 흐름도이다. 이 컴포넌트는 웹 페이지를 패싱(passing)하고 그 분류를 리턴한다. 블럭 201에서, 이 컴포넌트는 웹 페이지 요약화 컴포넌트로 하여금 그 웹 페이지에 대한 요약을 생성하도록 한다. 블럭 202에서, 이 컴포넌트는 나이브 베이지안 분류자 또는 서포트 벡터 머신과 같은 분류자를 이용하여 그 웹 페이지의 요약에 기초하여 그 웹 페이지를 분류한다. 그 후 웹 페이지 컴포넌트는 완료된다.
도 3은 일 실시예에서의 웹 페이지 요약화 컴포넌트의 처리를 도시한 흐름도이다. 이 컴포넌트는 웹 페이지를 패싱하고 그 웹 페이지의 각 문장에 대한 스코어를 계산하여 가장 높은 스코어들을 갖는 문장들을 선택하여 그 웹 페이지의 요약을 생성한다. 블럭 301에서, 이 컴포넌트는 스코어 계산 컴포넌트로 하여금 각 문장에 대한 스코어를 계산하게 한다. 블럭 302에서, 이 컴포넌트는 계산된 스코어들에 기초하여 문장들을 정렬한다. 블럭 303에서, 이 컴포넌트는 상위 스코어들을 갖는 문장들을 선택하여 그 웹 페이지에 대한 요약을 생성한다. 그 후 이 컴포넌트는 이 요약을 리턴한다.
도 4는 일 실시예에서의 스코어 계산 컴포넌트의 처리를 도시한 흐름도이다. 이 컴포넌트는 웹 페이지를 패싱하고 그 웹 페이지의 문장들에 대한 여러 요약화 기법 스코어들을 계산하고, 이들 요약화 기법 스코어들에 기초하여 각 문장에 대한 조합된 스코어를 계산한다. 이와 달리 이 컴포넌트는 오직 하나의 요약화 기법 또는 요약화 기법들의 다양한 조합을 이용하여 스코어를 계산할 수도 있다. 블럭 401에서, 이 컴포넌트는 룬 스코어 계산 컴포넌트로 하여금 그 웹 페이지의 각 문장에 대한 룬 스코어를 계산하게 한다. 블럭 402에서, 이 컴포넌트는, 은닉 의미 분석 스코어 계산 컴포넌트로 하여금 그 웹 페이지의 각 문장에 대한 은닉 의미 분석 스코어를 계산하게 한다. 블럭 403에서, 이 컴포넌트는, 컨텐트 보디 스코어 계산 컴포넌트로 하여금 이 웹 페이지의 각 문장에 대한 컨텐트 보디 스코어를 계산하게 한다. 블럭 404에서, 이 컴포넌트는, 통제 스코어 계산 컴포넌트로 하여금 그 웹 페이지의 각 문장에 대한 통제 스코어를 계산하게 한다. 블럭 405에서, 이 컴포넌트는, 스코어 조합 컴포넌트로 하여금 그 웹 페이지의 각 문장에 대한 조합된 스코어를 계산하게 한다. 그 후 이 컴포넌트는 조합된 스코어들을 리턴한다.
도 5는 일 실시예에서의 룬 스코어 계산 컴포넌트의 처리를 도시한 흐름도이다. 이 컴포넌트는 웹 페이지를 패싱하고 이 패싱된 웹 페이지의 각 문장에 대한 룬 스코어를 계산한다. 블럭 501에서, 이 컴포넌트는 그 웹 페이지의 다음 문장을 선택한다. 판단 블럭 502에서, 그 웹 페이지의 모든 문장들이 이미 선택된 경우, 이 컴포넌트는 상기 룬 스코어들을 리턴하며, 그렇지 않은 경우 이 컴포넌트는 블럭 503으로 진행한다. 블럭 503-509에서, 이 컴포넌트는 각 분류를 위한 선택된 문장에 대한 등급 스코어를 생성하는 처리를 한다. 블럭 503에서, 이 컴포넌트는 다음 분류를 선택한다. 판단 블럭 504에서, 모든 분류가 이미 선택된 경우, 이 컴포넌트는 블럭 510으로 진행하고, 그렇지 않은 경우 컴포넌트는 블럭 505로 진행한다. 블럭 505에서, 이 컴포넌트는 선택된 분류의 중요 단어들에 의해 브래킷되는 선택된 문장들의 단어들을 식별한다. 판단 블럭 506에서, 브래킷된 단어들이 식별되면, 이 컴포넌트는 블럭 507로 진행하고, 그렇지 않은 경우 이 컴포넌트는 블럭 503으로 진행하여 다음 분류를 선택한다. 블럭 507에서, 이 컴포넌트는 선택된 문장의 브래킷된 부분 내의 중요 단어들을 카운트한다. 블럭 508에서, 이 컴포넌트는 선택된 문장의 브래킷된 부분 내의 단어들을 카운트한다. 블럭 509에서, 이 컴포넌트는 단어들의 카운트에 의해 나눠지는 중요 단어들의 카운트의 제곱으로서 분류에 대한 스코어를 계산한다. 그 후, 이 컴포넌트는 블럭 503으로 진행하여 다음 분류를 선택한다. 블럭 510에서, 이 컴포넌트는, 선택된 문장의 브래킷된 부분이 식별된 분류의 수에 의해 나눠지는 등급 스코어의 합(즉, 계산된 등급 스코어들의 평균)으로서 선택된 문장에 대한 룬 스코어를 계산한다. 그 후 이 컴포넌트는 블럭 501로 진행하여 다음 문장을 선택한다.
도 6은 일 실시예에서의 은닉 의미 분석 스코어 계산 컴포넌트의 처리를 도시한 흐름도이다. 이 컴포넌트는 웹 페이지를 패싱하고 패싱된 웹 페이지의 각 문장에 대한 은닉 의미 분석 스코어를 계산한다. 블럭 601-603에서, 이 컴포넌트는 이 웹 페이지의 각 문장에 대한 텀 바이 웨이트(term-by-weight) 벡터를 구성하는 처리를 행한다. 블럭 601에서, 이 컴포넌트는 이 웹 페이지의 다음 문장을 선택한다. 판단 블럭 602에서, 이 웹 페이지의 모든 문장들이 이미 선택된 경우, 이 컴포넌트는 블럭 604로 진행하고, 그렇지 않은 경우 이 컴포넌트는 블럭 603으로 진행한다. 블럭 603에서, 이 컴포넌트는 선택된 문장에 대한 텀 바이 웨이트 벡터를 구성한 후 블럭 601로 진행하여 다음 문장을 선택한다. 이 문장들에 대한 텀 바이 웨이트 벡터는 우측 단일 벡터의 행렬을 제공하도록 분해되는 행렬을 생성한다. 블럭 604에서, 이 컴포넌트는 그 행렬의 단일 값 분해를 수행하여 우측 단일 벡터를 생성한다. 블럭 605-607에서, 이 컴포넌트는 이 우측 단일 벡터에 기초하여 각 문장에 대한 스코어를 설정하는 처리를 행한다. 블럭 605에서, 이 컴포넌트는 다음 우측 단일 벡터를 선택한다. 결정 블럭 606에서, 모든 우측 단일 벡터가 이미 선택된 경우, 이 컴포넌트는 은닉 의미 분석 스코어로서 이 스코어들을 리턴하고, 그렇지 않은 경우 이 컴포넌트는 블럭 607로 진행한다. 블럭 607에서, 이 컴포넌트는 선택된 우측 단일 벡터의 가장 높은 인덱스 값을 갖는 문장의 스코어를 설정 한 후, 블럭 605로 진행하여 다음 우측 단일 벡터를 선택한다.
도 7은 일 실시예에서의 컨텐트 보디 스코어 계산 컴포넌트의 처리를 도시한 흐름도이다. 이 컴포넌트는 웹 페이지를 패싱하고 패싱된 웹 페이지의 각 문장에 대한 컨텐트 보디 스코어를 계산한다. 블럭 701에서, 이 컴포넌트는 이 웹 페이지의 기본 오브젝트를 식별한다. 블럭 702에서, 이 컴포넌트는 이 웹 페이지의 복합 오브젝트를 식별한다. 블럭 703-705에서, 이 컴포넌트는 각 오브젝트에 대한 텀 빈도/반전된 도큐먼트 빈도 벡터를 생성하는 처리를 한다. 블럭 703에서, 이 컴포넌트는 다음 오브젝트를 선택한다. 판단 블럭 704에서, 모든 오브젝트들이 이미 선택되었으면, 이 컴포넌트는 블럭 706으로 진행하고, 그렇지 않은 경우 이 컴포넌트는 블럭 705로 진행한다. 블럭 705에서, 이 컴포넌트는 선택된 오브젝트에 대한 텀 빈도/반전된 도큐먼트 빈도 벡터를 생성한 후, 블럭 703으로 진행하여 다음 오브젝트를 선택한다. 블럭 706-710에서, 이 컴포넌트는 오브젝트 쌍들 간의 유사도를 계산하는 처리를 한다. 블럭 706에서, 이 컴포넌트는 다음 오브젝트들의 쌍을 선택한다. 판단 블럭 707에서, 모든 오브젝트 쌍들이 이미 선택된 경우, 이 컴포넌트는 블럭 711로 진행하며, 그렇지 않은 경우, 이 컴포넌트는 블럭 708로 진행한다. 블럭 708에서, 이 컴포넌트는 선택된 오브젝트 쌍 간의 유사도를 계산한다. 판단 블럭 709에서, 이 유사도가 임계 유사도 레벨보다 높은 경우, 이 컴포넌트는 블럭 710으로 진행하고, 그렇지 않은 경우 이 컴포넌트는 블럭 706으로 진행하여 다음 오브젝트 쌍을 선택한다. 블럭 710에서, 이 컴포넌트는 선택된 오브젝트 쌍 간의 링크를 추가한 후, 블럭 706으로 진행하여 다음 오브젝트 쌍을 선택한다. 블 럭 711-715에서, 이 컴포넌트는, 코어 오브젝트 및 이 코어 오브젝트에 대한 링크를 갖는 모든 오브젝트를 식별함으로써 이 웹 페이지의 컨텐트 보디를 식별한다. 블럭 711에서, 이 컴포넌트는 이에 대한 가장 많은 수의 링크를 갖는 오브젝트로서 코어 오브젝트를 식별한다. 블럭 712에서, 이 컴포넌트는 이 웹 페이지의 다음 문장을 선택한다. 판단 블럭 713에서, 모든 문장들이 이미 선택된 경우, 이 컴포넌트는 이 컨텐트 보디 스코어들을 리턴하고, 그렇지 않은 경우 이 컴포넌트는 블럭 714로 진행한다. 판단 블럭 714에서, 이 문장이 이 코어 오브젝트에 링크되어 있는 오브젝트 내에 있는 경우, 이 문장은 컨텐트 보디 내에 있으며, 이 컴포넌트는 블럭 715로 진행하며, 그렇지 않은 경우 이 컴포넌트는 선택된 문장의 스코어를 제로로 설정하고 블럭 712로 진행하여 다음 문장을 선택한다. 블럭 715에서, 이 컴포넌트는 선택된 문장의 스코어를 높은 스코어로 설정한 후 블럭 712로 진행하여 다음 문장을 선택한다.
도 8은 일 실시예에서의 통제 스코어 계산 컴포넌트의 처리를 도시하는 흐름도이다. 이 컴포넌트는 웹 페이지를 패싱하고 이 웹 페이지의 각 문장에 대한 통제 스코어를 계산한다. 블럭 801에서, 이 컴포넌트는 이 웹 페이지의 다음 문장을 선택한다. 판단 블럭 802에서, 이 웹 페이지의 모든 문장들이 이미 선택된 경우, 이 컴포넌트는 이 통제 스코어들을 리턴하며, 그렇지 않은 경우 이 컴포넌트는 블럭 803으로 진행한다. 블럭 803에서, 이 컴포넌트는 이 선택된 문장에 대한 특성 벡터를 생성한다. 블럭 804에서, 이 컴포넌트는 생성된 특성 벡터 및 학습된 요약화 함수를 이용하여 선택된 문장에 대한 스코어를 계산한다. 그 후, 이 컴포넌트 는 블럭 801로 진행하여 다음 문장을 선택한다.
도 9는 일 실시예에서의 스코어 조합 컴포넌트의 처리를 도시하는 흐름도이다. 이 컴포넌트는 룬 스코어, 은닉 의미 분석 스코어, 컨텐트 보디 스코어, 및 통제 스코어에 기초하여 웹 페이지의 각 문장에 대한 조합된 스코어를 생성한다. 블럭 901에서, 이 컴포넌트는 이 웹 페이지의 다음 문장을 선택한다. 판단 블럭 902에서, 모든 문장들이 이미 선택된 경우, 이 컴포넌트는 이 조합된 스코어들을 리턴하고, 그렇지 않은 경우 이 컴포넌트는 블럭 903으로 진행한다. 블럭 903에서, 이 컴포넌트는 이 선택된 문장에 대한 스코어들을 조합한 후, 블럭 901로 진행하여 다음 문장을 선택한다.
당업자라면, 예시를 위해 본 명세서에서 요약화 시스템의 특정 실시예들이 개시되었지만, 본 발명의 정신 및 범주를 벗어나지 않고 여러가지 변경이 가해질 수 있음을 알 것이다. 당업자라면, 분류란 디스플레이 페이지와 관련된 등급 또는 카테고리를 식별하는 처리를 칭함을 알 것이다. 이 등급들은 사전정의될 수 있다. 분류될 디스플레이 페이지의 속성은, 분류된 그 밖의 다른 디스플레이 페이지들(예를 들면, 트레이닝 세트)로부터 얻어지는 속성과 비교될 수 있다. 이 비교에 기초하여, 이 디스플레이 페이지는, 디스플레이 페이지 속성이 분류되어 있는 디스플레이 페이지의 속성과 유사한 등급으로 분류된다. 이와 대조적으로, 클러스터링(clustering)이란, 서로 유사한 디스플레이 페이지들의 한 세트의 디스플레이 페이지 그룹으로부터 식별하는 처리를 칭하는 것이다. 따라서, 본 발명의 첨부된 특허청구범위 이외에는 한정되지 않는다.
본 발명에 따르면, 디스플레이 페이지들의 자동적으로 생성되는 요약들에 기초하여 디스플레이 페이지들을 분류하는 방법 및 시스템이 제공된다.

Claims (42)

  1. 컴퓨터 시스템에서 웹 페이지들을 분류하기 위한 방법으로서, 상기 컴퓨터 시스템은 분류 시스템과 요약화 시스템을 포함하며, 상기 방법은,
    상기 컴퓨터 시스템에 의해, 웹 페이지를 검색하는 단계;
    상기 요약화 시스템에 의해, 컨텐트 보디 요약화 기법(content body summarization technique)과, 분류가 중요 단어의 컬렉션(collection of significant words)을 갖는 변경된 룬 요약화 기법(modified Luhn summarization technique)을 사용하여, 상기 검색된 웹 페이지의 요약(summary)을 자동적으로 생성하는 단계; 및
    상기 분류 시스템에 의해, 상기 자동적으로 생성된 요약에 기초하여 상기 검색된 웹 페이지에 대한 분류를 판정하는 단계를 포함하고,
    상기 컨텐트 보디 요약화 기법은,
    상기 웹 페이지의 오브젝트들(objects)을 식별하는 단계 - 상기 오브젝트들은 문장들(sentences)을 가짐 -;
    각 오브젝트에 대한 반전된 도큐먼트 빈도 인덱스(inverted document frequency index)에 의해 용어 빈도(term frequency)를 구축하는 단계;
    상기 오브젝트들의 반전된 도큐먼트 빈도 인덱스들에 의한 상기 용어 빈도에 기초하여 오브젝트들의 쌍들 간의 유사도를 계산하는 단계;
    한 쌍의 오브젝트들 간의 상기 계산된 유사도가 유사도 임계치를 충족할 때, 상기 한 쌍의 오브젝트들이 상기 임계치를 충족한다는 것을 지시하기 위해 상기 한 쌍의 오브젝트들을 링크(linking)하는 단계;
    가장 많은 링크들을 가지는 오브젝트를 상기 웹 페이지의 코어 오브젝트(core object)로서 선택하는 단계;
    상기 코어 오브젝트 및 상기 코어 오브젝트와 링크들을 가지는 오브젝트들의 문장들에 높은 스코어들을 할당하고 상기 웹 페이지의 모든 다른 문장들에 낮은 스코어들을 할당하는 단계를 포함하고,
    상기 변경된 룬 요약화 기법은,
    상기 웹 페이지의 문장을 선택하는 단계;
    선택된 분류의 중요 단어들에 의해 브래킷(bracket)되는 상기 선택된 문장의 단어를 식별하는 것에 기초하여 각 분류에 대한 스코어를 계산하는 단계;
    상기 선택된 문장의 조합 룬 스코어(combined Luhn score)를 산출하도록, 각 분류에 대한 임계 레벨을 넘는 상기 스코어들을 평균하는 단계를 포함하고,
    상기 검색된 웹 페이지의 요약을 자동적으로 생성하는 단계는,
    복수의 요약화 기법들을 이용하여 상기 웹 페이지의 각 문장에 대한 조합 스코어를 계산하는 단계를 포함하되, 각 문장에 대한 상기 조합 스코어는 상기 복수의 요약화 기법들의 상기 스코어들의 선형적 조합(linear combination)이며,
    상기 웹 페이지의 상기 요약을 생성하기 위해 높은 조합 스코어를 가지는 문장들을 선택하는 단계를 포함하는,
    방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 요약을 생성하기 위해 상위 스코어(top score)들을 가지는 상기 문장들이 선택되는,
    방법.
  4. 제1항에 있어서,
    상기 분류를 판정하는 단계에서는,
    나이브 베이지안 분류자(Naive Bayesian classifier); 및
    서포트 벡터 머신(support vector machine) 중 하나를 이용하는,
    방법.
  5. 제1항에 있어서,
    상기 요약을 자동적으로 생성하는 단계에서는,
    은닉 의미 분석 요약화 기법(latent semantic analysis summarization technique); 및
    통제 요약화 기법(supervised summarization technique) 중 적어도 하나를 더 이용하는,
    방법
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 제1항에 있어서,
    상기 요약을 자동적으로 생성하는 단계는,
    문장이 상기 웹 페이지의 상기 문장 및 메타데이터 간의 유사도에 기초한 특성을 포함하는 특성들의 세트에 의해 표현되는 통제 요약화 기법을 더 이용하는,
    방법.
  12. 제1항에 있어서,
    상기 요약을 자동적으로 생성하는 단계는,
    문장이 상기 웹 페이지에서 하이라이트되어 있는 상기 문장의 단어들에 기초한 특성을 포함하는 특성들의 세트에 의해 표현되는 통제 요약화 기법을 더 이용하는,
    방법.
  13. 제1항에 있어서,
    상기 요약을 자동적으로 생성하는 단계는,
    문장이 상기 문장 내의 단어들의 폰트 사이즈에 기초한 특성을 포함하는 특성들의 세트에 의해 표현되는 통제 요약화 기법을 더 이용하는,
    방법.
  14. 요약화 시스템을 포함하는 컴퓨터 시스템으로 하여금 방법에 의해 디스플레이 페이지에 대한 요약을 생성하는 방법을 수행하게 하는 명령어들을 포함하는 컴퓨터 판독가능 저장 매체로서,
    상기 방법은,
    상기 요약화 시스템에 의해, 상기 디스플레이 페이지의 각 문장에 대해, 복수의 요약화 기법들에 기초한 스코어를 상기 문장에 할당하는 단계; 및
    상기 요약화 시스템에 의해, 상기 디스플레이 페이지의 요약을 생성하기 위해 가장 높은 할당된 스코어들을 가지는 문장들을 선택하는 단계를 포함하되,
    상기 복수의 요약화 기법들은 컨텐트 보디 요약화 기법과, 분류가 중요 단어의 컬렉션을 갖는 변경된 룬 요약화 기법을 포함하고,
    상기 컨텐트 보디 요약화 기법은
    문장들을 가지는 상기 디스플레이 페이지의 오브젝트들의 쌍들 간의 유사도를 계산하는 단계;
    한 쌍의 오브젝트들 간의 상기 계산된 유사도가 유사도 임계치를 충족할 때, 상기 한 쌍의 오브젝트들이 상기 임계치를 충족한다는 것을 지시하기 위해 상기 한 쌍의 오브젝트들을 링크하는 단계;
    가장 많은 링크들을 가지는 상기 오브젝트를 상기 디스플레이 페이지의 코어 오브젝트로서 선택하는 단계;
    상기 코어 오브젝트 및 상기 코어 오브젝트와의 링크들을 가지는 오브젝트들의 문장들에 높은 스코어를 할당하고 모든 다른 문장들에 낮은 스코어를 할당하는 단계를 포함하고,
    상기 변경된 룬 요약화 기법은
    상기 디스플레이 페이지의 문장을 선택하는 단계;
    선택된 분류의 중요 단어들에 의해 브래킷(bracket)되는 상기 선택된 문장의 단어를 식별하는 것에 기초하여 각 분류에 대한 스코어를 계산하는 단계;
    상기 선택된 문장의 조합 룬 스코어를 산출하도록, 각 분류에 대한 임계 레벨을 넘는 상기 스코어들을 평균하는 단계를 포함하는,
    컴퓨터 판독가능 저장 매체.
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
KR1020050036077A 2004-04-30 2005-04-29 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템 KR101203345B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/836,319 2004-04-30
US10/836,319 US7392474B2 (en) 2004-04-30 2004-04-30 Method and system for classifying display pages using summaries

Publications (2)

Publication Number Publication Date
KR20060047636A KR20060047636A (ko) 2006-05-18
KR101203345B1 true KR101203345B1 (ko) 2012-11-20

Family

ID=34939612

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050036077A KR101203345B1 (ko) 2004-04-30 2005-04-29 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템

Country Status (12)

Country Link
US (2) US7392474B2 (ko)
EP (1) EP1591924B1 (ko)
JP (1) JP2005322245A (ko)
KR (1) KR101203345B1 (ko)
CN (1) CN1758245B (ko)
AT (1) ATE470192T1 (ko)
AU (1) AU2005201766A1 (ko)
BR (1) BRPI0502155A (ko)
CA (1) CA2505957C (ko)
DE (1) DE602005021581D1 (ko)
MX (1) MXPA05004682A (ko)
RU (1) RU2377645C2 (ko)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8868670B2 (en) * 2004-04-27 2014-10-21 Avaya Inc. Method and apparatus for summarizing one or more text messages using indicative summaries
US7392474B2 (en) * 2004-04-30 2008-06-24 Microsoft Corporation Method and system for classifying display pages using summaries
US7707265B2 (en) * 2004-05-15 2010-04-27 International Business Machines Corporation System, method, and service for interactively presenting a summary of a web site
US7475067B2 (en) * 2004-07-09 2009-01-06 Aol Llc Web page performance scoring
US7747618B2 (en) 2005-09-08 2010-06-29 Microsoft Corporation Augmenting user, query, and document triplets using singular value decomposition
US7739254B1 (en) 2005-09-30 2010-06-15 Google Inc. Labeling events in historic news
KR100775852B1 (ko) 2006-01-18 2007-11-13 포스데이타 주식회사 응용 프로그램의 자원 검색 시스템 및 방법
US20080077576A1 (en) * 2006-09-22 2008-03-27 Cuneyt Ozveren Peer-To-Peer Collaboration
US7672912B2 (en) * 2006-10-26 2010-03-02 Microsoft Corporation Classifying knowledge aging in emails using Naïve Bayes Classifier
US20080103849A1 (en) * 2006-10-31 2008-05-01 Forman George H Calculating an aggregate of attribute values associated with plural cases
WO2008053228A2 (en) * 2006-11-01 2008-05-08 Bloxx Limited Methods and systems for web site categorisation training, categorisation and access control
US7617182B2 (en) 2007-01-08 2009-11-10 Microsoft Corporation Document clustering based on entity association rules
US8161369B2 (en) 2007-03-16 2012-04-17 Branchfire, Llc System and method of providing a two-part graphic design and interactive document application
CN101296155B (zh) * 2007-04-23 2011-02-16 华为技术有限公司 对内容分类的方法及系统
CN101452470B (zh) * 2007-10-18 2012-06-06 广州索答信息科技有限公司 摘要式网络搜索引擎系统及其搜索方法与应用
CN101184259B (zh) * 2007-11-01 2010-06-23 浙江大学 垃圾短信中的关键词自动学习及更新方法
US9292601B2 (en) * 2008-01-09 2016-03-22 International Business Machines Corporation Determining a purpose of a document
CN101505295B (zh) * 2008-02-04 2013-01-30 华为技术有限公司 一种内容和类别的关联方法和设备
US8046361B2 (en) * 2008-04-18 2011-10-25 Yahoo! Inc. System and method for classifying tags of content using a hyperlinked corpus of classified web pages
US20110047006A1 (en) * 2009-08-21 2011-02-24 Attenberg Joshua M Systems, methods, and media for rating websites for safe advertising
JP4965623B2 (ja) * 2009-09-30 2012-07-04 インターナショナル・ビジネス・マシーンズ・コーポレーション 所定のソフトウェアの実行パラメータを入力フィールドへ入力することを支援するための方法、システム、およびプログラム
JP2011095905A (ja) * 2009-10-28 2011-05-12 Sony Corp 情報処理装置および方法、並びにプログラム
KR101640051B1 (ko) * 2009-10-30 2016-07-15 라쿠텐 인코포레이티드 특유 콘텐츠 판정 장치, 특유 콘텐츠 판정 방법, 기록 매체, 콘텐츠 생성 장치 및 관련 콘텐츠 삽입 장치
US8732017B2 (en) * 2010-06-01 2014-05-20 Integral Ad Science, Inc. Methods, systems, and media for applying scores and ratings to web pages, web sites, and content for safe and effective online advertising
US9436764B2 (en) * 2010-06-29 2016-09-06 Microsoft Technology Licensing, Llc Navigation to popular search results
US8635061B2 (en) 2010-10-14 2014-01-21 Microsoft Corporation Language identification in multilingual text
JP5492047B2 (ja) * 2010-10-21 2014-05-14 日本電信電話株式会社 購買行動分析装置、購買行動分析方法、購買行動分析プログラム、購買行動分析システム及び制御方法
US10534931B2 (en) 2011-03-17 2020-01-14 Attachmate Corporation Systems, devices and methods for automatic detection and masking of private data
CN102737017B (zh) * 2011-03-31 2015-03-11 北京百度网讯科技有限公司 一种提取页面主题的方法和装置
US20130066814A1 (en) * 2011-09-12 2013-03-14 Volker Bosch System and Method for Automated Classification of Web pages and Domains
US8793252B2 (en) * 2011-09-23 2014-07-29 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation using dynamically-derived topics
US9613135B2 (en) 2011-09-23 2017-04-04 Aol Advertising Inc. Systems and methods for contextual analysis and segmentation of information objects
AU2012327239B8 (en) * 2011-10-14 2015-10-29 Oath Inc. Method and apparatus for automatically summarizing the contents of electronic documents
US9152730B2 (en) 2011-11-10 2015-10-06 Evernote Corporation Extracting principal content from web pages
RU2491622C1 (ru) * 2012-01-25 2013-08-27 Общество С Ограниченной Ответственностью "Центр Инноваций Натальи Касперской" Способ классификации документов по категориям
CN103324622A (zh) * 2012-03-21 2013-09-25 北京百度网讯科技有限公司 一种自动生成首页摘要的方法及装置
US9223861B2 (en) * 2012-05-10 2015-12-29 Yahoo! Inc. Method and system for automatic assignment of identifiers to a graph of entities
US10387911B1 (en) 2012-06-01 2019-08-20 Integral Ad Science, Inc. Systems, methods, and media for detecting suspicious activity
JP5700007B2 (ja) * 2012-09-13 2015-04-15 キヤノンマーケティングジャパン株式会社 情報処理装置、方法、およびプログラム
US20150046562A1 (en) * 2013-08-07 2015-02-12 Convergent Development Limited Web browser orchestration
CN104933055B (zh) * 2014-03-18 2020-01-31 腾讯科技(深圳)有限公司 网页识别方法及网页识别装置
US10021102B2 (en) 2014-10-31 2018-07-10 Aruba Networks, Inc. Leak-proof classification for an application session
CN105786853A (zh) * 2014-12-22 2016-07-20 北京奇虎科技有限公司 一种论坛帖子智能摘要的显示方法和系统
US10387550B2 (en) 2015-04-24 2019-08-20 Hewlett-Packard Development Company, L.P. Text restructuring
WO2016175785A1 (en) * 2015-04-29 2016-11-03 Hewlett-Packard Development Company, L.P. Topic identification based on functional summarization
RU2638015C2 (ru) 2015-06-30 2017-12-08 Общество С Ограниченной Ответственностью "Яндекс" Способ идентификации целевого объекта на веб-странице
US9875429B2 (en) 2015-10-06 2018-01-23 Adobe Systems Incorporated Font attributes for font recognition and similarity
US10074042B2 (en) 2015-10-06 2018-09-11 Adobe Systems Incorporated Font recognition using text localization
US10042880B1 (en) * 2016-01-06 2018-08-07 Amazon Technologies, Inc. Automated identification of start-of-reading location for ebooks
RU2642413C2 (ru) * 2016-02-09 2018-01-24 Общество С Ограниченной Ответственностью "Яндекс" Способ (варианты) и сервер обработки текста
US10007868B2 (en) * 2016-09-19 2018-06-26 Adobe Systems Incorporated Font replacement based on visual similarity
RU2635213C1 (ru) * 2016-09-26 2017-11-09 Самсунг Электроникс Ко., Лтд. Способ суммаризации текста и используемые для его реализации устройство и машиночитаемый носитель информации
US10699062B2 (en) * 2017-08-01 2020-06-30 Samsung Electronics Co., Ltd. Apparatus and method for providing summarized information using an artificial intelligence model
US10248628B2 (en) * 2017-08-15 2019-04-02 Hybris Ag Statistical approach for testing multiple versions of websites
US10579698B2 (en) 2017-08-31 2020-03-03 International Business Machines Corporation Optimizing web pages by minimizing the amount of redundant information
US11290405B2 (en) * 2018-10-10 2022-03-29 Scaramanga Technologies Pvt. Ltd. Method, system and apparatus for providing a contextual keyword collective for communication events in a multicommunication platform environment
US11397776B2 (en) 2019-01-31 2022-07-26 At&T Intellectual Property I, L.P. Systems and methods for automated information retrieval
US10950017B2 (en) 2019-07-08 2021-03-16 Adobe Inc. Glyph weight modification
US11295181B2 (en) 2019-10-17 2022-04-05 Adobe Inc. Preserving document design using font synthesis
CN111797945B (zh) * 2020-08-21 2020-12-15 成都数联铭品科技有限公司 一种文本分类方法
US20230222149A1 (en) * 2022-01-11 2023-07-13 Intuit Inc. Embedding performance optimization through use of a summary model

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030033274A1 (en) 2001-08-13 2003-02-13 International Business Machines Corporation Hub for strategic intelligence
EP1591924A1 (en) 2004-04-30 2005-11-02 Microsoft Corporation Method and system for classifying display pages using summaries

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02254566A (ja) * 1989-03-29 1990-10-15 Nippon Telegr & Teleph Corp <Ntt> 自動抄録生成装置
US5317507A (en) 1990-11-07 1994-05-31 Gallant Stephen I Method for document retrieval and for word sense disambiguation using neural networks
JP2944346B2 (ja) * 1993-01-20 1999-09-06 シャープ株式会社 文書要約装置
US5918240A (en) * 1995-06-28 1999-06-29 Xerox Corporation Automatic method of extracting summarization using feature probabilities
US5864855A (en) 1996-02-26 1999-01-26 The United States Of America As Represented By The Secretary Of The Army Parallel document clustering process
JPH09319768A (ja) * 1996-05-29 1997-12-12 Oki Electric Ind Co Ltd 要点抽出方法
US6359633B1 (en) * 1999-01-15 2002-03-19 Yahoo! Inc. Apparatus and method for abstracting markup language documents
JP4732593B2 (ja) * 1999-05-05 2011-07-27 ウエスト パブリッシング カンパニー ドキュメント分類システム、ドキュメント分類方法およびドキュメント分類ソフトウェア
JP4320491B2 (ja) * 1999-11-18 2009-08-26 ソニー株式会社 文書処理システム、端末装置、文書提供装置、文書処理方法、記録媒体
US7137065B1 (en) * 2000-02-24 2006-11-14 International Business Machines Corporation System and method for classifying electronically posted documents
US6606644B1 (en) 2000-02-24 2003-08-12 International Business Machines Corporation System and technique for dynamic information gathering and targeted advertising in a web based model using a live information selection and analysis tool
US6775677B1 (en) * 2000-03-02 2004-08-10 International Business Machines Corporation System, method, and program product for identifying and describing topics in a collection of electronic documents
US7130848B2 (en) * 2000-08-09 2006-10-31 Gary Martin Oosta Methods for document indexing and analysis
US7607083B2 (en) * 2000-12-12 2009-10-20 Nec Corporation Test summarization using relevance measures and latent semantic analysis
US20020087326A1 (en) * 2000-12-29 2002-07-04 Lee Victor Wai Leung Computer-implemented web page summarization method and system
US20020169770A1 (en) * 2001-04-27 2002-11-14 Kim Brian Seong-Gon Apparatus and method that categorize a collection of documents into a hierarchy of categories that are defined by the collection of documents
US20040205457A1 (en) * 2001-10-31 2004-10-14 International Business Machines Corporation Automatically summarising topics in a collection of electronic documents
US20030221163A1 (en) * 2002-02-22 2003-11-27 Nec Laboratories America, Inc. Using web structure for classifying and describing web pages
US6910037B2 (en) * 2002-03-07 2005-06-21 Koninklijke Philips Electronics N.V. Method and apparatus for providing search results in response to an information search request
US7130837B2 (en) * 2002-03-22 2006-10-31 Xerox Corporation Systems and methods for determining the topic structure of a portion of text
US7065707B2 (en) * 2002-06-24 2006-06-20 Microsoft Corporation Segmenting and indexing web pages using function-based object models
US7292972B2 (en) * 2003-01-30 2007-11-06 Hewlett-Packard Development Company, L.P. System and method for combining text summarizations

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030033274A1 (en) 2001-08-13 2003-02-13 International Business Machines Corporation Hub for strategic intelligence
EP1591924A1 (en) 2004-04-30 2005-11-02 Microsoft Corporation Method and system for classifying display pages using summaries

Also Published As

Publication number Publication date
JP2005322245A (ja) 2005-11-17
EP1591924A1 (en) 2005-11-02
CA2505957A1 (en) 2005-10-30
KR20060047636A (ko) 2006-05-18
EP1591924B1 (en) 2010-06-02
CN1758245B (zh) 2010-09-08
CA2505957C (en) 2014-10-21
BRPI0502155A (pt) 2006-01-10
US7392474B2 (en) 2008-06-24
MXPA05004682A (es) 2005-11-17
ATE470192T1 (de) 2010-06-15
US20090119284A1 (en) 2009-05-07
RU2377645C2 (ru) 2009-12-27
AU2005201766A1 (en) 2005-11-17
RU2005113190A (ru) 2006-11-10
DE602005021581D1 (de) 2010-07-15
CN1758245A (zh) 2006-04-12
US20050246410A1 (en) 2005-11-03

Similar Documents

Publication Publication Date Title
KR101203345B1 (ko) 요약을 이용하여 디스플레이 페이지를 분류하는 방법 및시스템
Wang et al. A machine learning based approach for table detection on the web
US9256667B2 (en) Method and system for information discovery and text analysis
Liu et al. Special issue on web content mining
US7289985B2 (en) Enhanced document retrieval
US7363279B2 (en) Method and system for calculating importance of a block within a display page
CN103049435B (zh) 文本细粒度情感分析方法及装置
US7895148B2 (en) Classifying functions of web blocks based on linguistic features
US20070112720A1 (en) Two stage search
US20200004792A1 (en) Automated website data collection method
Gasparetti Modeling user interests from web browsing activities
Bansal et al. Searching the Blogosphere.
Timonen Term weighting in short documents for document categorization, keyword extraction and query expansion
Selvadurai A natural language processing based web mining system for social media analysis
Nie et al. Webpage understanding: beyond page-level search
Mason An n-gram based approach to the automatic classification of web pages by genre
Dorado Focused Crawling: algorithm survey and new approaches with a manual analysis
Manjula et al. An efficient approach for indexing web pages using various similarity features
Pasolini Learning methods and algorithms for semantic text classification across multiple domains
Vasavi et al. Web Mining System in a Natural Language Processing Based for Social Media Analysis
Ye et al. E-Business Platform Information Search Services
Fung et al. Intelligent Informatics
Dalkilic et al. Biological Knowledge through Ontologies and TFIDF
Eick et al. A visualization testbed for analyzing the performance of computational linguistics algorithms
RAI CONTEXT DETECTION IN WEB QUERIES

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151016

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20161019

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20171018

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20181018

Year of fee payment: 7