KR101672579B1

KR101672579B1 - 키워드 추출에 관한 시스템 및 방법

Info

Publication number: KR101672579B1
Application number: KR1020137011659A
Authority: KR
Inventors: 조피아 스탄키윅; 사또시 세끼네
Original assignee: 라쿠텐 인코포레이티드
Priority date: 2010-11-05
Filing date: 2011-11-02
Publication date: 2016-11-03
Also published as: US20120117092A1; JP2013544397A; CN103201718A; KR20130142124A; EP2635965A4; US8874568B2; WO2012061462A1; JP5990178B2; EP2635965A1

Abstract

하나의 예시적 양태는: (a) 웹페이지로부터 텍스트를 추출하여 적어도 제1 세트의 후보 키워드들을 생성하고, 언어 처리를 적용하여 적어도 제2 세트의 후보 키워드들을 생성하며, 상기 제1 세트 및 제2 세트의 후보 키워드들을 제1 후보 풀로 결합하는 전처리 유닛; (b) 적어도 상기 제1 후보 풀을 기술하는 데이터를 상기 전처리 유닛으로부터 수신하고 제2 후보 풀을 생성하는 후보 추출 유닛; (c) 적어도 상기 제2 후보 풀을 기술하는 데이터를 수신하고 일반적 특징들 및 언어적 특징들에 대해 상기 제2 후보 풀을 분석하는 특징 추출 유닛; 및 (d) 상기 특징 추출 유닛으로부터 적어도 상기 제2 후보 풀을 기술하는 상기 데이터 및 관련된 데이터를 수신하고, 상기 제2 후보 풀 내의 각 후보가 1차 또는 2차 키워드일 가능성을 판정하는 분류 유닛을 포함하는 컴퓨터 시스템을 포함한다.

Description

키워드 추출에 관한 시스템 및 방법{SYSTEMS AND METHODS REGARDING KEYWORD EXTRACTION}

키워드 추출은 일반적으로 페이지 텍스트로부터 자동으로 선택된 키워드들에 기초하여 웹페이지 내용에 매치되는 광고가 선택되는 문맥 광고 시스템(contextual advertising system)의 핵심 컴포넌트의 역할을 한다. 웹페이지에 관련 있고 따라서 잠재적으로 사용자가 더 관심있어 하는 광고를 디스플레이하기 위해, 텍스트 내에 존재하는 수 많은 특징들이 평가되어 어느 키워드가 그 페이지의 내용을 정확히 반영하는지에 관한 결정을 내릴 필요가 있다.

여기에 설명된 예시적인 실시형태에서, 키워드 추출 시스템은 페이지 url을 입력으로 취하여 시스템에 의해 순위가 매겨진 10개의 키워드 문구를 상위 키워드 후보들로서 반환한다. 시스템은 먼저 웹페이지 텍스트를 처리하고 그 구조를 이용하여 키워드 후보 풀(candidate pool)의 역할을 하는 문구들을 추출한다. 그러면 각 문구는, 웹페이지 상에서의 그 빈도, 텍스트에서의 위치, 대문자 사용 및 그 언어 구조(예를 들어, 그것이 명사구로 이루어져 있는지)와 같은 특징들의 세트에 의해 기술될 수 있다. 사람이 주석을 단(human-annotated) 키워드를 갖는 샘플 웹페이지 컬렉션에 기초하여, 시스템은, 후보 문구가 "좋은" 키워드가 될 것 같은지에 관한 결정에 이러한 특징들이 어떻게 기여하는지를 배운다. 일단 이런 방식으로 훈련되고 나면, 시스템은 이전에 보지 못한 (즉, 훈련 세트 내에 있지 않은) 웹페이지 상의 키워드들을 식별하는데 이용될 수 있다.

다수의 기존 키워드 추출 시스템들은 tf-idf(tf-idf 가중치(용어 빈도-역 문서 빈도)는 정보 검색 및 텍스트 마이닝(mining)에서 종종 이용되는 가중치이다. 이 가중치는 컬렉션이나 코퍼스(corpus) 내의 문서에 대해 소정 단어가 얼마나 중요한지를 평가하는데 이용되는 통계적 측정치이다. 중요성은 문서 내에서 단어가 나타내는 횟수에 비례하여 증가하지만, 코퍼스 내에서의 단어의 빈도에 의해 오프셋된다.)와 같은 통계적 빈도 측정을 채용하는 정보 검색 모델에 의존한다. 예시적인 시스템 실시형태는 개선된 성능을 달성하기 위해 자연 언어 처리 기술을 이용함으로써 이 접근법을 개선시킨다. 하나 이상의 예시적인 실시형태는 문구 구조(phrase structure)에 민감한 신규한 키워드 후보 추출 방법을 채용하고, 더 나은 기계 학습 결과로 이어지는 추가의 언어적 특징을 포함할 수 있다.

하나의 예시적 양태는: (a) 웹페이지로부터 텍스트를 추출하여 적어도 제1 세트의 후보 키워드들을 생성하고, 언어 처리를 적용하여 적어도 제2 세트의 후보 키워드들을 생성하며, 상기 제1 세트 및 제2 세트의 후보 키워드들을 제1 후보 풀로 결합하는 전처리 유닛; (b) 적어도 상기 제1 후보 풀을 기술하는 데이터를 상기 전처리 유닛으로부터 수신하고 제2 후보 풀을 생성하는 후보 추출 유닛; (c) 적어도 상기 제2 후보 풀을 기술하는 데이터를 수신하고 일반적 특징 및 언어적 특징에 대해 상기 제2 후보 풀을 분석하는 특징 추출 유닛; 및 (d) 특징 추출 유닛으로부터 적어도 상기 제2 후보 풀을 기술하는 상기 데이터 및 관련된 데이터를 수신하고, 상기 제2 후보 풀 내의 각 후보가 1차 또는 2차 키워드일 가능성을 판정하는 분류 유닛을 포함하는 컴퓨터 시스템을 포함한다.

하나 이상의 예시적인 실시형태, 및 그 조합에서: (1) 상기 언어 처리의 적어도 일부는 토큰화기(tokenizer) 및 파서(parser)에 의해 수행되고; (2) 상기 언어 처리의 적어도 일부는 토큰화기, 파서, 품사 태거(a part of speech tagger), 및 명명된 엔티티 태거(named entity tagger)에 의해 수행되며; (3) 상기 언어 처리의 적어도 일부는 토큰화기에 의해 수행되고; (4) 상기 언어 처리의 적어도 일부는 파서에 의해 수행되며; (5) 상기 언어 처리의 적어도 일부는 품사 태거에 의해 수행되고; (6) 상기 언어 처리의 적어도 일부는 명명된 엔티티 태거에 의해 수행되고; (7) 상기 제1 세트의 후보 키워드는 메타데이터 텍스트를 포함하고; (8) 상기 제2 후보 풀은 명사구 및 명사열을 포함하고; (9) 상기 제2 후보 풀은, 명사구, 명사열, 및 n-gram을 포함하고; (10) 상기 일반적 특징은, 빈도, 문서에서의 위치, 및 대문자 사용 중 하나 이상을 포함하고; (11) 상기 언어적 특징은, 품사, 구문 구조, 및 명명된 엔티티 정보 중 하나 이상과 관련되고; (12) 상기 일반적 특징은 빈도 특징을 포함하고, 상기 빈도 특징은 상기 웹페이지 내에서의 상대적 용어 빈도와 용어 빈도의 로그(log) 중 하나 이상을 포함하고; (13) 각 후보가 1차 또는 2차 키워드일 가능성에 대한 상기 판정은 주석이 달린 훈련 데이터에 기초하고; (14) 각 후보가 1차 또는 2차 키워드일 가능성의 상기 판정은 복수의 주석자로부터의 주석 입력을 결합함으로써 생성된 훈련 데이터에 기초하고, 각 주석은 1차 키워드와 2차 키워드 사이의 차이을 포함하고; (15) 상기 일반적 특징은 빈도, 문서에서의 위치, 및 대문자 사용을 포함하고, 상기 언어적 특징은 품사, 구문 구조, 및 명명된 엔티티 정보와 관련되고, 및/또는 (16) 상기 일반적 특징은 빈도 특징을 포함하고, 상기 빈도 특징은 상기 웹페이지 내에서의 상대적 용어 빈도와 용어 빈도의 로그 중 하나 이상을 포함하고, 상기 언어적 특징은 품사, 구문 구조, 및 명명된 엔티티 정보와 관련된다.

또 다른 양태는 컴퓨터 처리 시스템에 의해 구현된 단계들을 포함하는 방법을 포함하며, 상기 단계들은: (a) 웹페이지로부터 텍스트를 추출하여 적어도 제1 세트의 후보 키워드들을 생성하고, 언어 처리를 적용하여 적어도 제2 세트의 후보 키워드들을 생성하며, 상기 제1 세트 및 제2 세트의 후보 키워드들을 제1 후보 풀로 결합하는 단계; (b) 적어도 상기 제1 후보 풀을 기술하는 데이터를 수신하고 제2 후보 풀을 생성하는 단계; (c) 적어도 상기 제2 후보 풀을 기술하는 데이터를 수신하고 일반적 특징 및 언어적 특징에 대해 상기 제2 후보 풀을 분석하는 단계; 및 (d) 특징 추출 유닛으로부터 적어도 상기 제2 후보 풀을 기술하는 상기 데이터 및 관련된 데이터를 수신하고, 상기 제2 후보 풀 내의 각 후보가 1차 또는 2차 키워드가 될 가능성을 판정하는 단계를 포함한다.

또 다른 양태는: (a) 웹페이지로부터 텍스트를 추출하여 적어도 제1 세트의 후보 키워드들을 생성하고, 언어 처리를 적용하여 적어도 제2 세트의 후보 키워드들을 생성하며, 상기 제1 세트 및 제2 세트의 후보 키워드들을 제1 후보 풀로 결합하는 단계; (b) 적어도 상기 제1 후보 풀을 기술하는 데이터를 수신하고 제2 후보 풀을 생성하는 단계; (c) 적어도 상기 제2 후보 풀을 기술하는 데이터를 수신하고 일반적 특징 및 언어적 특징에 대해 상기 제2 후보 풀을 분석하는 단계; 및 (d) 상기 특징 추출 유닛으로부터 적어도 상기 제2 후보 풀을 기술하는 상기 데이터 및 관련된 데이터를 수신하고, 상기 제2 후보 풀 내의 각 후보가 1차 또는 2차 키워드가 될 가능성을 판정하는 단계를 포함하는 단계들을 수행하도록 동작할 수 있는 소프트웨어를 저장하는 유형의(tangible) 컴퓨터 판독가능한 매체를 포함한다

당업자에게는, 여기에 제공되는 설명 및 도면들로부터, 다른 양태들 및 실시형태들이 명백할 것이다.

도 1은 예시적인 실시형태의 처리의 개요를 도시한다.
도 2는 예시적인 실시형태가 구현될 수 있는 컴퓨터 시스템을 도시한다.

예시적인 컴퓨터로 구현된 실시형태의 개요가 도 1에 도시되어 있다. 본 기술의 나머지 섹션들에서 각 컴포넌트가 더 상세히 기술된다.

예시적인 전처리 유닛(Exemplary Preprocessing Unit)

예시적인 실시형태에서, 페이지로부터 잠재적 키워드 문구들이 선택될 수 있기 이전에, 페이지의 보통 텍스트(plain text)가 HTML 포맷으로부터 추출될 수 있다. 이어서, 이 텍스트는, 키워드 추출 시스템에 유용할 수 있는 그의 구조에 관한 정보를 얻기 위해 더 처리될 수 있다. 시스템의 전처리 유닛(preprocessing unit)은 바람직하게는 웹페이지 텍스트의 태깅 및 포맷팅(tagging and formatting) 뿐만 아니라 추출을 수행하여, 후속하는 후보 구문 선택 및 특징 추출의 스테이지들을 위한 적절한 입력을 제공한다.

전처리 스테이지에서, BoilerPipe(예를 들어, [9] 참조)를 이용하여 웹페이지로부터 콘텐츠 텍스트가 먼저 추출될 수 있어, 표준문안(boilerplate) 콘텐츠를 제거하고 페이지의 메인 텍스트 바디만을 보존한다. 바디 텍스트 외에, 타이틀, 메타-설명, 및 메타-키워드와 같은 헤더 정보가 추출되고 BoilerPipe 출력과 결합되어 추가 처리를 위한 보통 텍스트 입력을 형성한다.

페이지 텍스트는 토큰화되고 토큰화기 출력은 품사 태거(예를 들어, [18] 참조]) 및 파서(예를 들어, [13] 참조)에 전달될 수 있다. 키워드들은 명사구를 구성하는 경향이 있으므로, 텍스트에서 명사구를 발견하기 위해 파서 출력이 이용될 수 있다. 키워드 후보 추출을 개선하기 위하여, 기본 명사구 청크(basic noun phrase chunk)와는 대조적으로, 계층적 구문 구조에 관한 더 정교한 정보를 얻고자 하는 바람 때문에 청커(chunker) 보다는 파서의 이용이 동기부여될 수 있다.

사람 혹은 조직 이름과 같은 명명된 엔티티("NE(Named Entities)")는 유용한 키워드가 될 수 있기 때문에, 명명된 엔티티들도 역시 웹페이지 텍스트로부터 추출될 수 있다. 더 큰 세트의 엔티티 타입의 커버리지를 제공하기 위하여, 바람직하게는 2개의 상이한 NE 시스템(예를 들어, [18], [4] 참조)이 이용된다.

예시적인 후보 추출 유닛( Exemplary Candidate Extraction Unit )

잠재적 키워드가 되는 구문을 선택하기 위해 후보 추출이 이용될 수 있으며 주어진 구문이 키워드가 될 가능성을 추정하는 분류기에 대한 입력으로서 이용될 수 있다. 또한, 예시적인 분류기 훈련 구문 동안에, 더 나은 정확도의 후보 추출은 키워드가 아닐 것 같은 단어 조합을 필터링하는데 도움을 주므로 부정적인 훈련 샘플들의 양을 줄임으로써, 긍정 대 부정 훈련 데이터의 비율을 개선시킨다(극소수의 긍정 라벨에 의해, 키워드 추출 작업은 긍정과 부정 샘플들 사이에서 불균형을 갖는다).

예시적인 실시형태에서, 키워드 추출 방법은 다음과 같이 수행된다. 우선, 파싱된 텍스트로부터 모든 명사구들을 재귀적으로 추출함으로써 기본 후보 세트가 형성된다. 그 다음, 명사들만으로 구성된 (좌에서 우로 추출된) 모든 후보 서브시퀀스들이 후보 세트에 추가된다(예를 들어, best Nixon camera accessories가 후보라면, Nixon camera accessories, camera accessories, 및 accessories가 후보 세트에 추가될 것이다). 마지막으로, 후보 세트는, 후보 구문으로부터 추출된 모든 유니그램(unigram), 바이그램(bigram), 및 트리그램(trigram)으로 보강된다.

후보 세트는 또한 가장 빈번한 영어 단어들의 스톱리스트(stoplist)에 대하여 필터링될 수 있다. 바람직하게는, 스톱워드(stopword)를 포함하는 유니그램 또는 바이그램이 후보 세트로부터 제거된다. 그러나, 스톱리스트로부터의 단어를 구문의 중간에 포함하는 더 긴 구문들은 유지될 수 있다.

예시적인 키워드 분류 유닛( Exemplary Keyword Classification Unit )

어떤 후보 구문들이 키워드인지를 식별하기 위하여, 예시적인 실시형태는, 구문이 키워드일 확률을 추정하기 위해 입력(후보 구문의 특징)을 이용하는 분류기(classifier)를 채용하고, 출력 라벨(키워드 또는 비-키워드)을 그 구문에 할당한다. 특징 입력을 키워드 라벨에 맵핑하는 분류기 기능은, 지도된 기계 학습(supervised machine learning)을 이용하여 얻어질 수 있다. 즉, 맵핑은, "올바른" 출력 라벨들이 인간 주석자(human annotator)들에 의해 제공된 데이터세트에 기초하여 분류기 시스템(classifier system)에 의해 학습될 수 있다.

예시적 시스템을 위한 분류기를 훈련하기 위해, 최대 엔트로피(ME; maximum entropy) 모델이 이용될 수 있다(이것은 때때로 로지스틱 회귀분석 모델(logistic regression model)이라고 불린다; 소개를 위해 [11]을 참조). ME 모델은 훈련 데이터로부터 제약을 유도하고 훈련 세트에 의해 커버되지 않는 경우 최대 엔트로피의 분포를 가정한다. ME 분류기 입력은, 각 특징과 연관된 가중치를 학습하기 위해 모델에 의해 이용되는, 각 키워드 후보에 대한 값들의 벡터들로 구성된다. 새로운 입력 데이터가 주어지면, 훈련된 분류기는, 그 후보 구문에 대한 입력 값을 고려하여 구문이 키워드일 확률을 계산할 수 있다.

입력 값

가 주어질 경우 라벨 c의 확률은 다음과 같은 공식에 따라 계산될 수 있다:

여기서, f는 합동-특징(입력 벡터와 라벨의 함수)이고

는 그 특징에 할당된 가중치이다.

최대 엔트로피 분류기를 훈련하기 위해, Natural Language Toolkit(NLTK; [1] 참조)에 제공된 Python 라이브러리를 이용할 수 있다. CG(CG란 공액 경사법(Conjugate Gradient method)으로서, 분류기 라이브러리에서 훈련 방법들 중 하나로서 제공되는 희박한 선형 방정식 시스템(sparse linear equation system)을 해결하는 표준 반복적 방법이다. CG는 파이썬(Python) 및 NLTK로 설치될 scipy 패키지(http://www.scipy.org/)를 요구한다.)는 훈련 방법으로서 이용될 수 있다. 그러나, 알고리즘은 유일한 해(unique solution)에 수렴하므로, 훈련 방법의 선택은 분류기 성능에 영향을 미치지 않고, 당업자라면 여기서 설명된 본 발명의 범위로부터 벗어나지 않고도 다른 훈련 방법들이 이용될 수 있다는 것을 인식할 것이다. 예를 들어, 서포트-벡터 머신(support-vector machin)(rbf 커널)([8] 참조)과 같은 다른 학습 방법들이 이용될 수도 있지만, ME 모델을 이용하여 얻어진 결과에 비해 어떠한 개선점도 없다는 것이 본 발명자들에 의해 발견되었다.

긍정 및 부정 훈련 데이터의 불균형으로 인해(즉, 훈련 데이터 내의 대다수의 후보 구문들은 일반적으로 키워드가 아님), 분류기에 의해 할당된 라벨들(키워드 또는 비-키워드)을 이용하지 않기로 하고, 그 대신에, 예를 들어, 주어진 웹페이지에서 가장 높은 확률을 갖는 10개의 후보들을 선택하는, 확률 점수에 직접적으로 기초하여 후보들의 순위를 매길 수 있다.

예시적인 특징들( Exemplary Features )

각각의 키워드 후보에 대해 한 세트의 특징값들이 계산되어 분류기 입력으로서 이용될 수 있다. 특징들의 선택은 분류기 성능에 중요한 역할을 한다. 특징들은 2개의 타입: (a) 일반적, 비-언어적 특징, 및 (b) 언어적 특징으로 구분될 수 있다. 일반적 특징은 [17]에 기술된 시스템에 의해 채용된 특징과 유사할 수 있고, 빈도, 문서 내에서의 위치, 및 대문자 사용과 같은 정보를 포함할 수 있다. 언어적 특징은, 품사(part of speech), 구문 구조(phrase structure), 및 명명된 엔티티 정보(named entity information)를 이용한다. 이 2가지 타입의 특징들이 이하에서 더 상세히 설명된다.

예시적인 분류 특징들

예시적인 일반적 특징들( Exemplary General Features )

예시적인 빈도 특징들

빈도 특징은 TFxIDF(TFxIDF란 용어 빈도-역 문서 빈도를 말하며, 용어의 상대적 중요성을 평가하기 위해 정보 검색에서 이용되는 표준 점수이다. 그것은 문서들의 컬렉션에서 그것의 전체 빈도에 의해 오프셋된 주어진 문서에서의 용어의 빈도에 기초한 것이다. tf에 대한 표준 공식은

이고, 여기서,

는 문서 j에서의 고려중인 용어 i의 발생 횟수이고, idf에 대한 표준 공식은

로서, 이는 용어 i를 포함하는 문서의 개수로 나누어진 컬렉션 내의 모든 문서들의 개수의 로그(log)이다.)와 유사한 정보를 제공한다. 빈도 특징은, 문서 내에서의 상대적 용어 빈도, 용어 빈도의 로그뿐만 아니라 DF(문서 컬렉션 내에서의 빈도) 및 로그 DF 값을 포함할 수 있다. DF 값은 Google Ngram 코퍼스(corpus)로부터의 빈도를 이용하여 근사화될 수 있다. 바람직하게는 유니그램 및 바이그램 빈도 정보만이 DF 계산에 이용된다. 2단어보다 긴 후보 구문에 대해, 구문 내의 모든 바이그램에 대한 DF들의 평균이 DF 값으로서 이용될 수 있다. 상이한 길이의 구문들에 대해 유사한 범위의 값들을 얻기 위하여 평균이 이용될 수 있다. 또한, Google Ngram 코퍼스로부터의 빈도 대신에, 전체 블로그 컬렉션에 대해 계산된 DF 값들이 이용될 수 있다.

2. 타이틀(Title)

후보 구문이 문서의 Title 내에 있는지의 여부

3. 대문자 사용(Capitalization)

대문자가 사용된 단어들은 주어진 문서에서 중요한 용어로서 마킹된 적절한 명칭이나 단어를 포함한다. 예시적인 대문자 사용 특징들은: 키워드 후보 내의 모든 단어들에 대문자가 사용되어 있는지, 및 후보 구문 내의 적어도 하나의 단어에 대문자가 사용되어 있는지의 여부이다.

4. 위치(Location)

단어수당 카운트하는, 문서 내에서의 키워드 후보의 첫 번째 발생의 상대적 위치. 예를 들어, 만일 문서가 20개 단어를 가지며, 후보 구문의 첫 번째 단어가 문서 내에서 5번째 단어이면, 위치 = 5/20 = 0.25.

5. 길이(Length)

후보 구문 내의 단어수

6. URL

후보 구문이 페이지 url 내에 있는지의 여부.

7. Wiki-트래픽

빈번한 검색/질의 항목으로서 키워드 후보들의 인기를 반영하기 위해 위키피디아 트래픽 통계(wikipedia traffic statistics)에 기초한 특징들이 이용될 수 있다. 이러한 특징들의 세트는: 후보 구문이 위키피디아 타이틀인지의 여부(리디렉트 포함), 및 후보 구문에 대한 트래픽 지수(후보가 위키피디아 타이틀이 아니라면 0)를 포함할 수 있다. 트래픽 통계는 소정 기간(예를 들어, 2010년 6월의 20일 기간)에 걸쳐 합계된 시간별 위키피디아 로그에 기초할 수 있다.

예시적인 언어적 특징( Exemplary Linguistic Features )

1. 명사구(Noun Phrases)

후보가 명사구인지 명사구를 포함하는지의 여부

2. 명사(Nouns)

후보 구문이 적어도 하나의 명사를 포함하는지의 여부, 및 후보 구문이 명사만으로 구성되는지의 여부.

3. POS 태그(POS tags)

후보 구문에 할당된 POS(Part of Speech) 태그의 시퀀스.

4. 명명된 엔티티(Named Entities)

키워드 후보가 명명된 엔티티(NE; Named Entity)인지, 키워드 후보가 명명된 엔티티 및 후보에 할당된 명명된 엔티티 태그를 포함하는지의 여부(후보 구문이 NE가 아니면 "O").

5. PMI

PMI(Pointwise mutual information)는 구문이 연어(collocation)일 가능성이 있는지를 반영한다. 후보 구문의 PMI 점수는 다음과 같이 계산될 수 있다:

바이그램의 경우,

여기서, P(w)는 단어나 구문의 상대적 빈도이다.

단일 단어의 경우,

2 단어보다 긴 후보 구문의 경우, PMI는 구문 내의 모든 바이그램에 대한 PMI 점수들의 평균으로 설정될 수 있다.

예시적인 평가 및 데이터( Exemplary Evaluation and Data )

예시적인 훈련 데이터

훈련 데이터는 (블로그 페이지 코퍼스로부터 무작위 선택된; [3] 참조) 500개 웹페이지를 포함할 수 있다. 주석자들은 블로그 페이지로부터 추출된 보통 텍스트로 제시되고, 그 페이지의 내용을 가장 잘 표현하는 키워드를 선택하도록 지시된다. 헤더로부터의 메타 정보는 바람직하게는 주석이 달린 텍스트에 포함되지 않는다. 바람직하게는 단일 페이지에 대해 선택될 수 있는 키워드의 개수에 관해서는 제한이 없다. 추가 페이지들에도 역시 주석이 달리고, 훈련을 위해 사용되지 않는 테스트 세트로서 남겨 둔다.

주석자간 의견일치 및 황금 표준(Inter-annotator agreement and golden standard)

각 페이지에 대해, 키워드들은 바람직하게는 2명의 주석자에 의해 선택된다. 그러나, 이 작업에 관한 주석자간 의견일치는 높지 않을 수 있다(예를 들어, 하나의 구현에서, 주석자들의 카파 점수(kappa score)(Cohen's kappa 계수는 카테고리 작업상의 주석자들 사이의 의견일치를 측정하기 위해 흔히 채용된 통계적 측정이다. 카파는

로서 계산되며, P(A)는 코더들 사이에서 관찰된 의견일치이고, P(E)는 코더들이 우연히 의견일치할 확률이다. 0.6 - 0.7 위의 카파 점수는 "실질적 의견일치"로 간주된다.)는 0.49였다). 낮은 카파 점수는 다음과 같은 이유 때문일 수 있다: 먼저, 주석자들은 단지 부분적 매치인 비슷한 구문들을 태깅할 수 있다. 두 번째, 선택될 수 있는 키워드들의 최대 개수가 명시되지 않을 때, 하나의 주석자는 주어진 텍스트에 대해 또 다른 주석자보다 더 많은 수의 키워드를 선택할 수 있다.

단일 주석자에 의존하지 않는 GS(Golden Standard)를 생성하기 위하여, 양쪽 주석자들로부터의 출력이 결합될 수 있다. 키워드에 주석을 달 때, 주석자들은 그 키워드가 "1차 키워드"인지 "2차 키워드"인지도 선택하도록 지시될 수 있다. 1차 키워드는 문서의 메인 주제 또는 중심 사상을 포착하는 키워드로서 정의될 수 있다. 2차 키워드는 문서에 대한 추가 핵심 정보를 제공하는 중요 문구로서 정의될 수 있다(예를 들어, 사건이 발생한 장소, 언급된 추가적이지만 중요한 지표, 등). 양쪽 주석자들의 선택을 정확히 반영하는 키워드 세트를 생성하기 위해, 다음과 같은 키워드들을 GS으로 유지할 수 있다:

1. (한쪽 주석자 또는 양쪽 모두에 의해) 1차로서 마킹된 모든 키워드들.

2. 양쪽 주석자에 의해 선택된 2차 키워드들.

3. 한 사람만에 의해서만 선택되었지만 다른 주석자에 의해 선택된 1차 키워드에 부분적 매치인 2차 키워드들.

GS를 이용하는 예시적인 실시형태에서, 각 주석자와 표준 사이의 카파 점수는 주석자 1에 대해서는 0.75이고 주석자 2에 대해서는 0.74였다. 1차 및 2차 키워드들에 대한 상세한 의견일치 통계가 이하의 표 2에 도시되어 있다.

예시적인 후보 추출 유닛( Exemplary Candidate Extraction Unit )

전술된 바와 같이, 예시적인 실시형태는 기본 후보 세트로서 명사구를 이용하지만, 명사열과 명사구로부터 추출된 유니그램, 바이그램, 및 트리그램으로 후보 풀을 보강한다.

텍스트로부터 모든 가능한 후보 구문을 얻는 한 종래 기술의 방법은, 길이 n(일반적으로 3-5)까지의 모든 n-그램들을 후보 세트에 포함하는 것이다. 이러한 n-그램 방법의 심각한 단점은, 의미있는 구문이 아닌 및/또는 잠재적 키워드일 것 같지 않은 단어열의 형태로 상당한 노이즈를 도입한다는 것이다. 따라서, n-그램 방법은 정확도가 낮다는 문제가 있다.

대안적인 종래 기술의 방법은 후보를 추출하기 위해 언어적 구조 단서(language structure cue)를 이용하는 것이다. 키워드는 명사구인 경향이 있으므로, 텍스트로부터의 모든 명사구는 후보 풀을 형성하는데 이용될 수 있다. 그러나, 이러한 방법은 n-그램 추출 방법보다 현저하게 낮은 리콜(recall)을 갖는데, 이것은, 많은 잠재적 키워드들이 후보 세트 내에 포함되지 않는다는 것을 의미한다.

n-그램의 위치, 리콜, 및 F-측정 및 명사구 전략들이 본 발명자들에 의해 예시적인 실시형태들의 추출 방법과 비교되었다. 즉, 본 발명자들은, 각 접근법이, 추가의 분류 스테이지 없이 키워드를 선택하는 유일한 방법으로서 이용되었을 경우에 얼마나 효과적인지를 평가하였다. 그 결과는 이하의 표 3에 요약되어 있다.

후보 추출 방법의 비교

표 3에 도시된 바와 같이, n-그램 접근법은 80% 넘는 리콜을 갖지만, 3개의 방법 중 가장 낮은 정확도를 가진다(즉, 후보 세트는 상당한 양의 노이즈를 가진다). 후보로서 명사구를 추출하는 것은 정확도가 증가한다는 이점을 갖지만, 이 방법은 매우 낮은 리콜(단지 26%)을 가져, 잠재적 키워드를 누락할 가능성이 높다.

대조적으로, 본 발명의 방법의 예시적인 실시형태는 명사구 추출에 비해 리콜에 있어서의 개선을 야기한다. 이 접근법의 리콜은 n-그램 방법과 비슷하지만, 정확도는 더 높다. 상이한 방법들이 어떻게 분류기 성능과 결합하는지의 평가 결과가 이하에서 기술된다.

분류기 성능( Classifier performance )

전체 시스템 성능을 평가하기 위해, 본 발명의 시스템에 의해 달성되는 결과들이 [17]에 기초하여 베이스라인과 비교되었다. 베이스라인 시스템에서, 후보 추출 방법은 n-그램 방법이고, 특징들은 일반적인 비언어적 특징(플러스 NP/명사 특징들의 단순 세트)으로 구성된다. (a) 결합된 후보 추출 방법의 이용과 (b) 분류 스테이지에서의 언어적 특징의 추가에 따라 시스템 성능이 어떻게 변경되었는지가 분석되었다.

본 발명의 시스템을 베이스라인에 대비하여 비교할 때, 2개의 평가 기준이 이용되었다:

1. R-Precision(상위 n개 결과 중에서 얼마나 많은 후보가 키워드인가, 여기서 n은 페이지 상의 가능한 키워드의 총 개수).

2. 상위-10위 점수(R-Precision과 유사하지만 상위-10위 결과에서의 컷-오프를 갖는, 즉, 모든 n > 10은 10으로 설정).

상위-10위 측정은, 상위-10위 점수를 갖는 후보들이 키워드 출력으로서 선택될 때 분류기가 추출 시스템으로서 어떻게 수행하는지의 추정을 제공하기 때문에 평가를 위해 이용되었다. 분류기 훈련에서 전혀 사용되지 않은 100개 웹페이지의 홀드-아웃 테스트 세트(held-out test set)에서 시스템 성능이 테스팅되었고(표 4 참조), 500개 페이지 훈련 세트에서 크로스-확인 테스팅이 수행되었다(약 50개 문서들 각각의 10 폴드; 표 5 참조).

홀드-아웃 세트에 대한 상위-10위 점수 결과.

크로스-확인 테스트에 대한 상위-10위 점수 결과.

베이스라인과 본 발명의 시스템 사이의 결과 차이는 통계적으로 의미있다(크로스-확인 결과들에서 양방적 짝비교 t-테스트(two-tailed paired t-test)에 따라, p=0.0001). 베이스라인에 비교한 상대적 개선은 12.55%이다.

관련된 실시형태들(Related Embodiments)

주어진 웹 페이지에 대해 문맥상으로 적절한 광고를 선택하는 것에 대한 2개의 바람직한 접근법이 있다. 한 접근법은 광고 풀(advertisement pool)에 대한 웹페이지 텍스트의 직접적 매칭을 포함한다. 다른 접근법에서는, 페이지와 광고 사이의 매치가 중간 키워드 추출 단계를 포함한다. 각 접근법의 예들이 이하에 주어져 있다.

키워드 추출(Keyword Extraction)

1. KEA [5]

2. GenEx[15], [14]

3. Yihet 외 [17]

4. Hulth [7], [6]

5. 기타: [10], [16]

문맥 광고(Contextual Advertising)

1. Broder 외 [2]

2. Ribeiro-Neto 외 [12].

여기서 설명된 소정 예시의 시스템 및 방법 실시형태들에서, 키워드 추출은 바람직하게는: (a) 품사 태깅 및 파싱과 같은 언어적 처리 뿐만 아니라 웹페이지로부터의 텍스트 추출을 포함하는 전처리; (b) 키워드 후보 구문의 추출; 및 (c) 지도된 기계 학습을 이용한 후보 분류를 포함한다.

본 발명의 시스템 및 방법은, 후보 선택 및 특징 추출 스테이지 양쪽 모두에서, 언어적 정보의 이용으로 인해 개선된 성능을 달성할 수 있다. 예시적인 실시형태는 계층적 구문 구조를 이용하는 후보 선택을 포함하고, 그 결과 후보 풀의 노이즈가 적다. 분류를 위해 이용될 수 있는 특징들은 또한, 품사 및 명명된 엔티티 정보와 같은 언어적 특징을 포함하므로, 그 결과 분류기 성능이 개선된다.

실시형태들은 당업자에게 명백한 컴퓨터 컴포넌트 및 컴퓨터로 구현된 단계들을 포함한다. 예를 들어, 계산과 통신은 전자적으로 수행될 수 있고, 결과는 그래픽 사용자 인터페이스를 이용하여 디스플레이될 수 있다.

예시적인 이러한 시스템이 도 2에 도시되어 있다. 컴퓨터(100)는 네트워크(110)를 통해 서버(130)와 통신한다. 복수의 데이터 소스(120-121)는 또한, 네트워크(110)를 통해, 서버(130), 프로세서(150), 및/또는, 정보를 계산 및/또는 전송하도록 동작할 수 있는 다른 컴포넌트들과 통신한다. 서버(들)(130)은 하나 이상의 저장장치(140), 하나 이상의 프로세서(150), 및 소프트웨어(160)에 결합될 수 있다.

여기서 설명된 계산 및 그 등가물들은, 실시형태에서, 완전히 전자적으로 수행된다. 다른 컴포넌트들 및 컴포넌트들의 조합은 또한, 당업자에게는 명백한 바와 같이, 여기서 설명된 처리 데이터 또는 기타의 계산을 지원하는데 이용될 수 있다. 서버(130)는, 저장 장치(140)로부터 프로세서(들)(150)로 및/로부터의 데이터의 전달, 및 컴퓨터(100)로의 데이터의 전달을 용이하게 할 수 있다. 프로세서(150)는 선택사항으로서 임시 또는 기타의 정보를 저장하는데 이용될 수 있는 로컬 또는 네트워킹된 저장장치(미도시)를 포함하거나 이와 통신할 수 있다. 소프트웨어(160)는, 컴퓨터(100), 프로세서(150)에 로컬로 설치, 및/또는 계산 및 애플리케이션을 용이하게 하기 위해 중앙집중식으로 지원될 수 있다.

설명의 용이성을 위해, 여기에서는 본 발명의 모든 단계나 요소가 컴퓨터 시스템의 일부로서 설명되지는 않지만, 당업자라면 각 단계 또는 요소는 대응하는 컴퓨터 시스템 또는 소프트웨어 컴포넌트를 가질 수 있다는 것을 이해할 것이다. 따라서, 이러한 컴퓨터 시스템 및/또는 소프트웨어 컴포넌트들은 그들의 대응하는 단계들이나 요소들(즉, 그들의 기능)을 설명함으로써 인에이블되며, 본 발명의 범위 내에 있다.

게다가, 컴퓨터 시스템이 특정 기능을 수행하기 위한 프로세서를 갖는 것으로 설명되거나 청구되는 경우, 당업자라면, 이러한 이용은, 예를 들어, 단일의 프로세서가 다양한 프로세서들에 위임된 작업들의 일부 또는 모두를 수행하는 시스템을 배제하는 것으로 해석되어서는 안 된다는 것을 이해할 것이다. 즉, 상세한 설명 및/또는 청구항들에 명시된 프로세서들의 임의의 조합 또는 모두는 동일한 프로세서일 수 있다. 모든 이러한 조합은 본 발명의 범위 내에 있다.

대안으로서 또는 조합하여, 처리하는 것 및 결정을 내리는 것은 디지털 신호 처리기 회로 또는 주문형 집적 회로와 같은 기능적으로 동등한 회로에 의해 수행될 수 있다.

루프와 변수들의 초기화 및 임시 변수의 이용과 같은 많은 판에 박힌 프로그램 요소들은 여기서 설명되지 않는다. 게다가, 달리 명시되지 않는 한, 설명된 단계들의 특정 시퀀스는 단지 예시를 위한 것이며 일반적으로 본 발명의 범위를 벗어나지 않고 변동될 수 있다는 것을 당업자라면 이해할 것이다. 달리 언급하지 않는 한, 여기서 설명된 프로세스들은 순서화된 것은 아니다 - 즉, 프로세스들은 임의의 합리적인 순서로 수행될 수 있다.

여기서 설명된 모든 단계들은 가능한 경우 소프트웨어에 의해 구현될 수 있다는 것을 당업자라면 이해할 것이다. 게다가, 이러한 소프트웨어는 비일시적 컴퓨터 판독가능한 매체 상에 저장가능하고 하나 이상의 컴퓨터 프로세서들에 의해 구현가능한다는 것을 당업자라면 이해할 것이다.

본 발명이 여기서 개요된 예시적 양태의 실시형태와 연계하여 설명되었지만, 많은 대안, 수정, 및 변형이 당업자에게는 명백할 것이다. 따라서, 여기서 개시된 바와 같은 본 발명의 예시적 양태 및 실시형태들은 예시를 위한 것이며, 제한을 위한 것은 아니다. 본 발명의 사상 및 범위로부터 벗어나지 않고 다양한 변경들이 이루어질 수 있다.

Claims

컴퓨터 시스템으로서,
(a) 웹페이지로부터 텍스트를 추출하여 적어도 제1 세트의 후보 키워드들을 생성하고, 언어 처리를 적용하여 적어도 제2 세트의 후보 키워드들을 생성하며, 상기 제1 세트 및 제2 세트의 후보 키워드들을 제1 후보 풀(candidate pool)로 결합하는 전처리 유닛(preprocessing unit);
(b) 적어도 상기 제1 후보 풀을 기술하는 데이터를 상기 전처리 유닛으로부터 수신하고 제2 후보 풀을 생성하는 후보 추출 유닛;
(c) 상기 전처리 유닛과 상기 후보 추출 유닛에 접속되고, 적어도 상기 제2 후보 풀을 기술하는 데이터를 수신하고, 일반적 특징들 및 언어적 특징들에 대해 상기 제2 후보 풀을 분석하는 특징 추출 유닛; 및
(d) 상기 특징 추출 유닛으로부터 적어도 상기 제2 후보 풀을 기술하는 상기 데이터 및 관련된 데이터를 수신하고, 상기 제2 후보 풀 내의 각 후보가 1차 또는 2차 키워드일 가능성을 판정하는 분류 유닛을 포함하고,
상기 각 후보가 1차 또는 2차 키워드일 가능성의 판정은 다수의 주석자로부터 입력되는 주석을 결합함으로써 생성되는 훈련 데이터에 기초하고, 각 주석은 1차 키워드와 2차 키워드 간의 차이를 포함하는, 컴퓨터 시스템.
제1항에 있어서, 상기 언어 처리의 적어도 일부는 토큰화기(tokenizer) 및 파서(parser)에 의해 수행되는 컴퓨터 시스템.
제1항에 있어서, 상기 언어 처리의 적어도 일부는, 토큰화기, 파서, 품사 태거(part of speech tagger), 및 명명된 엔티티 태거(named entity tagger)에 의해 수행되는 컴퓨터 시스템.
제1항에 있어서, 상기 언어 처리의 적어도 일부는 토큰화기에 의해 수행되는 컴퓨터 시스템.
제1항에 있어서, 상기 언어 처리의 적어도 일부는 파서에 의해 수행되는 컴퓨터 시스템.
제1항에 있어서, 상기 언어 처리의 적어도 일부는 품사 태거에 의해 수행되는 컴퓨터 시스템.
제1항에 있어서, 상기 언어 처리의 적어도 일부는 명명된 엔티티 태거에 의해 수행되는 컴퓨터 시스템.
제1항에 있어서, 상기 제1 세트의 후보 키워드들은 메타데이터 텍스트(metadata text)를 포함하는 컴퓨터 시스템.
제1항에 있어서, 상기 제2 후보 풀은 명사구들(noun phrases) 및 명사열들(noun sequences)을 포함하는 컴퓨터 시스템.
제1항에 있어서, 상기 제2 후보 풀은, 명사구들, 명사열들, 및 n-그램들(n-grams)을 포함하는 컴퓨터 시스템.
제1항에 있어서, 상기 일반적 특징들은, 빈도, 문서에서의 위치, 및 대문자 사용(capitalization) 중 하나 이상을 포함하는 컴퓨터 시스템.
제1항에 있어서, 상기 언어적 특징들은, 품사, 구문 구조, 및 명명된 엔티티 정보 중 하나 이상과 관련되는 컴퓨터 시스템.
제1항에 있어서, 상기 일반적 특징들은 빈도 특징들을 포함하고, 상기 빈도 특징들은, 상기 웹페이지 내에서의 상대적 용어 빈도와 용어 빈도의 로그(log) 중 하나 이상을 포함하는 컴퓨터 시스템.
제1항에 있어서, 상기 일반적 특징들은, 빈도, 문서 내에서의 위치, 및 대문자 사용을 포함하고, 상기 언어적 특징들은, 품사, 구문 구조, 및 명명된 엔티티 정보와 관련되는 컴퓨터 시스템.
제1항에 있어서, 상기 일반적 특징들은 빈도 특징들을 포함하고, 상기 빈도 특징들은 상기 웹페이지 내에서의 상대적 용어 빈도와 용어 빈도의 로그(log) 중 하나 이상을 포함하고, 상기 언어적 특징들은, 품사, 구문 구조, 및 명명된 엔티티 정보와 관련되는 컴퓨터 시스템.
제1항 내지 제15항 중 어느 한 항에 있어서, 상기 주석은, 적어도 하나의 주석자에 의해 상기 1차 키워드로서 표시되는 것을 나타내는 제1 주석, 상기 다수의 주석자에 의해 상기 2차 키워드로서 선택되는 것을 나타내는 제2 주석, 및 하나의 주석자에 의해 상기 2차 키워드로서 선택되고 나머지 주석자들에 의해 선택되는 상기 1차 키워드에 부분적으로 매칭되는 것을 나타내는 제3 주석으로부터 선택되는, 컴퓨터 시스템.
컴퓨터 처리 시스템에 의해 구현된 단계들을 포함하는 방법으로서,
(a) 웹페이지로부터 텍스트를 추출하여 적어도 제1 세트의 후보 키워드들을 생성하고, 언어 처리를 적용하여 적어도 제2 세트의 후보 키워드들을 생성하며, 상기 제1 세트 및 제2 세트의 후보 키워드들을 제1 후보 풀로 결합하는 단계;
(b) 적어도 상기 제1 후보 풀을 설명하는 데이터를 수신하고 제2 후보 풀을 생성하는 단계;
(c) 적어도 상기 제2 후보 풀을 기술하는 데이터를 수신하고 일반적 특징들 및 언어적 특징들에 대해 상기 제2 후보 풀을 분석하는 단계; 및
(d) 특징 추출 유닛으로부터 적어도 상기 제2 후보 풀을 기술하는 상기 데이터 및 관련된 데이터를 수신하고, 상기 제2 후보 풀 내의 각 후보가 1차 또는 2차 키워드일 가능성을 판정하는 단계를 포함하고,
상기 각 후보가 1차 또는 2차 키워드일 가능성을 판정하는 단계는 다수의 주석자로부터 입력되는 주석을 결합함으로써 생성되는 훈련 데이터에 기초하고, 각 주석은 1차 키워드와 2차 키워드 간의 차이를 포함하는, 방법.
제17항에 있어서, 상기 주석은, 적어도 하나의 주석자에 의해 상기 1차 키워드로서 표시되는 것을 나타내는 제1 주석, 상기 다수의 주석자에 의해 상기 2차 키워드로서 선택되는 것을 나타내는 제2 주석, 및 하나의 주석자에 의해 상기 2차 키워드로서 선택되고 나머지 주석자들에 의해 선택되는 상기 1차 키워드에 부분적으로 매칭되는 것을 나타내는 제3 주석으로부터 선택되는, 방법.
삭제