KR101672579B1 - 키워드 추출에 관한 시스템 및 방법 - Google Patents

키워드 추출에 관한 시스템 및 방법 Download PDF

Info

Publication number
KR101672579B1
KR101672579B1 KR1020137011659A KR20137011659A KR101672579B1 KR 101672579 B1 KR101672579 B1 KR 101672579B1 KR 1020137011659 A KR1020137011659 A KR 1020137011659A KR 20137011659 A KR20137011659 A KR 20137011659A KR 101672579 B1 KR101672579 B1 KR 101672579B1
Authority
KR
South Korea
Prior art keywords
candidate
keyword
computer system
pool
candidate pool
Prior art date
Application number
KR1020137011659A
Other languages
English (en)
Other versions
KR20130142124A (ko
Inventor
조피아 스탄키윅
사또시 세끼네
Original Assignee
라쿠텐 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 라쿠텐 인코포레이티드 filed Critical 라쿠텐 인코포레이티드
Publication of KR20130142124A publication Critical patent/KR20130142124A/ko
Application granted granted Critical
Publication of KR101672579B1 publication Critical patent/KR101672579B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

하나의 예시적 양태는: (a) 웹페이지로부터 텍스트를 추출하여 적어도 제1 세트의 후보 키워드들을 생성하고, 언어 처리를 적용하여 적어도 제2 세트의 후보 키워드들을 생성하며, 상기 제1 세트 및 제2 세트의 후보 키워드들을 제1 후보 풀로 결합하는 전처리 유닛; (b) 적어도 상기 제1 후보 풀을 기술하는 데이터를 상기 전처리 유닛으로부터 수신하고 제2 후보 풀을 생성하는 후보 추출 유닛; (c) 적어도 상기 제2 후보 풀을 기술하는 데이터를 수신하고 일반적 특징들 및 언어적 특징들에 대해 상기 제2 후보 풀을 분석하는 특징 추출 유닛; 및 (d) 상기 특징 추출 유닛으로부터 적어도 상기 제2 후보 풀을 기술하는 상기 데이터 및 관련된 데이터를 수신하고, 상기 제2 후보 풀 내의 각 후보가 1차 또는 2차 키워드일 가능성을 판정하는 분류 유닛을 포함하는 컴퓨터 시스템을 포함한다.

Description

키워드 추출에 관한 시스템 및 방법{SYSTEMS AND METHODS REGARDING KEYWORD EXTRACTION}
키워드 추출은 일반적으로 페이지 텍스트로부터 자동으로 선택된 키워드들에 기초하여 웹페이지 내용에 매치되는 광고가 선택되는 문맥 광고 시스템(contextual advertising system)의 핵심 컴포넌트의 역할을 한다. 웹페이지에 관련 있고 따라서 잠재적으로 사용자가 더 관심있어 하는 광고를 디스플레이하기 위해, 텍스트 내에 존재하는 수 많은 특징들이 평가되어 어느 키워드가 그 페이지의 내용을 정확히 반영하는지에 관한 결정을 내릴 필요가 있다.
여기에 설명된 예시적인 실시형태에서, 키워드 추출 시스템은 페이지 url을 입력으로 취하여 시스템에 의해 순위가 매겨진 10개의 키워드 문구를 상위 키워드 후보들로서 반환한다. 시스템은 먼저 웹페이지 텍스트를 처리하고 그 구조를 이용하여 키워드 후보 풀(candidate pool)의 역할을 하는 문구들을 추출한다. 그러면 각 문구는, 웹페이지 상에서의 그 빈도, 텍스트에서의 위치, 대문자 사용 및 그 언어 구조(예를 들어, 그것이 명사구로 이루어져 있는지)와 같은 특징들의 세트에 의해 기술될 수 있다. 사람이 주석을 단(human-annotated) 키워드를 갖는 샘플 웹페이지 컬렉션에 기초하여, 시스템은, 후보 문구가 "좋은" 키워드가 될 것 같은지에 관한 결정에 이러한 특징들이 어떻게 기여하는지를 배운다. 일단 이런 방식으로 훈련되고 나면, 시스템은 이전에 보지 못한 (즉, 훈련 세트 내에 있지 않은) 웹페이지 상의 키워드들을 식별하는데 이용될 수 있다.
다수의 기존 키워드 추출 시스템들은 tf-idf(tf-idf 가중치(용어 빈도-역 문서 빈도)는 정보 검색 및 텍스트 마이닝(mining)에서 종종 이용되는 가중치이다. 이 가중치는 컬렉션이나 코퍼스(corpus) 내의 문서에 대해 소정 단어가 얼마나 중요한지를 평가하는데 이용되는 통계적 측정치이다. 중요성은 문서 내에서 단어가 나타내는 횟수에 비례하여 증가하지만, 코퍼스 내에서의 단어의 빈도에 의해 오프셋된다.)와 같은 통계적 빈도 측정을 채용하는 정보 검색 모델에 의존한다. 예시적인 시스템 실시형태는 개선된 성능을 달성하기 위해 자연 언어 처리 기술을 이용함으로써 이 접근법을 개선시킨다. 하나 이상의 예시적인 실시형태는 문구 구조(phrase structure)에 민감한 신규한 키워드 후보 추출 방법을 채용하고, 더 나은 기계 학습 결과로 이어지는 추가의 언어적 특징을 포함할 수 있다.
하나의 예시적 양태는: (a) 웹페이지로부터 텍스트를 추출하여 적어도 제1 세트의 후보 키워드들을 생성하고, 언어 처리를 적용하여 적어도 제2 세트의 후보 키워드들을 생성하며, 상기 제1 세트 및 제2 세트의 후보 키워드들을 제1 후보 풀로 결합하는 전처리 유닛; (b) 적어도 상기 제1 후보 풀을 기술하는 데이터를 상기 전처리 유닛으로부터 수신하고 제2 후보 풀을 생성하는 후보 추출 유닛; (c) 적어도 상기 제2 후보 풀을 기술하는 데이터를 수신하고 일반적 특징 및 언어적 특징에 대해 상기 제2 후보 풀을 분석하는 특징 추출 유닛; 및 (d) 특징 추출 유닛으로부터 적어도 상기 제2 후보 풀을 기술하는 상기 데이터 및 관련된 데이터를 수신하고, 상기 제2 후보 풀 내의 각 후보가 1차 또는 2차 키워드일 가능성을 판정하는 분류 유닛을 포함하는 컴퓨터 시스템을 포함한다.
하나 이상의 예시적인 실시형태, 및 그 조합에서: (1) 상기 언어 처리의 적어도 일부는 토큰화기(tokenizer) 및 파서(parser)에 의해 수행되고; (2) 상기 언어 처리의 적어도 일부는 토큰화기, 파서, 품사 태거(a part of speech tagger), 및 명명된 엔티티 태거(named entity tagger)에 의해 수행되며; (3) 상기 언어 처리의 적어도 일부는 토큰화기에 의해 수행되고; (4) 상기 언어 처리의 적어도 일부는 파서에 의해 수행되며; (5) 상기 언어 처리의 적어도 일부는 품사 태거에 의해 수행되고; (6) 상기 언어 처리의 적어도 일부는 명명된 엔티티 태거에 의해 수행되고; (7) 상기 제1 세트의 후보 키워드는 메타데이터 텍스트를 포함하고; (8) 상기 제2 후보 풀은 명사구 및 명사열을 포함하고; (9) 상기 제2 후보 풀은, 명사구, 명사열, 및 n-gram을 포함하고; (10) 상기 일반적 특징은, 빈도, 문서에서의 위치, 및 대문자 사용 중 하나 이상을 포함하고; (11) 상기 언어적 특징은, 품사, 구문 구조, 및 명명된 엔티티 정보 중 하나 이상과 관련되고; (12) 상기 일반적 특징은 빈도 특징을 포함하고, 상기 빈도 특징은 상기 웹페이지 내에서의 상대적 용어 빈도와 용어 빈도의 로그(log) 중 하나 이상을 포함하고; (13) 각 후보가 1차 또는 2차 키워드일 가능성에 대한 상기 판정은 주석이 달린 훈련 데이터에 기초하고; (14) 각 후보가 1차 또는 2차 키워드일 가능성의 상기 판정은 복수의 주석자로부터의 주석 입력을 결합함으로써 생성된 훈련 데이터에 기초하고, 각 주석은 1차 키워드와 2차 키워드 사이의 차이을 포함하고; (15) 상기 일반적 특징은 빈도, 문서에서의 위치, 및 대문자 사용을 포함하고, 상기 언어적 특징은 품사, 구문 구조, 및 명명된 엔티티 정보와 관련되고, 및/또는 (16) 상기 일반적 특징은 빈도 특징을 포함하고, 상기 빈도 특징은 상기 웹페이지 내에서의 상대적 용어 빈도와 용어 빈도의 로그 중 하나 이상을 포함하고, 상기 언어적 특징은 품사, 구문 구조, 및 명명된 엔티티 정보와 관련된다.
또 다른 양태는 컴퓨터 처리 시스템에 의해 구현된 단계들을 포함하는 방법을 포함하며, 상기 단계들은: (a) 웹페이지로부터 텍스트를 추출하여 적어도 제1 세트의 후보 키워드들을 생성하고, 언어 처리를 적용하여 적어도 제2 세트의 후보 키워드들을 생성하며, 상기 제1 세트 및 제2 세트의 후보 키워드들을 제1 후보 풀로 결합하는 단계; (b) 적어도 상기 제1 후보 풀을 기술하는 데이터를 수신하고 제2 후보 풀을 생성하는 단계; (c) 적어도 상기 제2 후보 풀을 기술하는 데이터를 수신하고 일반적 특징 및 언어적 특징에 대해 상기 제2 후보 풀을 분석하는 단계; 및 (d) 특징 추출 유닛으로부터 적어도 상기 제2 후보 풀을 기술하는 상기 데이터 및 관련된 데이터를 수신하고, 상기 제2 후보 풀 내의 각 후보가 1차 또는 2차 키워드가 될 가능성을 판정하는 단계를 포함한다.
또 다른 양태는: (a) 웹페이지로부터 텍스트를 추출하여 적어도 제1 세트의 후보 키워드들을 생성하고, 언어 처리를 적용하여 적어도 제2 세트의 후보 키워드들을 생성하며, 상기 제1 세트 및 제2 세트의 후보 키워드들을 제1 후보 풀로 결합하는 단계; (b) 적어도 상기 제1 후보 풀을 기술하는 데이터를 수신하고 제2 후보 풀을 생성하는 단계; (c) 적어도 상기 제2 후보 풀을 기술하는 데이터를 수신하고 일반적 특징 및 언어적 특징에 대해 상기 제2 후보 풀을 분석하는 단계; 및 (d) 상기 특징 추출 유닛으로부터 적어도 상기 제2 후보 풀을 기술하는 상기 데이터 및 관련된 데이터를 수신하고, 상기 제2 후보 풀 내의 각 후보가 1차 또는 2차 키워드가 될 가능성을 판정하는 단계를 포함하는 단계들을 수행하도록 동작할 수 있는 소프트웨어를 저장하는 유형의(tangible) 컴퓨터 판독가능한 매체를 포함한다
당업자에게는, 여기에 제공되는 설명 및 도면들로부터, 다른 양태들 및 실시형태들이 명백할 것이다.
도 1은 예시적인 실시형태의 처리의 개요를 도시한다.
도 2는 예시적인 실시형태가 구현될 수 있는 컴퓨터 시스템을 도시한다.
예시적인 컴퓨터로 구현된 실시형태의 개요가 도 1에 도시되어 있다. 본 기술의 나머지 섹션들에서 각 컴포넌트가 더 상세히 기술된다.
예시적인 전처리 유닛(Exemplary Preprocessing Unit)
예시적인 실시형태에서, 페이지로부터 잠재적 키워드 문구들이 선택될 수 있기 이전에, 페이지의 보통 텍스트(plain text)가 HTML 포맷으로부터 추출될 수 있다. 이어서, 이 텍스트는, 키워드 추출 시스템에 유용할 수 있는 그의 구조에 관한 정보를 얻기 위해 더 처리될 수 있다. 시스템의 전처리 유닛(preprocessing unit)은 바람직하게는 웹페이지 텍스트의 태깅 및 포맷팅(tagging and formatting) 뿐만 아니라 추출을 수행하여, 후속하는 후보 구문 선택 및 특징 추출의 스테이지들을 위한 적절한 입력을 제공한다.
전처리 스테이지에서, BoilerPipe(예를 들어, [9] 참조)를 이용하여 웹페이지로부터 콘텐츠 텍스트가 먼저 추출될 수 있어, 표준문안(boilerplate) 콘텐츠를 제거하고 페이지의 메인 텍스트 바디만을 보존한다. 바디 텍스트 외에, 타이틀, 메타-설명, 및 메타-키워드와 같은 헤더 정보가 추출되고 BoilerPipe 출력과 결합되어 추가 처리를 위한 보통 텍스트 입력을 형성한다.
페이지 텍스트는 토큰화되고 토큰화기 출력은 품사 태거(예를 들어, [18] 참조]) 및 파서(예를 들어, [13] 참조)에 전달될 수 있다. 키워드들은 명사구를 구성하는 경향이 있으므로, 텍스트에서 명사구를 발견하기 위해 파서 출력이 이용될 수 있다. 키워드 후보 추출을 개선하기 위하여, 기본 명사구 청크(basic noun phrase chunk)와는 대조적으로, 계층적 구문 구조에 관한 더 정교한 정보를 얻고자 하는 바람 때문에 청커(chunker) 보다는 파서의 이용이 동기부여될 수 있다.
사람 혹은 조직 이름과 같은 명명된 엔티티("NE(Named Entities)")는 유용한 키워드가 될 수 있기 때문에, 명명된 엔티티들도 역시 웹페이지 텍스트로부터 추출될 수 있다. 더 큰 세트의 엔티티 타입의 커버리지를 제공하기 위하여, 바람직하게는 2개의 상이한 NE 시스템(예를 들어, [18], [4] 참조)이 이용된다.
예시적인 후보 추출 유닛( Exemplary Candidate Extraction Unit )
잠재적 키워드가 되는 구문을 선택하기 위해 후보 추출이 이용될 수 있으며 주어진 구문이 키워드가 될 가능성을 추정하는 분류기에 대한 입력으로서 이용될 수 있다. 또한, 예시적인 분류기 훈련 구문 동안에, 더 나은 정확도의 후보 추출은 키워드가 아닐 것 같은 단어 조합을 필터링하는데 도움을 주므로 부정적인 훈련 샘플들의 양을 줄임으로써, 긍정 대 부정 훈련 데이터의 비율을 개선시킨다(극소수의 긍정 라벨에 의해, 키워드 추출 작업은 긍정과 부정 샘플들 사이에서 불균형을 갖는다).
예시적인 실시형태에서, 키워드 추출 방법은 다음과 같이 수행된다. 우선, 파싱된 텍스트로부터 모든 명사구들을 재귀적으로 추출함으로써 기본 후보 세트가 형성된다. 그 다음, 명사들만으로 구성된 (좌에서 우로 추출된) 모든 후보 서브시퀀스들이 후보 세트에 추가된다(예를 들어, best Nixon camera accessories가 후보라면, Nixon camera accessories, camera accessories, 및 accessories가 후보 세트에 추가될 것이다). 마지막으로, 후보 세트는, 후보 구문으로부터 추출된 모든 유니그램(unigram), 바이그램(bigram), 및 트리그램(trigram)으로 보강된다.
후보 세트는 또한 가장 빈번한 영어 단어들의 스톱리스트(stoplist)에 대하여 필터링될 수 있다. 바람직하게는, 스톱워드(stopword)를 포함하는 유니그램 또는 바이그램이 후보 세트로부터 제거된다. 그러나, 스톱리스트로부터의 단어를 구문의 중간에 포함하는 더 긴 구문들은 유지될 수 있다.
예시적인 키워드 분류 유닛( Exemplary Keyword Classification Unit )
어떤 후보 구문들이 키워드인지를 식별하기 위하여, 예시적인 실시형태는, 구문이 키워드일 확률을 추정하기 위해 입력(후보 구문의 특징)을 이용하는 분류기(classifier)를 채용하고, 출력 라벨(키워드 또는 비-키워드)을 그 구문에 할당한다. 특징 입력을 키워드 라벨에 맵핑하는 분류기 기능은, 지도된 기계 학습(supervised machine learning)을 이용하여 얻어질 수 있다. 즉, 맵핑은, "올바른" 출력 라벨들이 인간 주석자(human annotator)들에 의해 제공된 데이터세트에 기초하여 분류기 시스템(classifier system)에 의해 학습될 수 있다.
예시적 시스템을 위한 분류기를 훈련하기 위해, 최대 엔트로피(ME; maximum entropy) 모델이 이용될 수 있다(이것은 때때로 로지스틱 회귀분석 모델(logistic regression model)이라고 불린다; 소개를 위해 [11]을 참조). ME 모델은 훈련 데이터로부터 제약을 유도하고 훈련 세트에 의해 커버되지 않는 경우 최대 엔트로피의 분포를 가정한다. ME 분류기 입력은, 각 특징과 연관된 가중치를 학습하기 위해 모델에 의해 이용되는, 각 키워드 후보에 대한 값들의 벡터들로 구성된다. 새로운 입력 데이터가 주어지면, 훈련된 분류기는, 그 후보 구문에 대한 입력 값을 고려하여 구문이 키워드일 확률을 계산할 수 있다.
입력 값
Figure 112013039487010-pct00001
가 주어질 경우 라벨 c의 확률은 다음과 같은 공식에 따라 계산될 수 있다:
Figure 112013039487010-pct00002
여기서, f는 합동-특징(입력 벡터와 라벨의 함수)이고
Figure 112013039487010-pct00003
는 그 특징에 할당된 가중치이다.
최대 엔트로피 분류기를 훈련하기 위해, Natural Language Toolkit(NLTK; [1] 참조)에 제공된 Python 라이브러리를 이용할 수 있다. CG(CG란 공액 경사법(Conjugate Gradient method)으로서, 분류기 라이브러리에서 훈련 방법들 중 하나로서 제공되는 희박한 선형 방정식 시스템(sparse linear equation system)을 해결하는 표준 반복적 방법이다. CG는 파이썬(Python) 및 NLTK로 설치될 scipy 패키지(http://www.scipy.org/)를 요구한다.)는 훈련 방법으로서 이용될 수 있다. 그러나, 알고리즘은 유일한 해(unique solution)에 수렴하므로, 훈련 방법의 선택은 분류기 성능에 영향을 미치지 않고, 당업자라면 여기서 설명된 본 발명의 범위로부터 벗어나지 않고도 다른 훈련 방법들이 이용될 수 있다는 것을 인식할 것이다. 예를 들어, 서포트-벡터 머신(support-vector machin)(rbf 커널)([8] 참조)과 같은 다른 학습 방법들이 이용될 수도 있지만, ME 모델을 이용하여 얻어진 결과에 비해 어떠한 개선점도 없다는 것이 본 발명자들에 의해 발견되었다.
긍정 및 부정 훈련 데이터의 불균형으로 인해(즉, 훈련 데이터 내의 대다수의 후보 구문들은 일반적으로 키워드가 아님), 분류기에 의해 할당된 라벨들(키워드 또는 비-키워드)을 이용하지 않기로 하고, 그 대신에, 예를 들어, 주어진 웹페이지에서 가장 높은 확률을 갖는 10개의 후보들을 선택하는, 확률 점수에 직접적으로 기초하여 후보들의 순위를 매길 수 있다.
예시적인 특징들( Exemplary Features )
각각의 키워드 후보에 대해 한 세트의 특징값들이 계산되어 분류기 입력으로서 이용될 수 있다. 특징들의 선택은 분류기 성능에 중요한 역할을 한다. 특징들은 2개의 타입: (a) 일반적, 비-언어적 특징, 및 (b) 언어적 특징으로 구분될 수 있다. 일반적 특징은 [17]에 기술된 시스템에 의해 채용된 특징과 유사할 수 있고, 빈도, 문서 내에서의 위치, 및 대문자 사용과 같은 정보를 포함할 수 있다. 언어적 특징은, 품사(part of speech), 구문 구조(phrase structure), 및 명명된 엔티티 정보(named entity information)를 이용한다. 이 2가지 타입의 특징들이 이하에서 더 상세히 설명된다.
Figure 112013039487010-pct00004
Figure 112013039487010-pct00005
예시적인 분류 특징들
예시적인 일반적 특징들( Exemplary General Features )
예시적인 빈도 특징들
빈도 특징은 TFxIDF(TFxIDF란 용어 빈도-역 문서 빈도를 말하며, 용어의 상대적 중요성을 평가하기 위해 정보 검색에서 이용되는 표준 점수이다. 그것은 문서들의 컬렉션에서 그것의 전체 빈도에 의해 오프셋된 주어진 문서에서의 용어의 빈도에 기초한 것이다. tf에 대한 표준 공식은
Figure 112013039487010-pct00006
이고, 여기서,
Figure 112013039487010-pct00007
는 문서 j에서의 고려중인 용어 i의 발생 횟수이고, idf에 대한 표준 공식은
Figure 112013039487010-pct00008
로서, 이는 용어 i를 포함하는 문서의 개수로 나누어진 컬렉션 내의 모든 문서들의 개수의 로그(log)이다.)와 유사한 정보를 제공한다. 빈도 특징은, 문서 내에서의 상대적 용어 빈도, 용어 빈도의 로그뿐만 아니라 DF(문서 컬렉션 내에서의 빈도) 및 로그 DF 값을 포함할 수 있다. DF 값은 Google Ngram 코퍼스(corpus)로부터의 빈도를 이용하여 근사화될 수 있다. 바람직하게는 유니그램 및 바이그램 빈도 정보만이 DF 계산에 이용된다. 2단어보다 긴 후보 구문에 대해, 구문 내의 모든 바이그램에 대한 DF들의 평균이 DF 값으로서 이용될 수 있다. 상이한 길이의 구문들에 대해 유사한 범위의 값들을 얻기 위하여 평균이 이용될 수 있다. 또한, Google Ngram 코퍼스로부터의 빈도 대신에, 전체 블로그 컬렉션에 대해 계산된 DF 값들이 이용될 수 있다.
2. 타이틀(Title)
후보 구문이 문서의 Title 내에 있는지의 여부
3. 대문자 사용(Capitalization)
대문자가 사용된 단어들은 주어진 문서에서 중요한 용어로서 마킹된 적절한 명칭이나 단어를 포함한다. 예시적인 대문자 사용 특징들은: 키워드 후보 내의 모든 단어들에 대문자가 사용되어 있는지, 및 후보 구문 내의 적어도 하나의 단어에 대문자가 사용되어 있는지의 여부이다.
4. 위치(Location)
단어수당 카운트하는, 문서 내에서의 키워드 후보의 첫 번째 발생의 상대적 위치. 예를 들어, 만일 문서가 20개 단어를 가지며, 후보 구문의 첫 번째 단어가 문서 내에서 5번째 단어이면, 위치 = 5/20 = 0.25.
5. 길이(Length)
후보 구문 내의 단어수
6. URL
후보 구문이 페이지 url 내에 있는지의 여부.
7. Wiki-트래픽
빈번한 검색/질의 항목으로서 키워드 후보들의 인기를 반영하기 위해 위키피디아 트래픽 통계(wikipedia traffic statistics)에 기초한 특징들이 이용될 수 있다. 이러한 특징들의 세트는: 후보 구문이 위키피디아 타이틀인지의 여부(리디렉트 포함), 및 후보 구문에 대한 트래픽 지수(후보가 위키피디아 타이틀이 아니라면 0)를 포함할 수 있다. 트래픽 통계는 소정 기간(예를 들어, 2010년 6월의 20일 기간)에 걸쳐 합계된 시간별 위키피디아 로그에 기초할 수 있다.
예시적인 언어적 특징( Exemplary Linguistic Features )
1. 명사구(Noun Phrases)
후보가 명사구인지 명사구를 포함하는지의 여부
2. 명사(Nouns)
후보 구문이 적어도 하나의 명사를 포함하는지의 여부, 및 후보 구문이 명사만으로 구성되는지의 여부.
3. POS 태그(POS tags)
후보 구문에 할당된 POS(Part of Speech) 태그의 시퀀스.
4. 명명된 엔티티(Named Entities)
키워드 후보가 명명된 엔티티(NE; Named Entity)인지, 키워드 후보가 명명된 엔티티 및 후보에 할당된 명명된 엔티티 태그를 포함하는지의 여부(후보 구문이 NE가 아니면 "O").
5. PMI
PMI(Pointwise mutual information)는 구문이 연어(collocation)일 가능성이 있는지를 반영한다. 후보 구문의 PMI 점수는 다음과 같이 계산될 수 있다:
바이그램의 경우,
Figure 112013039487010-pct00009
여기서, P(w)는 단어나 구문의 상대적 빈도이다.
단일 단어의 경우,
Figure 112013039487010-pct00010
2 단어보다 긴 후보 구문의 경우, PMI는 구문 내의 모든 바이그램에 대한 PMI 점수들의 평균으로 설정될 수 있다.
예시적인 평가 및 데이터( Exemplary Evaluation and Data )
예시적인 훈련 데이터
훈련 데이터는 (블로그 페이지 코퍼스로부터 무작위 선택된; [3] 참조) 500개 웹페이지를 포함할 수 있다. 주석자들은 블로그 페이지로부터 추출된 보통 텍스트로 제시되고, 그 페이지의 내용을 가장 잘 표현하는 키워드를 선택하도록 지시된다. 헤더로부터의 메타 정보는 바람직하게는 주석이 달린 텍스트에 포함되지 않는다. 바람직하게는 단일 페이지에 대해 선택될 수 있는 키워드의 개수에 관해서는 제한이 없다. 추가 페이지들에도 역시 주석이 달리고, 훈련을 위해 사용되지 않는 테스트 세트로서 남겨 둔다.
주석자간 의견일치 및 황금 표준(Inter-annotator agreement and golden standard)
각 페이지에 대해, 키워드들은 바람직하게는 2명의 주석자에 의해 선택된다. 그러나, 이 작업에 관한 주석자간 의견일치는 높지 않을 수 있다(예를 들어, 하나의 구현에서, 주석자들의 카파 점수(kappa score)(Cohen's kappa 계수는 카테고리 작업상의 주석자들 사이의 의견일치를 측정하기 위해 흔히 채용된 통계적 측정이다. 카파는
Figure 112013039487010-pct00011
로서 계산되며, P(A)는 코더들 사이에서 관찰된 의견일치이고, P(E)는 코더들이 우연히 의견일치할 확률이다. 0.6 - 0.7 위의 카파 점수는 "실질적 의견일치"로 간주된다.)는 0.49였다). 낮은 카파 점수는 다음과 같은 이유 때문일 수 있다: 먼저, 주석자들은 단지 부분적 매치인 비슷한 구문들을 태깅할 수 있다. 두 번째, 선택될 수 있는 키워드들의 최대 개수가 명시되지 않을 때, 하나의 주석자는 주어진 텍스트에 대해 또 다른 주석자보다 더 많은 수의 키워드를 선택할 수 있다.
단일 주석자에 의존하지 않는 GS(Golden Standard)를 생성하기 위하여, 양쪽 주석자들로부터의 출력이 결합될 수 있다. 키워드에 주석을 달 때, 주석자들은 그 키워드가 "1차 키워드"인지 "2차 키워드"인지도 선택하도록 지시될 수 있다. 1차 키워드는 문서의 메인 주제 또는 중심 사상을 포착하는 키워드로서 정의될 수 있다. 2차 키워드는 문서에 대한 추가 핵심 정보를 제공하는 중요 문구로서 정의될 수 있다(예를 들어, 사건이 발생한 장소, 언급된 추가적이지만 중요한 지표, 등). 양쪽 주석자들의 선택을 정확히 반영하는 키워드 세트를 생성하기 위해, 다음과 같은 키워드들을 GS으로 유지할 수 있다:
1. (한쪽 주석자 또는 양쪽 모두에 의해) 1차로서 마킹된 모든 키워드들.
2. 양쪽 주석자에 의해 선택된 2차 키워드들.
3. 한 사람만에 의해서만 선택되었지만 다른 주석자에 의해 선택된 1차 키워드에 부분적 매치인 2차 키워드들.
GS를 이용하는 예시적인 실시형태에서, 각 주석자와 표준 사이의 카파 점수는 주석자 1에 대해서는 0.75이고 주석자 2에 대해서는 0.74였다. 1차 및 2차 키워드들에 대한 상세한 의견일치 통계가 이하의 표 2에 도시되어 있다.
Figure 112013039487010-pct00012
예시적인 후보 추출 유닛( Exemplary Candidate Extraction Unit )
전술된 바와 같이, 예시적인 실시형태는 기본 후보 세트로서 명사구를 이용하지만, 명사열과 명사구로부터 추출된 유니그램, 바이그램, 및 트리그램으로 후보 풀을 보강한다.
텍스트로부터 모든 가능한 후보 구문을 얻는 한 종래 기술의 방법은, 길이 n(일반적으로 3-5)까지의 모든 n-그램들을 후보 세트에 포함하는 것이다. 이러한 n-그램 방법의 심각한 단점은, 의미있는 구문이 아닌 및/또는 잠재적 키워드일 것 같지 않은 단어열의 형태로 상당한 노이즈를 도입한다는 것이다. 따라서, n-그램 방법은 정확도가 낮다는 문제가 있다.
대안적인 종래 기술의 방법은 후보를 추출하기 위해 언어적 구조 단서(language structure cue)를 이용하는 것이다. 키워드는 명사구인 경향이 있으므로, 텍스트로부터의 모든 명사구는 후보 풀을 형성하는데 이용될 수 있다. 그러나, 이러한 방법은 n-그램 추출 방법보다 현저하게 낮은 리콜(recall)을 갖는데, 이것은, 많은 잠재적 키워드들이 후보 세트 내에 포함되지 않는다는 것을 의미한다.
n-그램의 위치, 리콜, 및 F-측정 및 명사구 전략들이 본 발명자들에 의해 예시적인 실시형태들의 추출 방법과 비교되었다. 즉, 본 발명자들은, 각 접근법이, 추가의 분류 스테이지 없이 키워드를 선택하는 유일한 방법으로서 이용되었을 경우에 얼마나 효과적인지를 평가하였다. 그 결과는 이하의 표 3에 요약되어 있다.
Figure 112013039487010-pct00013
후보 추출 방법의 비교
표 3에 도시된 바와 같이, n-그램 접근법은 80% 넘는 리콜을 갖지만, 3개의 방법 중 가장 낮은 정확도를 가진다(즉, 후보 세트는 상당한 양의 노이즈를 가진다). 후보로서 명사구를 추출하는 것은 정확도가 증가한다는 이점을 갖지만, 이 방법은 매우 낮은 리콜(단지 26%)을 가져, 잠재적 키워드를 누락할 가능성이 높다.
대조적으로, 본 발명의 방법의 예시적인 실시형태는 명사구 추출에 비해 리콜에 있어서의 개선을 야기한다. 이 접근법의 리콜은 n-그램 방법과 비슷하지만, 정확도는 더 높다. 상이한 방법들이 어떻게 분류기 성능과 결합하는지의 평가 결과가 이하에서 기술된다.
분류기 성능( Classifier performance )
전체 시스템 성능을 평가하기 위해, 본 발명의 시스템에 의해 달성되는 결과들이 [17]에 기초하여 베이스라인과 비교되었다. 베이스라인 시스템에서, 후보 추출 방법은 n-그램 방법이고, 특징들은 일반적인 비언어적 특징(플러스 NP/명사 특징들의 단순 세트)으로 구성된다. (a) 결합된 후보 추출 방법의 이용과 (b) 분류 스테이지에서의 언어적 특징의 추가에 따라 시스템 성능이 어떻게 변경되었는지가 분석되었다.
본 발명의 시스템을 베이스라인에 대비하여 비교할 때, 2개의 평가 기준이 이용되었다:
1. R-Precision(상위 n개 결과 중에서 얼마나 많은 후보가 키워드인가, 여기서 n은 페이지 상의 가능한 키워드의 총 개수).
2. 상위-10위 점수(R-Precision과 유사하지만 상위-10위 결과에서의 컷-오프를 갖는, 즉, 모든 n > 10은 10으로 설정).
상위-10위 측정은, 상위-10위 점수를 갖는 후보들이 키워드 출력으로서 선택될 때 분류기가 추출 시스템으로서 어떻게 수행하는지의 추정을 제공하기 때문에 평가를 위해 이용되었다. 분류기 훈련에서 전혀 사용되지 않은 100개 웹페이지의 홀드-아웃 테스트 세트(held-out test set)에서 시스템 성능이 테스팅되었고(표 4 참조), 500개 페이지 훈련 세트에서 크로스-확인 테스팅이 수행되었다(약 50개 문서들 각각의 10 폴드; 표 5 참조).
Figure 112013039487010-pct00014
홀드-아웃 세트에 대한 상위-10위 점수 결과.
Figure 112013039487010-pct00015
크로스-확인 테스트에 대한 상위-10위 점수 결과.
베이스라인과 본 발명의 시스템 사이의 결과 차이는 통계적으로 의미있다(크로스-확인 결과들에서 양방적 짝비교 t-테스트(two-tailed paired t-test)에 따라, p=0.0001). 베이스라인에 비교한 상대적 개선은 12.55%이다.
관련된 실시형태들(Related Embodiments)
주어진 웹 페이지에 대해 문맥상으로 적절한 광고를 선택하는 것에 대한 2개의 바람직한 접근법이 있다. 한 접근법은 광고 풀(advertisement pool)에 대한 웹페이지 텍스트의 직접적 매칭을 포함한다. 다른 접근법에서는, 페이지와 광고 사이의 매치가 중간 키워드 추출 단계를 포함한다. 각 접근법의 예들이 이하에 주어져 있다.
키워드 추출(Keyword Extraction)
1. KEA [5]
2. GenEx[15], [14]
3. Yihet 외 [17]
4. Hulth [7], [6]
5. 기타: [10], [16]
문맥 광고(Contextual Advertising)
1. Broder 외 [2]
2. Ribeiro-Neto 외 [12].
여기서 설명된 소정 예시의 시스템 및 방법 실시형태들에서, 키워드 추출은 바람직하게는: (a) 품사 태깅 및 파싱과 같은 언어적 처리 뿐만 아니라 웹페이지로부터의 텍스트 추출을 포함하는 전처리; (b) 키워드 후보 구문의 추출; 및 (c) 지도된 기계 학습을 이용한 후보 분류를 포함한다.
본 발명의 시스템 및 방법은, 후보 선택 및 특징 추출 스테이지 양쪽 모두에서, 언어적 정보의 이용으로 인해 개선된 성능을 달성할 수 있다. 예시적인 실시형태는 계층적 구문 구조를 이용하는 후보 선택을 포함하고, 그 결과 후보 풀의 노이즈가 적다. 분류를 위해 이용될 수 있는 특징들은 또한, 품사 및 명명된 엔티티 정보와 같은 언어적 특징을 포함하므로, 그 결과 분류기 성능이 개선된다.
실시형태들은 당업자에게 명백한 컴퓨터 컴포넌트 및 컴퓨터로 구현된 단계들을 포함한다. 예를 들어, 계산과 통신은 전자적으로 수행될 수 있고, 결과는 그래픽 사용자 인터페이스를 이용하여 디스플레이될 수 있다.
예시적인 이러한 시스템이 도 2에 도시되어 있다. 컴퓨터(100)는 네트워크(110)를 통해 서버(130)와 통신한다. 복수의 데이터 소스(120-121)는 또한, 네트워크(110)를 통해, 서버(130), 프로세서(150), 및/또는, 정보를 계산 및/또는 전송하도록 동작할 수 있는 다른 컴포넌트들과 통신한다. 서버(들)(130)은 하나 이상의 저장장치(140), 하나 이상의 프로세서(150), 및 소프트웨어(160)에 결합될 수 있다.
여기서 설명된 계산 및 그 등가물들은, 실시형태에서, 완전히 전자적으로 수행된다. 다른 컴포넌트들 및 컴포넌트들의 조합은 또한, 당업자에게는 명백한 바와 같이, 여기서 설명된 처리 데이터 또는 기타의 계산을 지원하는데 이용될 수 있다. 서버(130)는, 저장 장치(140)로부터 프로세서(들)(150)로 및/로부터의 데이터의 전달, 및 컴퓨터(100)로의 데이터의 전달을 용이하게 할 수 있다. 프로세서(150)는 선택사항으로서 임시 또는 기타의 정보를 저장하는데 이용될 수 있는 로컬 또는 네트워킹된 저장장치(미도시)를 포함하거나 이와 통신할 수 있다. 소프트웨어(160)는, 컴퓨터(100), 프로세서(150)에 로컬로 설치, 및/또는 계산 및 애플리케이션을 용이하게 하기 위해 중앙집중식으로 지원될 수 있다.
설명의 용이성을 위해, 여기에서는 본 발명의 모든 단계나 요소가 컴퓨터 시스템의 일부로서 설명되지는 않지만, 당업자라면 각 단계 또는 요소는 대응하는 컴퓨터 시스템 또는 소프트웨어 컴포넌트를 가질 수 있다는 것을 이해할 것이다. 따라서, 이러한 컴퓨터 시스템 및/또는 소프트웨어 컴포넌트들은 그들의 대응하는 단계들이나 요소들(즉, 그들의 기능)을 설명함으로써 인에이블되며, 본 발명의 범위 내에 있다.
게다가, 컴퓨터 시스템이 특정 기능을 수행하기 위한 프로세서를 갖는 것으로 설명되거나 청구되는 경우, 당업자라면, 이러한 이용은, 예를 들어, 단일의 프로세서가 다양한 프로세서들에 위임된 작업들의 일부 또는 모두를 수행하는 시스템을 배제하는 것으로 해석되어서는 안 된다는 것을 이해할 것이다. 즉, 상세한 설명 및/또는 청구항들에 명시된 프로세서들의 임의의 조합 또는 모두는 동일한 프로세서일 수 있다. 모든 이러한 조합은 본 발명의 범위 내에 있다.
대안으로서 또는 조합하여, 처리하는 것 및 결정을 내리는 것은 디지털 신호 처리기 회로 또는 주문형 집적 회로와 같은 기능적으로 동등한 회로에 의해 수행될 수 있다.
루프와 변수들의 초기화 및 임시 변수의 이용과 같은 많은 판에 박힌 프로그램 요소들은 여기서 설명되지 않는다. 게다가, 달리 명시되지 않는 한, 설명된 단계들의 특정 시퀀스는 단지 예시를 위한 것이며 일반적으로 본 발명의 범위를 벗어나지 않고 변동될 수 있다는 것을 당업자라면 이해할 것이다. 달리 언급하지 않는 한, 여기서 설명된 프로세스들은 순서화된 것은 아니다 - 즉, 프로세스들은 임의의 합리적인 순서로 수행될 수 있다.
여기서 설명된 모든 단계들은 가능한 경우 소프트웨어에 의해 구현될 수 있다는 것을 당업자라면 이해할 것이다. 게다가, 이러한 소프트웨어는 비일시적 컴퓨터 판독가능한 매체 상에 저장가능하고 하나 이상의 컴퓨터 프로세서들에 의해 구현가능한다는 것을 당업자라면 이해할 것이다.
본 발명이 여기서 개요된 예시적 양태의 실시형태와 연계하여 설명되었지만, 많은 대안, 수정, 및 변형이 당업자에게는 명백할 것이다. 따라서, 여기서 개시된 바와 같은 본 발명의 예시적 양태 및 실시형태들은 예시를 위한 것이며, 제한을 위한 것은 아니다. 본 발명의 사상 및 범위로부터 벗어나지 않고 다양한 변경들이 이루어질 수 있다.
Figure 112013039487010-pct00016
Figure 112013039487010-pct00017
Figure 112013039487010-pct00018

Claims (19)

  1. 컴퓨터 시스템으로서,
    (a) 웹페이지로부터 텍스트를 추출하여 적어도 제1 세트의 후보 키워드들을 생성하고, 언어 처리를 적용하여 적어도 제2 세트의 후보 키워드들을 생성하며, 상기 제1 세트 및 제2 세트의 후보 키워드들을 제1 후보 풀(candidate pool)로 결합하는 전처리 유닛(preprocessing unit);
    (b) 적어도 상기 제1 후보 풀을 기술하는 데이터를 상기 전처리 유닛으로부터 수신하고 제2 후보 풀을 생성하는 후보 추출 유닛;
    (c) 상기 전처리 유닛과 상기 후보 추출 유닛에 접속되고, 적어도 상기 제2 후보 풀을 기술하는 데이터를 수신하고, 일반적 특징들 및 언어적 특징들에 대해 상기 제2 후보 풀을 분석하는 특징 추출 유닛; 및
    (d) 상기 특징 추출 유닛으로부터 적어도 상기 제2 후보 풀을 기술하는 상기 데이터 및 관련된 데이터를 수신하고, 상기 제2 후보 풀 내의 각 후보가 1차 또는 2차 키워드일 가능성을 판정하는 분류 유닛을 포함하고,
    상기 각 후보가 1차 또는 2차 키워드일 가능성의 판정은 다수의 주석자로부터 입력되는 주석을 결합함으로써 생성되는 훈련 데이터에 기초하고, 각 주석은 1차 키워드와 2차 키워드 간의 차이를 포함하는, 컴퓨터 시스템.
  2. 제1항에 있어서, 상기 언어 처리의 적어도 일부는 토큰화기(tokenizer) 및 파서(parser)에 의해 수행되는 컴퓨터 시스템.
  3. 제1항에 있어서, 상기 언어 처리의 적어도 일부는, 토큰화기, 파서, 품사 태거(part of speech tagger), 및 명명된 엔티티 태거(named entity tagger)에 의해 수행되는 컴퓨터 시스템.
  4. 제1항에 있어서, 상기 언어 처리의 적어도 일부는 토큰화기에 의해 수행되는 컴퓨터 시스템.
  5. 제1항에 있어서, 상기 언어 처리의 적어도 일부는 파서에 의해 수행되는 컴퓨터 시스템.
  6. 제1항에 있어서, 상기 언어 처리의 적어도 일부는 품사 태거에 의해 수행되는 컴퓨터 시스템.
  7. 제1항에 있어서, 상기 언어 처리의 적어도 일부는 명명된 엔티티 태거에 의해 수행되는 컴퓨터 시스템.
  8. 제1항에 있어서, 상기 제1 세트의 후보 키워드들은 메타데이터 텍스트(metadata text)를 포함하는 컴퓨터 시스템.
  9. 제1항에 있어서, 상기 제2 후보 풀은 명사구들(noun phrases) 및 명사열들(noun sequences)을 포함하는 컴퓨터 시스템.
  10. 제1항에 있어서, 상기 제2 후보 풀은, 명사구들, 명사열들, 및 n-그램들(n-grams)을 포함하는 컴퓨터 시스템.
  11. 제1항에 있어서, 상기 일반적 특징들은, 빈도, 문서에서의 위치, 및 대문자 사용(capitalization) 중 하나 이상을 포함하는 컴퓨터 시스템.
  12. 제1항에 있어서, 상기 언어적 특징들은, 품사, 구문 구조, 및 명명된 엔티티 정보 중 하나 이상과 관련되는 컴퓨터 시스템.
  13. 제1항에 있어서, 상기 일반적 특징들은 빈도 특징들을 포함하고, 상기 빈도 특징들은, 상기 웹페이지 내에서의 상대적 용어 빈도와 용어 빈도의 로그(log) 중 하나 이상을 포함하는 컴퓨터 시스템.
  14. 제1항에 있어서, 상기 일반적 특징들은, 빈도, 문서 내에서의 위치, 및 대문자 사용을 포함하고, 상기 언어적 특징들은, 품사, 구문 구조, 및 명명된 엔티티 정보와 관련되는 컴퓨터 시스템.
  15. 제1항에 있어서, 상기 일반적 특징들은 빈도 특징들을 포함하고, 상기 빈도 특징들은 상기 웹페이지 내에서의 상대적 용어 빈도와 용어 빈도의 로그(log) 중 하나 이상을 포함하고, 상기 언어적 특징들은, 품사, 구문 구조, 및 명명된 엔티티 정보와 관련되는 컴퓨터 시스템.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서, 상기 주석은, 적어도 하나의 주석자에 의해 상기 1차 키워드로서 표시되는 것을 나타내는 제1 주석, 상기 다수의 주석자에 의해 상기 2차 키워드로서 선택되는 것을 나타내는 제2 주석, 및 하나의 주석자에 의해 상기 2차 키워드로서 선택되고 나머지 주석자들에 의해 선택되는 상기 1차 키워드에 부분적으로 매칭되는 것을 나타내는 제3 주석으로부터 선택되는, 컴퓨터 시스템.
  17. 컴퓨터 처리 시스템에 의해 구현된 단계들을 포함하는 방법으로서,
    (a) 웹페이지로부터 텍스트를 추출하여 적어도 제1 세트의 후보 키워드들을 생성하고, 언어 처리를 적용하여 적어도 제2 세트의 후보 키워드들을 생성하며, 상기 제1 세트 및 제2 세트의 후보 키워드들을 제1 후보 풀로 결합하는 단계;
    (b) 적어도 상기 제1 후보 풀을 설명하는 데이터를 수신하고 제2 후보 풀을 생성하는 단계;
    (c) 적어도 상기 제2 후보 풀을 기술하는 데이터를 수신하고 일반적 특징들 및 언어적 특징들에 대해 상기 제2 후보 풀을 분석하는 단계; 및
    (d) 특징 추출 유닛으로부터 적어도 상기 제2 후보 풀을 기술하는 상기 데이터 및 관련된 데이터를 수신하고, 상기 제2 후보 풀 내의 각 후보가 1차 또는 2차 키워드일 가능성을 판정하는 단계를 포함하고,
    상기 각 후보가 1차 또는 2차 키워드일 가능성을 판정하는 단계는 다수의 주석자로부터 입력되는 주석을 결합함으로써 생성되는 훈련 데이터에 기초하고, 각 주석은 1차 키워드와 2차 키워드 간의 차이를 포함하는, 방법.
  18. 제17항에 있어서, 상기 주석은, 적어도 하나의 주석자에 의해 상기 1차 키워드로서 표시되는 것을 나타내는 제1 주석, 상기 다수의 주석자에 의해 상기 2차 키워드로서 선택되는 것을 나타내는 제2 주석, 및 하나의 주석자에 의해 상기 2차 키워드로서 선택되고 나머지 주석자들에 의해 선택되는 상기 1차 키워드에 부분적으로 매칭되는 것을 나타내는 제3 주석으로부터 선택되는, 방법.
  19. 삭제
KR1020137011659A 2010-11-05 2011-11-02 키워드 추출에 관한 시스템 및 방법 KR101672579B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US41039210P 2010-11-05 2010-11-05
US61/410,392 2010-11-05
PCT/US2011/058899 WO2012061462A1 (en) 2010-11-05 2011-11-02 Systems and methods regarding keyword extraction

Publications (2)

Publication Number Publication Date
KR20130142124A KR20130142124A (ko) 2013-12-27
KR101672579B1 true KR101672579B1 (ko) 2016-11-03

Family

ID=46020615

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137011659A KR101672579B1 (ko) 2010-11-05 2011-11-02 키워드 추출에 관한 시스템 및 방법

Country Status (6)

Country Link
US (1) US8874568B2 (ko)
EP (1) EP2635965A4 (ko)
JP (1) JP5990178B2 (ko)
KR (1) KR101672579B1 (ko)
CN (1) CN103201718A (ko)
WO (1) WO2012061462A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102334236B1 (ko) 2021-08-31 2021-12-02 (주)네오플로우 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
KR102334255B1 (ko) 2021-08-31 2021-12-02 (주)네오플로우 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법

Families Citing this family (64)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120076414A1 (en) * 2010-09-27 2012-03-29 Microsoft Corporation External Image Based Summarization Techniques
US8732014B2 (en) * 2010-12-20 2014-05-20 Yahoo! Inc. Automatic classification of display ads using ad images and landing pages
US9558267B2 (en) * 2011-02-11 2017-01-31 International Business Machines Corporation Real-time data mining
US8898163B2 (en) 2011-02-11 2014-11-25 International Business Machines Corporation Real-time information mining
US8983826B2 (en) * 2011-06-30 2015-03-17 Palo Alto Research Center Incorporated Method and system for extracting shadow entities from emails
CN103198057B (zh) * 2012-01-05 2017-11-07 深圳市世纪光速信息技术有限公司 一种自动给文档添加标签的方法和装置
US9613125B2 (en) * 2012-10-11 2017-04-04 Nuance Communications, Inc. Data store organizing data using semantic classification
US9292797B2 (en) 2012-12-14 2016-03-22 International Business Machines Corporation Semi-supervised data integration model for named entity classification
EP3011473A1 (en) * 2013-06-21 2016-04-27 Hewlett-Packard Development Company, L.P. Topic based classification of documents
CN103473317A (zh) * 2013-09-12 2013-12-25 百度在线网络技术(北京)有限公司 提取关键词的方法和设备
WO2015063784A1 (en) * 2013-10-31 2015-05-07 Hewlett-Packard Development Company, L.P. Classifying document using patterns
CN104679768B (zh) * 2013-11-29 2019-08-09 百度在线网络技术(北京)有限公司 从文档中提取关键词的方法和设备
US9384287B2 (en) 2014-01-15 2016-07-05 Sap Portals Isreal Ltd. Methods, apparatus, systems and computer readable media for use in keyword extraction
US8924338B1 (en) 2014-06-11 2014-12-30 Fmr Llc Automated predictive tag management system
KR101624909B1 (ko) * 2014-12-10 2016-05-27 주식회사 와이즈넛 정규화된 키워드 가중치에 기반한 연관 키워드 추출 방법
JP6074820B2 (ja) * 2015-01-23 2017-02-08 国立研究開発法人情報通信研究機構 アノテーション補助装置及びそのためのコンピュータプログラム
US10140314B2 (en) * 2015-08-21 2018-11-27 Adobe Systems Incorporated Previews for contextual searches
US10169374B2 (en) * 2015-08-21 2019-01-01 Adobe Systems Incorporated Image searches using image frame context
KR101708444B1 (ko) * 2015-11-16 2017-02-22 주식회사 위버플 키워드 및 자산 가격 관련성 평가 방법 및 그 장치
CN105653701B (zh) * 2015-12-31 2019-01-15 百度在线网络技术(北京)有限公司 模型生成方法及装置、词语赋权方法及装置
US10558785B2 (en) 2016-01-27 2020-02-11 International Business Machines Corporation Variable list based caching of patient information for evaluation of patient rules
US10528702B2 (en) 2016-02-02 2020-01-07 International Business Machines Corporation Multi-modal communication with patients based on historical analysis
US11037658B2 (en) 2016-02-17 2021-06-15 International Business Machines Corporation Clinical condition based cohort identification and evaluation
US10565309B2 (en) * 2016-02-17 2020-02-18 International Business Machines Corporation Interpreting the meaning of clinical values in electronic medical records
US10937526B2 (en) 2016-02-17 2021-03-02 International Business Machines Corporation Cognitive evaluation of assessment questions and answers to determine patient characteristics
US10685089B2 (en) 2016-02-17 2020-06-16 International Business Machines Corporation Modifying patient communications based on simulation of vendor communications
US10282356B2 (en) * 2016-03-07 2019-05-07 International Business Machines Corporation Evaluating quality of annotation
CN107203542A (zh) * 2016-03-17 2017-09-26 阿里巴巴集团控股有限公司 词组提取方法及装置
US10311388B2 (en) 2016-03-22 2019-06-04 International Business Machines Corporation Optimization of patient care team based on correlation of patient characteristics and care provider characteristics
US10923231B2 (en) 2016-03-23 2021-02-16 International Business Machines Corporation Dynamic selection and sequencing of healthcare assessments for patients
CN105912524B (zh) * 2016-04-09 2019-08-20 北京交通大学 基于低秩矩阵分解的文章话题关键词提取方法和装置
RU2619193C1 (ru) 2016-06-17 2017-05-12 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Многоэтапное распознавание именованных сущностей в текстах на естественном языке на основе морфологических и семантических признаков
US10318562B2 (en) 2016-07-27 2019-06-11 Google Llc Triggering application information
KR101931859B1 (ko) * 2016-09-29 2018-12-21 (주)시지온 전자문서의 대표 단어 선정 방법, 전자 문서 제공 방법, 및 이를 수행하는 컴퓨팅 시스템
CN108073568B (zh) * 2016-11-10 2020-09-11 腾讯科技(深圳)有限公司 关键词提取方法和装置
US9965460B1 (en) * 2016-12-29 2018-05-08 Konica Minolta Laboratory U.S.A., Inc. Keyword extraction for relationship maps
CN107248927B (zh) * 2017-05-02 2020-06-09 华为技术有限公司 故障定位模型的生成方法、故障定位方法和装置
CN107704503A (zh) * 2017-08-29 2018-02-16 平安科技(深圳)有限公司 用户关键词提取装置、方法及计算机可读存储介质
US10417268B2 (en) * 2017-09-22 2019-09-17 Druva Technologies Pte. Ltd. Keyphrase extraction system and method
CN112037774B (zh) * 2017-10-24 2024-04-26 北京嘀嘀无限科技发展有限公司 用于关键短语识别的系统和方法
US11216452B2 (en) * 2017-11-01 2022-01-04 Sap Se Systems and methods for disparate data source aggregation, self-adjusting data model and API
KR102019194B1 (ko) 2017-11-22 2019-09-06 주식회사 와이즈넛 문서 내 핵심 키워드 추출 시스템 및 방법
JP7239991B2 (ja) * 2018-01-05 2023-03-15 国立大学法人九州工業大学 ラベル付与装置、ラベル付与方法、及びプログラム
US20190272071A1 (en) * 2018-03-02 2019-09-05 International Business Machines Corporation Automatic generation of a hierarchically layered collaboratively edited document view
US10831803B2 (en) * 2018-07-26 2020-11-10 Beijing Jingdong Shangke Information Technology Co., Ltd. System and method for true product word recognition
US11183176B2 (en) 2018-10-31 2021-11-23 Walmart Apollo, Llc Systems and methods for server-less voice applications
US11404058B2 (en) 2018-10-31 2022-08-02 Walmart Apollo, Llc System and method for handling multi-turn conversations and context management for voice enabled ecommerce transactions
US11195524B2 (en) * 2018-10-31 2021-12-07 Walmart Apollo, Llc System and method for contextual search query revision
US11238850B2 (en) 2018-10-31 2022-02-01 Walmart Apollo, Llc Systems and methods for e-commerce API orchestration using natural language interfaces
CN109977397B (zh) * 2019-02-18 2022-11-15 广州市诚毅科技软件开发有限公司 基于词性组合的新闻热点提取方法、系统及存储介质
WO2020240871A1 (ja) * 2019-05-31 2020-12-03 日本電気株式会社 パラメータ学習装置、パラメータ学習方法、及びコンピュータ読み取り可能な記録媒体
US11874882B2 (en) * 2019-07-02 2024-01-16 Microsoft Technology Licensing, Llc Extracting key phrase candidates from documents and producing topical authority ranking
US11250214B2 (en) 2019-07-02 2022-02-15 Microsoft Technology Licensing, Llc Keyphrase extraction beyond language modeling
CN110362827B (zh) * 2019-07-11 2024-05-14 腾讯科技(深圳)有限公司 一种关键词提取方法、装置及存储介质
CN110377725B (zh) * 2019-07-12 2021-09-24 深圳新度博望科技有限公司 数据生成方法、装置、计算机设备及存储介质
CN110516237B (zh) * 2019-08-15 2022-12-09 重庆长安汽车股份有限公司 短文本短语提取方法、系统及存储介质
CN110781662B (zh) * 2019-10-21 2022-02-01 腾讯科技(深圳)有限公司 一种逐点互信息的确定方法和相关设备
CN113703588A (zh) * 2020-05-20 2021-11-26 北京搜狗科技发展有限公司 一种输入方法、装置和用于输入的装置
US10878174B1 (en) * 2020-06-24 2020-12-29 Starmind Ag Advanced text tagging using key phrase extraction and key phrase generation
CN112347778B (zh) * 2020-11-06 2023-06-20 平安科技(深圳)有限公司 关键词抽取方法、装置、终端设备及存储介质
KR102639979B1 (ko) * 2020-12-08 2024-02-22 주식회사 카카오엔터프라이즈 주요 키워드 추출 장치, 그것의 제어 방법 및 주요 키워드 추출 프로그램
US11379763B1 (en) 2021-08-10 2022-07-05 Starmind Ag Ontology-based technology platform for mapping and filtering skills, job titles, and expertise topics
CN114398968B (zh) * 2022-01-06 2022-09-20 北京博瑞彤芸科技股份有限公司 基于文件相似度对同类获客文件进行标注的方法和装置
CN115204146B (zh) * 2022-07-28 2023-06-27 平安科技(深圳)有限公司 关键词抽取方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050234879A1 (en) 2004-04-15 2005-10-20 Hua-Jun Zeng Term suggestion for multi-sense query
US20050267871A1 (en) 2001-08-14 2005-12-01 Insightful Corporation Method and system for extending keyword searching to syntactically and semantically annotated data
US20080077397A1 (en) 2006-09-27 2008-03-27 Oki Electric Industry Co., Ltd. Dictionary creation support system, method and program

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0765018A (ja) * 1993-08-31 1995-03-10 Matsushita Electric Ind Co Ltd キーワード自動抽出装置
US6167368A (en) * 1998-08-14 2000-12-26 The Trustees Of Columbia University In The City Of New York Method and system for indentifying significant topics of a document
US7925610B2 (en) * 1999-09-22 2011-04-12 Google Inc. Determining a meaning of a knowledge item using document-based information
JP2004139553A (ja) * 2002-08-19 2004-05-13 Matsushita Electric Ind Co Ltd 文書検索システムおよび質問応答システム
US7139752B2 (en) * 2003-05-30 2006-11-21 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, and providing multiple document views derived from different document tokenizations
US7555705B2 (en) * 2003-09-10 2009-06-30 Microsoft Corporation Annotation management in a pen-based computing system
JP2006146705A (ja) * 2004-11-22 2006-06-08 Mitsubishi Electric Corp 構造化文書曖昧照合装置及びそのプログラム
US8135728B2 (en) * 2005-03-24 2012-03-13 Microsoft Corporation Web document keyword and phrase extraction
US7519588B2 (en) * 2005-06-20 2009-04-14 Efficient Frontier Keyword characterization and application
WO2007084616A2 (en) 2006-01-18 2007-07-26 Ilial, Inc. System and method for context-based knowledge search, tagging, collaboration, management and advertisement
JP4236057B2 (ja) * 2006-03-24 2009-03-11 インターナショナル・ビジネス・マシーンズ・コーポレーション 新たな複合語を抽出するシステム
US8341112B2 (en) * 2006-05-19 2012-12-25 Microsoft Corporation Annotation by search
US8001105B2 (en) * 2006-06-09 2011-08-16 Ebay Inc. System and method for keyword extraction and contextual advertisement generation
JP2008065417A (ja) * 2006-09-05 2008-03-21 Hottolink Inc 連想語群検索装置、システム及びコンテンツマッチ型広告システム
US20080098300A1 (en) * 2006-10-24 2008-04-24 Brilliant Shopper, Inc. Method and system for extracting information from web pages
US20090254512A1 (en) 2008-04-03 2009-10-08 Yahoo! Inc. Ad matching by augmenting a search query with knowledge obtained through search engine results
JP5193669B2 (ja) * 2008-05-08 2013-05-08 株式会社野村総合研究所 検索システム
US8386519B2 (en) * 2008-12-30 2013-02-26 Expanse Networks, Inc. Pangenetic web item recommendation system
US8768960B2 (en) * 2009-01-20 2014-07-01 Microsoft Corporation Enhancing keyword advertising using online encyclopedia semantics
JP5143057B2 (ja) * 2009-03-02 2013-02-13 日本電信電話株式会社 重要キーワード抽出装置及び方法及びプログラム
US20100281025A1 (en) * 2009-05-04 2010-11-04 Motorola, Inc. Method and system for recommendation of content items
NZ599047A (en) * 2009-09-26 2013-02-22 Sajari Pty Ltd Document analysis and association system and method
US8463786B2 (en) * 2010-06-10 2013-06-11 Microsoft Corporation Extracting topically related keywords from related documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050267871A1 (en) 2001-08-14 2005-12-01 Insightful Corporation Method and system for extending keyword searching to syntactically and semantically annotated data
US20050234879A1 (en) 2004-04-15 2005-10-20 Hua-Jun Zeng Term suggestion for multi-sense query
US20080077397A1 (en) 2006-09-27 2008-03-27 Oki Electric Industry Co., Ltd. Dictionary creation support system, method and program

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102334236B1 (ko) 2021-08-31 2021-12-02 (주)네오플로우 음성 변환 Text Data에서 의미있는 키워드 추출 방법과 활용
KR102334255B1 (ko) 2021-08-31 2021-12-02 (주)네오플로우 AI 기반 음성서비스의 Text Data 수집 플랫폼 구축 및 통합관리방법

Also Published As

Publication number Publication date
US20120117092A1 (en) 2012-05-10
JP2013544397A (ja) 2013-12-12
CN103201718A (zh) 2013-07-10
KR20130142124A (ko) 2013-12-27
EP2635965A4 (en) 2016-08-10
US8874568B2 (en) 2014-10-28
WO2012061462A1 (en) 2012-05-10
JP5990178B2 (ja) 2016-09-07
EP2635965A1 (en) 2013-09-11

Similar Documents

Publication Publication Date Title
KR101672579B1 (ko) 키워드 추출에 관한 시스템 및 방법
CN107257970B (zh) 从结构化和非结构化数据源进行的问题回答
US7809551B2 (en) Concept matching system
Hai et al. Implicit feature identification via co-occurrence association rule mining
US9015153B1 (en) Topic discovery, summary generation, automatic tagging, and search indexing for segments of a document
US8346795B2 (en) System and method for guiding entity-based searching
US8375033B2 (en) Information retrieval through identification of prominent notions
JP5321583B2 (ja) 共起辞書生成システム、スコアリングシステム、共起辞書生成方法、スコアリング方法及びプログラム
CN111104488B (zh) 检索和相似度分析一体化的方法、装置和存储介质
Bendersky et al. Joint annotation of search queries
JP2011085986A (ja) テキスト要約方法、その装置およびプログラム
JP2014106665A (ja) 文書検索装置、文書検索方法
Alliheedi et al. Rhetorical figuration as a metric in text summarization
Krishna et al. A hybrid method for query based automatic summarization system
Iacobelli et al. Finding new information via robust entity detection
Liu et al. An extractive text summarizer based on significant words
KR101538971B1 (ko) 온톨로지 자동 번역 장치, 온톨로지 기반 문서 요약 장치, 온톨로지 기반 문서 요약 방법, 온톨로지 기반 문서 추천 장치 및 온톨로지 기반 문서 추천 방법
JP2002278982A (ja) 情報抽出方法および情報検索方法
Lin et al. Online Plagiarized Detection Through Exploiting Lexical, Syntax, and Semantic Information
US20170220557A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
Ermakova et al. IRIT at INEX: question answering task
Spasic FlexiTerm: a more efficient implementation of flexible multi-word term recognition
JP5187187B2 (ja) 体験情報検索システム
Verma et al. Reflexive hybrid approach to provide precise answer of user desired frequently asked question
Naz et al. A hybrid approach for NER system for scarce resourced language-URDU: Integrating n-gram with rules and gazetteers

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right