KR101614551B1 - 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법 - Google Patents

카테고리 매칭을 이용한 키워드 추출 시스템 및 방법 Download PDF

Info

Publication number
KR101614551B1
KR101614551B1 KR1020100116811A KR20100116811A KR101614551B1 KR 101614551 B1 KR101614551 B1 KR 101614551B1 KR 1020100116811 A KR1020100116811 A KR 1020100116811A KR 20100116811 A KR20100116811 A KR 20100116811A KR 101614551 B1 KR101614551 B1 KR 101614551B1
Authority
KR
South Korea
Prior art keywords
keyword
document
importance
category
representative
Prior art date
Application number
KR1020100116811A
Other languages
English (en)
Other versions
KR20120075553A (ko
Inventor
이호석
윤종호
Original Assignee
네이버 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 네이버 주식회사 filed Critical 네이버 주식회사
Priority to KR1020100116811A priority Critical patent/KR101614551B1/ko
Priority to JP2011254699A priority patent/JP5832869B2/ja
Publication of KR20120075553A publication Critical patent/KR20120075553A/ko
Application granted granted Critical
Publication of KR101614551B1 publication Critical patent/KR101614551B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/191Automatic line break hyphenation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

카테고리 매칭을 이용한 키워드 추출 시스템 및 방법이 개시된다. 키워드 추출 시스템은 문서로부터 적어도 하나의 키워드를 추출하여 상기 문서에서 키워드의 중요도를 계산하는 중요도 계산부; 상기 키워드의 카테고리에 기초하여 상기 문서의 카테고리를 선택하는 카테고리 선택부; 및 상기 추출된 적어도 하나의 키워드들 중 상기 문서의 카테고리에 속하는 키워드에 대해 중요도를 고려하여 최종적인 키워드를 결정하는 키워드 결정부를 포함할 수 있다.

Description

카테고리 매칭을 이용한 키워드 추출 시스템 및 방법{SYSTEM AND METHOD FOR EXTRACTING KEYWORD USING CATEGORY MATCHING}
본 발명은 키워드 추출 시스템 및 방법에 관한 것으로, 보다 구체적으로는 키워드 광고를 위해 문서의 카테고리에 매칭된 키워드를 추출하는 시스템 및 방법에 관한 것이다.
키워드 광고는 키워드와 매칭되는 광고로, 검색 광고, 문맥 광고 등으로 구분될 수 있다. 종래의 키워드 광고는 광고를 노출하고자 하는 문서에서 키워드 별로 점수를 산정하여, 점수에 따라 광고와 매칭될 키워드를 도출하였다. 이 때, 점수는 문서 내에서 키워드가 출현하는 횟수(TF: Term Frequency)에 따라 결정되었다.
이 때, 단순히 키워드의 점수로 광고와 매칭될 키워드를 도출하는 경우, 동음이의어를 처리하지 못해 "1가구 2주택 양도세"와 관련된 문서에 "가구(furniture)"라는 키워드와 관련된 광고가 노출되는 문제가 있었다.
따라서, 동음이의어의 의미를 명확하게 구별하여 키워드 광고의 정확도를 향상시킬 수 있는 키워드를 추출하는 방법이 요구되고 있다.
본 발명은 문서에서 추출된 키워드의 카테고리에 기초하여 문서의 카테고리를 선택함으로써 키워드 광고를 위해 동음이의어를 처리할 수 있는 키워드 추출 시스템 및 방법을 제공한다.
본 발명은 키워드의 카테고리를 문서의 카테고리를 선택하는 데 적용함으로써 키워드와 키워드 광고 간의 연관성을 향상시킬 수 있는 키워드 추출 시스템 및 방법을 제공한다.
본 발명의 일실시예에 따른 키워드 추출 시스템은 문서에 포함된 적어도 하나의 키워드에 대하여 상기 문서 내에서의 상기 키워드의 중요도를 계산하는 중요도 계산부; 상기 키워드의 카테고리에 기초하여 상기 문서의 카테고리를 선택하는 카테고리 선택부; 및 상기 문서의 카테고리 및 상기 키워드의 중요도를 고려하여 상기 문서에 관한 적어도 하나의 대표 키워드를 결정하는 대표 키워드 결정부를 포함할 수 있다.
본 발명의 일실시예에 따르면, 상기 중요도 계산부는, 상기 문서에서 키워드의 형태소 유형 또는 문서내 출현 정보 중 적어도 하나를 고려하여 상기 키워드의 중요도를 계산할 수 있다.
본 발명의 일실시예에 따르면, 상기 중요도 계산부는, 상기 키워드가 복합 명사인지 여부에 따라 상기 키워드의 중요도를 차등적으로 계산할 수 있다.
본 발명의 일실시예에 따르면, 상기 중요도 계산부는, 상기 문서에서 미리 설정한 빈도 이상 출현한 키워드의 중요도를 계산할 수 있다.
본 발명의 일실시예에 따르면, 상기 중요도 계산부는, 상기 키워드의 문서 출현 빈도 및 상기 키워드의 문서내 출현 위치를 이용하여 문서내 출현 정보를 결정할 수 있다.
본 발명의 일실시예에 따르면, 상기 카테고리 선택부는, 상기 문서에서 추출된 키워드의 카테고리별 출현 빈도를 이용하여 상기 문서의 카테고리를 선택할 수 있다.
본 발명의 일실시예에 따르면, 상기 카테고리 선택부는, 상기 문서에 추출된 키워드의 카테고리별 출현 빈도에 상기 문서에서 키워드의 중요도를 반복적으로 적용하여 상기 문서의 카테고리를 선택할 수 있다.
본 발명의 일실시예에 따른 키워드 추출 시스템에 의하여 수행되는 키워드 추출 방법은 상기 키워드 추출 시스템의 중요도 계산부가, 문서에 포함된 적어도 하나의 키워드에 대하여 상기 문서 내에서의 중요도를 계산하는 단계; 상기 키워드 추출 시스템의 카테고리 선택부가 상기 키워드의 카테고리 정보에 기초하여 상기 문서의 카테고리를 선택하는 단계; 및 상기 키워드 추출 시스템의 대표 키워드 결정부가, 상기 문서의 카테고리 및 상기 문서 내에서의 상기 키워드의 중요도를 고려하여 상기 문서에 관한 적어도 하나의 대표 키워드를 결정하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따르면, 쉽게 변경되지 않은 유형인 키워드와 카테고리 간의 매칭 정보를 이용함으로써 색인의 갱신주기를 증가시킬 수 있다.
본 발명의 일실시예에 따르면, 키워드의 카테고리를 통해 문서의 카테고리를 결정함으로써 키워드 광고의 성격이 명확히 설정될 수 있다.
본 발명의 일실시예에 따르면, 문서의 카테고리를 선택함으로써 키워드 광고를 위한 동음이의어 처리가 가능하다.
도 1은 본 발명의 일실시예에 따른 키워드 추출 시스템을 도시한 블록 다이어그램이다.
도 2는 본 발명의 일실시예에 따라 문서로부터 키워드 광고를 위한 키워드를 추출하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예에 따라 문서로부터 추출된 키워드의 중요도를 계산하는 과정을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따라 문서의 카테고리를 선택하는 과정을 설명하기 위한 도면이다.
도 5는 본 발명의 다른 실시예에 따라 문서의 카테고리를 선택하는 과정을 설명하기 위한 도면이다.
도 6은 본 발명의 일실시예에 따라 문서로부터 키워드 광고를 위한 대표 키워드를 추출하는 예시를 도시한 도면이다.
도 7은 본 발명의 일실시예에 따라 키워드 추출 방법을 도시한 플로우차트이다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다. 본 발명의 일실시예에 따른 키워드 추출 방법은 키워드 추출 시스템에 의해 수행될 수 있다.
도 1은 본 발명의 일실시예에 따른 키워드 추출 시스템을 도시한 블록 다이어그램이다.
도 1을 참고하면, 키워드 추출 시스템(100)은 중요도 계산부(101), 카테고리 선택부(102) 및 대표 키워드 결정부(103)를 포함할 수 있다.
중요도 계산부(101)는 키워드 추출 시스템(100)에 유입된 문서에 포함된 적어도 하나의 키워드에 대하여 문서 내에서의 키워드의 중요도를 계산할 수 있다. 이 때, 문서는 적어도 하나의 키워드를 포함하는 게시물을 의미한다. 키워드 추출 시스템(100)에 유입된 문서는 적어도 하나일 수 있고 문서의 출처는 제한이 없다.
이 때, 중요도 계산부(101)는 문서를 대상으로 형태소 분석을 수행하여 문서로부터 적어도 하나의 키워드를 추출할 수 있다. 형태소 분석을 위해 npgrdy 방식이 이용될 수 있다. 예를 들어, 입력이 "블랙박스"인 경우, npgrdy 방식에 따라 출력은 "블랙, 박스, 블랙박스"일 수 있다. 이 경우, 복수의 단어로 구성된 복합어에 대해서도 처리할 수 있는 장점이 있다.
일례로, 중요도 계산부(101)는 문서에서 키워드의 형태소 유형 또는 문서내 출현 정보 중 적어도 하나를 고려하여 키워드의 중요도를 계산할 수 있다. 이 때, 중요도 계산부(101)는 문서에서 미리 설정한 빈도 이상 출현한 키워드를 대상으로 중요도를 계산할 수 있다.
중요도 계산부(101)는 키워드가 복합 명사인지 여부에 따라 상기 키워드의 중요도를 차등적으로 계산할 수 있다. 구체적으로, 중요도 계산부(101)는 키워드가 복합 명사인 경우 그렇지 않는 경우보다 높은 중요도가 결정될 수 있다. 왜냐하면, 키워드가 복합 명사인 경우, 복합 명사를 구성하는 단어 각각으로 인해 해당 키워드의 성격이 명확해지기 때문에, 해당 키워드를 포함하는 문서의 성격도 정확하게 정의될 수 있다.
그리고, 중요도 계산부(101)는 키워드의 문서 출현 빈도 및 키워드의 문서내 출현 위치를 이용하여 문서내 출현 정보를 결정할 수 있다. 키워드의 중요도는 문서내 출현 정보에 기초하여 계산될 수 있다.
본 발명에서 키워드의 중요도는 문서에 종속되기 때문에, 동일한 키워드라고 하더라도 해당 키워드를 포함하는 문서에 따라 중요도가 다르게 결정될 수 있다. 중요도를 계산하는 과정에 대해서는 도 3에서 구체적으로 설명하기로 한다.
카테고리 선택부(102)는 문서에 포함된 키워드의 카테고리에 기초하여 문서의 카테고리를 선택할 수 있다.
일례로, 카테고리 선택부(102)는 Naive Bayesian Classifier에 따라 문서에서 추출된 키워드의 카테고리별 출현 빈도를 이용하여 문서의 카테고리를 선택할 수 있다. 다른 일례로, 카테고리 선택부(102)는 PageRank에 따라 문서에 추출된 키워드의 카테고리별 출현 빈도에 문서에서의 키워드의 중요도를 반복적으로 적용하여 문서의 카테고리를 선택할 수 있다. 카테고리를 선택하는 과정에 대해서는 도 4 및 도 5에서 구체적으로 설명하기로 한다.
대표 키워드 결정부(103)는 문서의 카테고리 및 키워드의 중요도를 고려하여 문서에 관한 적어도 하나의 대표 키워드를 결정할 수 있다. 즉, 키워드가 동음이의어인 경우, 대표 키워드 결정부(103)는 해당 키워드가 문서의 카테고리로 분류된 키워드에 해당하면 키워드 광고를 위한 대표 키워드로 결정할 수 있다. 즉, 대표 키워드 결정부(103)는 동음이의어에 대해서도 키워드 광고의 정확도를 보장할 수 있다.
결국, 문서에 포함된 키워드들은 도 1의 키워드 추출 시스템(100)을 통해 문서 내에서 중요도가 높으면서도 문서의 카테고리에 속하는 경우에 키워드 광고를 위한 대표 키워드로 추출될 수 있다. 추출된 대표 키워드는 키워드 광고와 매칭되어 광고 데이터베이스에 등록될 수 있다.
도 2는 본 발명의 일실시예에 따라 문서로부터 키워드 광고를 위한 키워드를 추출하는 과정을 설명하기 위한 도면이다.
도 2를 참고하면, 문서에 키워드 광고의 근거가 되는 키워드 A, 키워드 B 및 키워드 C를 포함한다고 가정한다. 그러면, 키워드 추출 시스템(100)은 키워드 A, 키워드 B 및 키워드 C 각각에 대해 문서 내에서의 중요도를 계산할 수 있다. 또는, 성능 향상을 위해, 키워드 추출 시스템(100)은 명사 또는 복합 명사가 아니거나 문서 내 미리 설정된 빈도 이상 출현하지 않은 키워드 B를 필터링한 후 중요도를 계산할 수도 있다.
그리고, 키워드 추출 시스템(100)은 키워드 A, 키워드 B 및 키워드 C 각각의 카테고리를 이용하여 문서의 카테고리를 선택할 수 있다. 이 때, 키워드 추출 시스템(100)은 문서에서 추출된 키워드 A, 키워드 B 및 키워드 C의 카테고리별 출현 빈도를 이용하여 문서의 카테고리를 선택할 수 있다. 또는, 키워드 추출 시스템(100)은 문서에서 추출된 키워드 A, 키워드 B 및 키워드 C의 카테고리별 출현 빈도에 문서에서의 중요도를 반복적으로 적용하여 문서의 카테고리를 선택할 수 있다.
도 2에서는 키워드 A와 키워드 C로 인해 문서가 카테고리 (가)에 속하는 것으로 결정되었다. 그럼, 문서에 포함된 키워드들 중 문서의 카테고리(가)에 속하는 키워드인 키워드 A, 키워드 C가 최종적으로 추출되고, 추출된 키워드 A와 키워드 C는 키워드 광고와 각각 매칭될 수 있다. 만약, 키워드 B가 동음이의어이고 실질적인 의미가 문서의 카테고리 (가)와 전혀 무관한 경우, 키워드 추출 시스템(100)은 키워드 B를 추출하지 않을 수 있다.
도 3은 본 발명의 일실시예에 따라 문서로부터 추출된 키워드의 중요도를 계산하는 과정을 설명하기 위한 도면이다.
키워드 추출 시스템(100)은 문서로부터 적어도 하나의 키워드를 추출하여, 키워드 각각에 대해 문서 내에서의 중요도를 계산할 수 있다. 일례로, 도 3을 참고하면, 키워드 추출 시스템(100)은 키워드의 형태소 유형 또는 문서내 출현 정보 중 적어도 하나를 고려하여 키워드의 중요도를 계산할 수 있다. 이 때, 형태소 유형은 복합 명사와 복합 명사외 형태소로 구분될 수 있다. 즉, 키워드 추출 시스템(100)은 동사, 단일 명사, 부사와 같은 형태소보다 많은 정보를 가지고 있는 복합 명사에 높은 가중치를 부여하여 중요도를 계산할 수 있다.
이 때, 키워드인 복합 명사를 구성하는 단어가 많을수록 중요도는 높게 계산될 수 있다. 만약, 키워드의 형태소가 복합 명사가 아닌 경우, 키워드의 중요도는 1의 가중치가 적용되는 반면, 키워드의 형태소가 복합 명사인 경우, 키워드의 중요도는 1과 복합 명사인 키워드를 구성하는 단어의 개수에 따라 의 가중치가 적용될 수 있다. 즉, 꽃 배달보다는 직장인 신용 대출과 같은 키워드가 높은 가중치가 적용될 수 있다.
그리고, 문서내 출현 정보는 문서 내의 출현 빈도와 문서내 출현 위치로 구분될 수 있다. 특히, 문서내의 출현 빈도는 키워드의 문서내 출현 위치에 가중치가 부여될 수 있다. 즉, 키워드가 제목과 같이 문서의 성격을 직접적으로 나타내는 위치에 출현한 경우, 중요도는 높게 부여되며, 본문과 같이 문서의 성격을 직접적으로 나타내지 않는 위치에 출현한 경우 중요도는 낮게 부여될 수 있다. 도 3을 참고하면, 제목:태그:본문에 키워드가 위치할 때 출현 빈도에 대한 가중치는 각각 5:3:1로 결정될 수 있다.
도 4는 본 발명의 일실시예에 따라 문서의 카테고리를 선택하는 과정을 설명하기 위한 도면이다.
특히, 도 4는 Naive Bayesian Classifier에 따라 문서에서 추출된 키워드의 카테고리별 출현 빈도를 이용하여 문서의 카테고리를 선택하는 과정을 나타낸다. 도 4를 참고하면, 키워드 추출 시스템(100)은 키워드에 대해 미리 설정되어 있는 트리 형태의 업종 카테고리인 학습 데이터를 이용하여 문서의 카테고리를 선택할 수 있다. 학습 데이터는 고정된 것이 아니라 주기적으로 업데이트될 수 있다.
도 4에서 문서는 아직 카테고리가 정해지지 않은 상태라고 가정한다. 이 때, 문서는 하기 수학식 1에 따라 카테고리 C5, C6, C7, C8 각각의 확률이 계산될 수 있다.
Figure 112010076423940-pat00001
즉, 문서 D가 카테고리 C에 속할 확률은 문서 D에 속하는 키워드 k가 카테고리 C에 속하는 확률에 따라 결정된다. 구체적으로, 키워드 k가 카테고리 C5에 속하는 확률은 키워드 k가 모든 카테고리 C(C5, C6, C7, C8)에서의 출현 횟수 대비 카테고리 C5에서의 출현 횟수에 기초하여 결정된다. 그러면, 키워드 추출 시스템(100)은 카테고리 C5, C6, C7, C8 각각에 대해 문서가 속할 확률을 구하고, 가장 높은 확률을 나타내는 카테고리를 문서의 카테고리로 선택할 수 있다. 결국, 본 발명의 일실시예에 따르면, 문서의 카테고리는 문서에 속한 키워드 각각의 카테고리에 기초하여 결정될 수 있다.
도 5는 본 발명의 다른 실시예에 따라 문서의 카테고리를 선택하는 과정을 설명하기 위한 도면이다.
특히, 도 5는 PageRank에 따라 문서에 추출된 키워드의 카테고리별 출현 빈도에 문서 내에서의 키워드의 중요도를 반복적으로 적용하여 문서의 카테고리를 선택하는 과정을 나타낸다.
문서로부터 키워드 K1, K2, K3, K4, K5가 추출되었고, 도 5의 매트릭스(501)는 키워드 각각에 대해 카테고리 C5, C6, C7, C8에서의 출현 빈도로 구성된다. 즉, 본 발명의 일실시예에 따르면, 웹 페이지와 웹 페이지 간의 링크를 나타내는 PageRank의 기본 형태를 고려하여 키워드와 카테고리 간의 링크로 변환한 후 PageRank를 적용한 것이다.
그러면, 키워드 추출 시스템(100)은 매트릭스(501)에 중요도(502)를 적용하여 중요도(503)를 도출할 수 있다. 이 때, 중요도(502)는 키워드 K1, K2, K3, K4, K5의 최초 중요도를 의미하며, 문서에서 키워드의 출현 빈도, 출현 위치, 형태소 등에 따라 결정된 값이다. 이 후, 키워드 추출 시스템(100)은 매트릭스(501)에 첫번째 단계에서 도출된 중요도(503)를 적용하여 중요도(504)를 도출할 수 있다. 키워드 추출 시스템(100)은 도 5의 과정을 K회 반복함으로써 중요도를 특정한 값으로 수렴시킬 수 있다. 그러면, 키워드 추출 시스템(100)은 최종적인 중요도에서 가장 높은 중요도를 나타내는 카테고리를 문서의 카테고리로 설정할 수 있다.
도 4 및 5의 문서 카테고리 결정 방법은 예시적인 방법이며, 어떤 키워드가 문서 내에서 가지는 중요도에 관한 지표 및 그 키워드의 카테고리 정보에 기초하는 다양한 방법의 문서 카테고리 결정 방법이 사용될 수 있다. 이 과정에서 키워드 및 그 키워드 카테고리 사이의 연관도를 나태내는 지표가 고려될 수 있음은 물론이다. 도 6은 본 발명의 일실시예에 따라 문서로부터 키워드 광고를 위한 대표 키워드를 추출하는 예시를 도시한 도면이다.
도 6을 참고하면, 키워드 추출 시스템(100)은 문서(601)에 어휘 분석 모듈을 적용함으로써 문서(601)로부터 키워드 광고를 위한 대표 키워드의 후보군인 키워드를 추출할 수 있다. 문서(601)에 속하는 키워드는 어휘 분석 모듈을 통해 문서(601)에 포함된 횟수나 키워드의 속성 (품사 등)이 결정될 수 있다. 어휘 분석 모듈 자체의 기능은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에게 널리 알려진 수준인 바, 구체적인 설명은 생략한다.
문서(601)에서 추출된 키워드는 키워드 광고를 위한 대표 키워드의 후보 키워드가 될 수 있다. 문서(601)에 속하는 각 키워드 별로 문서(601)에서의 출현 빈도가 결정될 수 있다. 도 6을 참고하면, 문서(601)에서 "1가구 2주택"이라는 키워드는 복합 명사이며 2번 출현한 것을 의미한다.
일례로, 키워드 추출 시스템(100)은 문서(601)에서 추출된 키워드들 중 명사 또는 복합 명사와 같이 특정 형태소 유형만 선택하고 나머지는 필터링할 수 있다. 또한, 키워드 추출 시스템(100)은 미리 설정한 출현 빈도를 나타내는 키워드만 선택하고 나머지는 필터링할 수 있다. 도 6을 참고하면, 형태소 유형이나 출현 빈도에 따른 필터링을 적용하면, 문서(601)에서 추출된 키워드들 중 키워드 "1가구 2주택", "가구", "양도세" 및 "아파트"가 도출된다.
그러면, 키워드 추출 시스템(100)은 키워드의 카테고리를 기초로 문서(601)의 카테고리를 선택할 수 있다. 앞서 설명한 도 4와 도 5의 방법을 적용하면, 문서(601)는 카테고리 "세무>세무회계", "부동산>분양","가구/판매/임대"에 속할 수 있으며, 각각의 카테고리에 대한 점수가 산출될 수 있다.
이 후, 키워드 추출 시스템(100)은 문서의 카테고리 및 문서 내에서의 키워드의 중요도를 고려하여 문서에 관한 적어도 하나의 대표 키워드를 결정할 수 있다. 구체적으로, 키워드 추출 시스템(100)은 대표 키워드를 추출하기 위해, 관련도가 낮은 카테고리를 배제한 상태에서 대표 키워드를 결정할 수 있다. 예를 들어, 키워드 추출 시스템(100)은 관련도 기준 상위 N개의 카테고리와의 관련성에 기초하여 대표 키워드를 결정할 수 있으며, 관여하는 카테고리의 수는 가변적으로 설정될 수 있다.
이 후, 키워드 추출 시스템(100)은 문서(601)의 카테고리를 필터링하고, 키워드의 점수를 산출하여 키워드 광고를 위한 최종적인 대표 키워드를 도출할 수 있다. 키워드의 점수는 문서(601) 내의 중요도와 문서(601)의 카테고리 점수를 병합하여 산출될 수 있다. 도 6을 참고하면, 키워드 "양도세"에 대해 문서(601)에서 키워드의 중요도는 7점이고 문서(601)의 카테고리가 "세무>세무회계"일 때 카테고리 점수는 6점인 경우, 키워드의 점수는 42점으로 산출된다. 그리고, 키워드 "아파트"에 대해 문서(601)에서 키워드의 중요도는 8점이고, 문서(601)의 카테고리가 "부동산>분양"일 때 카테고리 점수는 8점인 경우, 키워드의 점수는 64점으로 산출될 수 있다.
특히, 키워드 "1가구 2주택"에 대해 문서(601)에서 키워드의 중요도는 9점이고, 문서(601)의 카테고리가 "세무>세무회계"와 "부동산>분양"일 때 카테고리 점수가 각각 6점과 8점인 경우, 키워드의 점수는 126점으로 산출될 수 있다. 그러나, 키워드 "가구"에 대해 문서(601)에서 키워드의 중요도는 7점이나 카테고리 점수에 따른 필터링 과정을 통해 필터링된 것을 알 수 있다. 즉, 문서(601)는 실제 "세무>세무회계", "부동산>분양"이라는 카테고리와 관련이 있고, "가구/판매/임대"이라는 카테고리와는 관련도가 떨어지는 것을 알 수 있다.
그러면, 키워드 "1가구 2주택"은 문서(601)와의 관계에서 높은 점수가 산출되는 반면, 키워드 "가구"는 키워드 "1가구 2주택"의 동음이의어 관계로 문서(601)와의 관계에서 낮은 점수가 산출된다. 결국, 도 6과 같이 상위 3위에 속하는 키워드만 키워드 광고의 대상이 되는 경우, "1가구 2주택", "양도세", "아파트"가 최종적으로 결정되고 "가구"는 필터링될 수 있다.
따라서, 본 발명의 일실시예에 따르면, 문서에 포함된 키워드라도 동음이의어 관계에 있어 문서와 관련도가 떨어지는 키워드에 대해서는 키워드 광고의 대상으로 결정하지 않기 때문에 키워드 광고의 정확도는 향상될 수 있다.
이상 도 6을 참조하여 설명한 대표 키워드를 결정하는 방법에서 문서의 카테고리 점수와 해당 카테고리에 속하는 키워드의 문서 내 중요도가 곱해져 대표 키워드를 결정하기 위한 점수로 환산되었으나, 문서의 카테고리 및 해당 카테고리와 문서 내 키워드간의 관련성에 기초한 다양한 점수 계산 방법들이 대표 키워드를 결정하기 위해 활용될 수 있다.
또 다른 예로서, 문서의 대표 키워드를 결정할 때 기초가 되는 문서의 카테고리가 결정되는 경우, 그 결정된 문서의 카테고리에 관한 각 키워드의 기여도 (해당 카테고리가 문서의 키워드로 결정되는 과정에서의 키워드 기여도)가 대표 키워드 선정의 기준으로 활용될 수 있다.
문서의 카테고리를 분류하기 위한 점수 계산 과정에서, 각 카테고리와 문서의 관련도를 계산하기 위해, 각 문서에 속하는 키워드의 카테고리 정보, 문서 내에서의 해당 키워드 중요도 및 해당 카테고리와 키워드간의 관련성이 고려될 수 있다.
어떤 카테고리가, 대표 키워드 선정을 위해, 문서의 카테고리로 결정되는 경우, 대표 키워드 선정 방법은, 그 카테고리가 문서의 카테고리로 결정되는 과정에서 보다 많은 기여를 한 키워드가 대표 키워드가 될 가능성이 더 높도록 동작할 수 있다. 예를 들어, 문서의 카테고리인 카테고리 1, 2 및 3의 점수가 각각 100점, 80점, 60점이라고 가정한다. 이 때, 키워드 추출 시스템(100)은 상위 2개의 카테고리에 대해 문서에 포함된 키워드가 기여한 점수를 합산하여 대표 키워드를 결정할 수 있다. 구체적으로, 키워드 A가 카테고리 1의 100점 중 기여한 부분이 15점이고 카테고리 2의 80점 중 기여한 부분이 10점이면, 키워드 A의 최종 점수는 25점이 된다. 이와 같은 방식으로 키워드 추출 시스템(100)은 문서에 포함된 키워드의 최종 점수를 산출하여 문서에 관한 적어도 하나의 대표 키워드를 결정할 수 있다. 예를 들어, 키워드 추출 시스템(100)은 최종 점수가 특정 임계치 이상인 키워드를 대표 키워드로 결정하거나 상위 M개의 키워드를 대표 키워드로 결정할 수 있다.
도 7은 본 발명의 일실시예에 따라 키워드 추출 방법을 도시한 플로우차트이다.
키워드 추출 시스템(100)은 문서에 포함된 적어도 하나의 키워드에 대하여 문서 내에서의 상기 키워드의 중요도를 계산할 수 있다(S701). 일례로, 키워드 추출 시스템(100)은 문서에서 키워드의 형태소 유형 또는 문서 내 출현 정보 중 적어도 하나를 고려하여 키워드의 중요도를 계산할 수 있다. 이 때, 키워드 추출 시스템(100)은 문서에서 미리 설정한 빈도 이상 출현한 키워드를 대상으로 중요도를 계산할 수 있다.
이 때, 키워드 추출 시스템(100)은 키워드가 복합 명사인지 여부에 따라 키워드의 중요도를 차등적으로 계산할 수 있다. 구체적으로, 키워드가 복합 명사인 경우 문서의 내용을 잘 표현한다고 가정하여 복합 명사가 아닌 키워드보다 중요도를 높게 계산할 수 있다.
그리고, 문서내 출현 정보는 키워드의 문서 출현 빈도 및 키워드의 문서내 출현 위치를 포함할 수 있다. 키워드의 문서 출현 빈도가 높을수록 키워드의 중요도는 높게 계산되고, 키워드의 문서 내 출현 위치가 제목, 태그, 본문인 경우, 제목, 태그, 본문 순으로 중요도가 계산될 수 있다.
키워드 추출 시스템(100)은 키워드의 카테고리에 기초하여 문서의 카테고리를 선택할 수 있다(S702). 일례로, 키워드 추출 시스템(100)은 문서에서 추출된 키워드의 카테고리별 출현 빈도를 이용하여 문서의 카테고리를 선택할 수 있다. 그리고, 키워드 추출 시스템(100)은 문서에 추출된 키워드의 카테고리별 출현 빈도에 문서에서 키워드의 중요도를 반복적으로 적용하여 문서의 카테고리를 선택할 수 있다.
그러면, 키워드 추출 시스템(100)은 문서의 카테고리 및 키워드의 중요도를 고려하여 문서에 관한 적어도 하나의 대표 키워드를 결정할 수 있다(S703). 이러한 과정을 통해 문서에서 추출된 키워드들 중 동음이의어 관계에 있어 문서의 카테고리와 관련도가 떨어지는 키워드는 키워드 광고를 위한 대상으로 선정되지 않기 때문에, 키워드 광고의 정확도는 향상될 수 있다.
일례로, 키워드 추출 시스템(100)은 문서의 카테고리 점수와 문서 내에서의 키워드의 중요도를 조합한 점수를 이용하여 대표 키워드를 결정할 수 있다. 다른 일례로, 키워드 추출 시스템(100)은 문서의 카테고리 점수에 대해 문서에 포함된 키워드가 기여한 기여도를 이용하여 대표 키워드를 결정할 수 있다.
도 7에서 구체적으로 설명되지 않은 부분은 도 1 내지 도 6의 설명을 참고할 수 있다.
본 발명의 실시 예에 따른 방법들은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.
100: 키워드 추출 시스템
101: 중요도 계산부
102: 카테고리 선택부
103: 대표 키워드 결정부

Claims (19)

  1. 문서에 포함된 적어도 하나의 키워드에 대하여 상기 문서 내에서의 상기 키워드의 중요도를 계산하는 중요도 계산부;
    상기 키워드의 카테고리에 기초하여 상기 문서의 카테고리를 선택하는 카테고리 선택부; 및
    상기 문서의 카테고리 및 상기 키워드의 중요도를 고려하여 상기 문서에 관한 적어도 하나의 대표 키워드를 결정하는 대표 키워드 결정부
    를 포함하고,
    상기 중요도 계산부는,
    상기 문서에서 복합명사 및 복합 명사외 형태소로 구분되는 키워드의 형태소 유형을 고려하여 상기 키워드의 중요도를 차등적으로 계산하는 키워드 추출 시스템.
  2. 제1항에 있어서,
    상기 중요도 계산부는,
    상기 문서에서 키워드의 문서내 출현 정보를 고려하여 상기 키워드의 중요도를 계산하는 것을 특징으로 하는 키워드 추출 시스템.
  3. 삭제
  4. 제2항에 있어서,
    상기 중요도 계산부는,
    상기 문서에서 미리 설정한 빈도 이상 출현한 키워드의 중요도를 계산하는 것을 특징으로 하는 키워드 추출 시스템.
  5. 제2항에 있어서,
    상기 중요도 계산부는,
    상기 키워드의 문서 출현 빈도 및 상기 키워드의 문서내 출현 위치를 이용하여 문서내 출현 정보를 결정하는 것을 특징으로 하는 키워드 추출 시스템.
  6. 제1항에 있어서,
    상기 카테고리 선택부는,
    상기 문서에서 추출된 키워드의 카테고리별 출현 빈도를 이용하여 상기 문서의 카테고리를 선택하는 것을 특징으로 하는 키워드 추출 시스템.
  7. 제1항에 있어서,
    상기 카테고리 선택부는,
    상기 문서에 추출된 키워드의 카테고리별 출현 빈도에 상기 문서에서 키워드의 중요도를 반복적으로 적용하여 상기 문서의 카테고리를 선택하는 것을 특징으로 하는 키워드 추출 시스템.
  8. 제1항에 있어서,
    상기 대표 키워드 결정부는,
    상기 문서의 카테고리 점수와 상기 문서 내에서의 키워드의 중요도를 조합한 점수를 이용하여 대표 키워드를 결정하는 것을 특징으로 하는 키워드 추출 시스템.
  9. 제1항에 있어서,
    상기 대표 키워드 결정부는,
    상기 문서의 카테고리 점수에 대해 상기 문서에 포함된 키워드가 기여한 기여도를 이용하여 대표 키워드를 결정하는 것을 특징으로 하는 키워드 추출 시스템.
  10. 키워드 추출 시스템에 의하여 수행되는 키워드 추출 방법에 있어서,
    상기 키워드 추출 시스템의 중요도 계산부가, 문서에 포함된 적어도 하나의 키워드에 대하여 상기 문서 내에서의 중요도를 계산하는 단계;
    상기 키워드 추출 시스템의 카테고리 선택부가 상기 키워드의 카테고리 정보에 기초하여 상기 문서의 카테고리를 선택하는 단계; 및
    상기 키워드 추출 시스템의 대표 키워드 결정부가, 상기 문서의 카테고리 및 상기 문서 내에서의 상기 키워드의 중요도를 고려하여 상기 문서에 관한 적어도 하나의 대표 키워드를 결정하는 단계
    를 포함하고,
    상기 문서에서 키워드의 중요도를 계산하는 단계는,
    상기 문서에서 복합명사 및 복합 명사외 형태소로 구분되는 키워드의 형태소 유형을 고려하여 상기 키워드의 중요도를 차등적으로 계산하는 키워드 추출 방법.
  11. 제10항에 있어서,
    상기 문서에서 키워드의 중요도를 계산하는 단계는,
    상기 문서에서 키워드의 문서내 출현 정보 중 적어도 하나를 고려하여 상기 키워드의 중요도를 계산하는 것을 특징으로 하는 키워드 추출 방법.
  12. 삭제
  13. 제11항에 있어서,
    상기 문서에서 키워드의 중요도를 계산하는 단계는,
    상기 문서에서 미리 설정한 빈도 이상 출현한 키워드의 중요도를 계산하는 것을 특징으로 하는 키워드 추출 방법.
  14. 제11항에 있어서,
    상기 문서에서 키워드의 중요도를 계산하는 단계는,
    상기 키워드의 문서 출현 빈도 및 상기 키워드의 문서내 출현 위치를 이용하여 문서내 출현 정보를 결정하는 것을 특징으로 하는 키워드 추출 방법.
  15. 제10항에 있어서,
    상기 문서의 카테고리를 선택하는 단계는,
    상기 문서에서 추출된 키워드의 카테고리별 출현 빈도를 이용하여 상기 문서의 카테고리를 선택하는 것을 특징으로 하는 키워드 추출 방법.
  16. 제10항에 있어서,
    상기 문서의 카테고리를 선택하는 단계는,
    상기 문서에 추출된 키워드의 카테고리별 출현 빈도에 상기 문서에서 키워드의 중요도를 반복적으로 적용하여 상기 문서의 카테고리를 선택하는 것을 특징으로 하는 키워드 추출 방법.
  17. 제10항에 있어서,
    상기 대표 키워드를 결정하는 단계는,
    상기 문서의 카테고리 점수와 상기 문서 내에서의 키워드의 중요도를 조합한 점수를 이용하여 대표 키워드를 결정하는 것을 특징으로 하는 키워드 추출 방법.
  18. 제10항에 있어서,
    상기 대표 키워드를 결정하는 단계는,
    상기 문서의 카테고리 점수에 대해 상기 문서에 포함된 키워드가 기여한 기여도를 이용하여 대표 키워드를 결정하는 것을 특징으로 하는 키워드 추출 방법.
  19. 제10항 내지 제11항, 및 제13항 내지 제18항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.
KR1020100116811A 2010-11-23 2010-11-23 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법 KR101614551B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100116811A KR101614551B1 (ko) 2010-11-23 2010-11-23 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법
JP2011254699A JP5832869B2 (ja) 2010-11-23 2011-11-22 カテゴリーマッチングを用いたキーワード抽出システムおよびキーワード抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100116811A KR101614551B1 (ko) 2010-11-23 2010-11-23 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20120075553A KR20120075553A (ko) 2012-07-09
KR101614551B1 true KR101614551B1 (ko) 2016-04-22

Family

ID=46497792

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100116811A KR101614551B1 (ko) 2010-11-23 2010-11-23 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법

Country Status (2)

Country Link
JP (1) JP5832869B2 (ko)
KR (1) KR101614551B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101602855B1 (ko) * 2014-04-04 2016-03-14 김윤환 설명서 검색 키워드를 활용한 애프터서비스 요청 방법
JP6975118B2 (ja) * 2018-09-26 2021-12-01 Kddi株式会社 抽出装置及びプログラム
JP7142975B1 (ja) 2021-10-13 2022-09-28 ケージーパルテック株式会社 戸袋走行レールセット、戸袋走行レールセット設置方法、および戸袋走行レール調整方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4008551B2 (ja) * 1997-11-07 2007-11-14 富士通株式会社 キーワード重み生成装置、キーワード重み生成方法及びコンピュータ読み取り可能な記録媒体
JP2003281159A (ja) * 2002-03-19 2003-10-03 Fuji Xerox Co Ltd 文書処理装置及び文書処理方法、文書処理プログラム
US7716161B2 (en) * 2002-09-24 2010-05-11 Google, Inc, Methods and apparatus for serving relevant advertisements
JP2004185515A (ja) * 2002-12-05 2004-07-02 Ricoh Co Ltd テキストデータ評価装置、その方法、そのプログラム、及びその記録媒体
US8463779B2 (en) * 2007-10-30 2013-06-11 Yahoo! Inc. Representative keyword selection
JP4859893B2 (ja) * 2008-08-12 2012-01-25 ヤフー株式会社 広告配信装置、広告配信方法、及び広告配信制御プログラム
US8224693B2 (en) * 2009-05-14 2012-07-17 Hewlett-Packard Development Company, L.P. Advertisement selection based on key words

Also Published As

Publication number Publication date
KR20120075553A (ko) 2012-07-09
JP2012113716A (ja) 2012-06-14
JP5832869B2 (ja) 2015-12-16

Similar Documents

Publication Publication Date Title
CN110020422B (zh) 特征词的确定方法、装置和服务器
US8630972B2 (en) Providing context for web articles
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
US9483460B2 (en) Automated formation of specialized dictionaries
CN107544988B (zh) 一种获取舆情数据的方法和装置
US10565311B2 (en) Method for updating a knowledge base of a sentiment analysis system
CN110909531B (zh) 信息安全的甄别方法、装置、设备及存储介质
JPWO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
US11874882B2 (en) Extracting key phrase candidates from documents and producing topical authority ranking
KR101541306B1 (ko) 컴퓨터 실행 가능한 중요 키워드 추출 방법, 이를 수행하는 중요 키워드 추출 서버 및 이를 저장하는 기록매체
CN111506831A (zh) 一种协同过滤的推荐模块、方法、电子设备及存储介质
CN110287314A (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN103324641B (zh) 信息记录推荐方法和装置
JP5226241B2 (ja) タグを付与する方法
KR100892847B1 (ko) 광고 집행에 따른 반응정보 제공 방법 및 시스템
KR101614551B1 (ko) 카테고리 매칭을 이용한 키워드 추출 시스템 및 방법
CN107665442B (zh) 获取目标用户的方法及装置
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
KR102028356B1 (ko) 코멘트 기반의 광고 추천 장치 및 방법
US9104755B2 (en) Ontology enhancement method and system
CN114302227A (zh) 基于容器采集的网络视频采集与解析的方法和系统
EP3103029A1 (en) A query expansion system and method using language and language variants
CN115048483A (zh) 信息管理系统
RU2589856C2 (ru) Способ обработки целевого сообщения, способ обработки нового целевого сообщения и сервер (варианты)
KR20220116086A (ko) 텍스트 데이터의 수집·정제 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20190328

Year of fee payment: 4