KR102019194B1 - 문서 내 핵심 키워드 추출 시스템 및 방법 - Google Patents

문서 내 핵심 키워드 추출 시스템 및 방법 Download PDF

Info

Publication number
KR102019194B1
KR102019194B1 KR1020170156375A KR20170156375A KR102019194B1 KR 102019194 B1 KR102019194 B1 KR 102019194B1 KR 1020170156375 A KR1020170156375 A KR 1020170156375A KR 20170156375 A KR20170156375 A KR 20170156375A KR 102019194 B1 KR102019194 B1 KR 102019194B1
Authority
KR
South Korea
Prior art keywords
words
word
candidate
keywords
document
Prior art date
Application number
KR1020170156375A
Other languages
English (en)
Other versions
KR20190058935A (ko
Inventor
김문종
장정훈
Original Assignee
주식회사 와이즈넛
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 와이즈넛 filed Critical 주식회사 와이즈넛
Priority to KR1020170156375A priority Critical patent/KR102019194B1/ko
Priority to PCT/KR2017/013869 priority patent/WO2019103224A1/ko
Publication of KR20190058935A publication Critical patent/KR20190058935A/ko
Application granted granted Critical
Publication of KR102019194B1 publication Critical patent/KR102019194B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F17/2705
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F17/2795
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 문서 내 핵심 키워드 추출 시스템에 관한 것으로서, 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 후보단어선정부; 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 후보단어선정부에서 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 유사의미단어선정부; 및 상기 후보 단어와 상기 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 키워드추출부; 를 포함하는 것을 특징으로 한다.
또한 본 발명은, 문서 내 핵심 키워드 추출 방법에 관한 것으로서, 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 제1단계; 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 제1단계를 통해 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 제2단계; 및 상기 제1단계를 통한 후보 단어와 상기 제2단계를 통한 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 제3단계; 로 이루어지는 것을 특징으로 한다.
이에 의해, 서로 상이한 키워드 선정 알고리즘을 이용하여 얻어진 단어 집합에 대하여 정규화된 가중치를 이용하여 키워드 추출을 수행함으로써 추출 품질을 향상시킬 수 있다.
또한, 문서 내의 단어의 링크 관계로 가중치가 결정되어 선정된 후보 단어 집합과 문서 내의 유사 의미를 갖는 연관 단어 집합을 적절히 임베딩하고 각 단어 집합에 적용되는 가중치를 보정(가중치의 정규화)함으로써 문서 내의 중요 단어(링크가 많은) 뿐만이 아닌 중요 단어와 관계된 연관 단어의 추출을 구현할 수 있다.

Description

문서 내 핵심 키워드 추출 시스템 및 방법{Core keywords extraction system and method in document}
본 발명은 문서 내 핵심 키워드 추출 시스템 및 방법에 관한 것으로서, 보다 상세하게는, 서로 상이한 키워드 선정 알고리즘을 이용하여 얻어진 단어 집합에 대하여 정규화된 가중치를 이용하여 키워드 추출을 수행함으로써 추출 품질을 향상시킬 수 있는 문서 내 핵심 키워드 추출 시스템 및 방법에 관한 것이다.
키워드는 문장을 대표할 수 있는 단어나 구의 형태로써 비정형 텍스트 데이터의 의미를 파악하기 위한 중요한 요소이다.
키워드를 추출하기 위한 연구는 1950년 한스 피터 룬 교수가 고안한 TF-IDF(Term Frequency - Inverse Document Frequency)가 대표적이며, 이후에는 그래프 기반, 계층 구조 및 단어 임베딩을 통한 키워드 추출 방법들이 등장하였다.
최근에는 키워드를 활용하여 문서 군집화, 요약, 분류 및 검색 등과 같은 다양한 응용 분석이 수행되고 있기 때문에 키워드의 중요성은 더욱 커지고 있다.
키워드 구성에 따라 문서의 분류나 요약이 달라지게 되고 그 결과에 따라 사용자에게 얼마나 더 가치 있고 유용한 정보를 주는지가 결정된다.
또한, 텍스트 분석을 통해 원하는 정보를 빠르게 파악하고 의사결정에 도움을 주기 때문에 키워드 추출 및 응용 분석에 대한 연구가 계속적으로 진행되고 있다.
한편, 키워드를 추출하기 위한 방법으로 TF-IDF 알고리즘뿐 아니라, 그래프 기반의 텍스트랭크 및 계층 구조 방법 등의 연구가 진행되어 왔고 최근에는 word2vec와 같은 단어 임베딩을 통해 유사한 의미를 군집하고 이를 통해 단어의 관계를 분석하는 방법 등이 연구되고 있다.
또한 키워드 추출의 품질을 높이기 위해 분석 알고리즘뿐 아니라 키워드 후보 단어의 가중치 조정, 불용어 처리 등 다양한 방법이 병행되고 있으며, 관련 선행기술로는 대한민국 공개특허공보 제10-2013-0045054호(2013.05.03. 공개, 키워드 추출 및 정련 시스템과 그 방법) 및 대한민국 공개특허공보 제10-2013-0142124(2013.12.27. 공개, 키워드 추출에 관한 시스템 및 방법) 등이 있었다.
그러나 상기 선행기술들은 특정 알고리즘 및 추출 기법을 통해 키워드를 추출하는 방식을 채택하고 있었으며, 단일의 특정 알고리즘을 사용하여 키워드를 추출하게 되면 그 알고리즘의 특성에 맞게 단어의 가중치를 계산하기 때문에 가중치가 낮은 단어는 키워드로 추출하지 못하게 되는 문제점이 있었다.
선행기술1 : 대한민국 공개특허공보 제10-2013-0045054호(2013.05.03. 공개, 키워드 추출 및 정련 시스템과 그 방법) 선행기술2 : 대한민국 공개특허공보 제10-2013-0142124(2013.12.27. 공개, 키워드 추출에 관한 시스템 및 방법)
본 발명의 목적은, 텍스트랭크 알고리즘 기반의 키워드 추출과 word2vec 알고리즘 기반의 키워드 추출을 앙상블 기법으로 융합시킴과 동시에 각 알고리즘의 장점을 부각시키고 단점을 최소화시킨 문서 내 핵심 키워드 추출 시스템 및 방법을 제공하는 데 있다.
구체적으로 텍스트랭크에서는 불용어를 제거하는 전처리 과정을 수행하여 텍스트랭크의 품질을 향상시켰으나 텍스트랭크는 단어 간의 링크 관계로 가중치가 결정되기 때문에 의미 기반의 분석은 수행하지 못한다는 단점이 있었다. 이를 해결하기 위하여 텍스트랭크에 의해 추출된 키워드를 word2vec를 통해 의미 기반으로 분석하여 유사 의미 키워드를 선정하도록 하여 텍스트랭크의 단점을 보완하였고 각각의 분석 결과를 앙상블 기법을 통해 최종 키워드로 추출함으로써 키워드 추출 및 분석 결과의 품질의 향상을 기대할 수 있다.
정리하면, 앙상블 기법을 통하면 각각의 알고리즘으로 키워드를 추출한 결과가 가지고 있는 문제점과 이로 인해 키워드 추출의 품질이 떨어지는 부분을 보완할 수 있다. 즉 텍스트랭크에서는 불용어 제거한 자질들 간의 텍스트랭크를 통해 후보 단어를 선정하는 과정을 통해 품질을 향상시키고, word2vec에서는 후보 단어의 유사 단어에 대해 문서 내에 쓰임에 따라 가중치를 계산해주기 때문에 분석한 유사 단어에 대한 가중치를 계산할 수 있다. 이렇게 선정된 모든 후보 단어들은 앙상블 알고리즘의 가중치 정규화 요소를 거치게 되어 향상된 품질의 최종 키워드를 추출할 수 있다.
상기 목적은, 본 발명에 따라, 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 후보단어선정부; 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 후보단어선정부에서 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 유사의미단어선정부; 및 상기 후보 단어와 상기 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 키워드추출부; 를 포함하는 문서 내 핵심 키워드 추출 시스템에 의해 달성될 수 있다.
여기서, 상기 후보단어선정부는, 상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 전처리부분; 및 상기 전처리부분을 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1가중치계산부분; 을 포함한다.
또한, 상기 전처리부분은 RIDF(Residual Inverse Document Frequency) 알고리즘을 이용하여 불용어를 제거하도록 마련되며, 상기 RIDF 알고리즘은 IDF(Inverse Document Frequency)와 푸아송 분포(Poisson distribution)를 이용하여 구현되며, 상기 전처리부분을 통해 불용어가 제거된 키워드는 상기 제1가중치계산부분의 자질로 이용된다.
여기서, 상기 유사의미단어선정부는, 상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 임베딩부분; 및 상기 임베딩부분을 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2가중치계산부분; 을 포함한다.
또한, 상기 제2가중치는 유사 의미 단어의 자질 벡터 간의 거리가 가까울수록 또는 문장 내에서 출현 빈도가 많을수록 높게 산출된다.
여기서, 상기 키워드추출부는, 상기 후보단어선정부에서 선정된 후보 단어 집합과 상기 유사의미단어선정부에서 선정된 유사 의미 단어 집합을 병합시키는 단어집합병합부분; 및 상기 단어집합병합부분으로부터 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 가중치정규화부분; 을 포함한다.
한편, 상기 목적은 본 발명에 따라, 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 제1단계; 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 제1단계를 통해 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 제2단계; 및 상기 제1단계를 통한 후보 단어와 상기 제2단계를 통한 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 제3단계; 로 이루어지는 문서 내 핵심 키워드 추출 방법에 의해서도 달성될 수 있다.
여기서, 상기 제1단계는, 상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 제1-1단계; 및 상기 제1-1단계를 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1-2단계; 를 포함한다.
또한, 상기 제2단계는, 상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 제2-1단계; 및 상기 제2-1단계를 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2-2단계; 를 포함한다.
또한, 상기 제3단계는, 상기 제1단계를 통해 선정된 후보 단어 집합과 상기 제2단계를 통해 선정된 유사 의미 단어 집합을 병합시키는 제3-1단계; 상기 제3-1단계를 통해 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 제3-2단계; 를 포함한다.
본 발명에 의해, 서로 상이한 키워드 선정 알고리즘을 이용하여 얻어진 단어 집합에 대하여 정규화된 가중치를 이용하여 키워드 추출을 수행함으로써 추출 품질을 향상시킬 수 있다.
또한, 문서 내의 단어의 링크 관계로 가중치가 결정되어 선정된 후보 단어 집합과 문서 내의 유사 의미를 갖는 연관 단어 집합을 적절히 임베딩하고 각 단어 집합에 적용되는 가중치를 보정(가중치의 정규화)함으로써 문서 내의 중요 단어(링크가 많은) 뿐만이 아닌 중요 단어와 관계된 연관 단어의 추출을 구현할 수 있다.
또한, 오늘날 비정형 데이터에 대한 수가 방대해짐에 따라 기업뿐만 아니라 사회 전반적으로 효율적인 업무 관리를 하기 위한 요구가 계속적으로 증가하고 있다. 이에 따라 축적된 비정형 텍스트 데이터에서 키워드를 추출하여 문서의 주제를 보다 빠르게 얻을 수 있고, 이를 통해 기업 의사 결정에 기여 할 수 있다. 키워드와 유사한 의미의 단어를 같이 키워드로 추출하면 기존에 얻지 못했던 새로운 키워드 정보를 얻을 수 있을 뿐 아니라 키워드 간의 연관 정보도 같이 파악할 수 있는 장점이 있다.
결과적으로, 문서 요약, 분류, 군집화, 색인 및 검색 등 다양한 응용분석 기법들이 키워드를 활용하고 있기 때문에 키워드 추출 품질을 향상시킴으로써 응용분석 분석 결과의 품질의 향상을 기대할 수 있다.
도 1 은 본 발명에 따른 문서 내 핵심 키워드 추출 시스템의 구성을 나타낸 블럭도이며,
도 2 는 본 발명에 따른 문서 내 핵심 키워드 추출 방법의 전체적인 흐름도이며,
도 3 은 본 발명에 따른 문서 내 핵심 키워드 추출 방법의 세부 과정이 표현된 흐름도이다.
이하, 첨부된 도면을 참조하여 본 발명의 구성을 상세히 설명하기로 한다.
이에 앞서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
또한, 본 명세서 및 청구범위에 사용된 용어는 사전적인 의미로 한정 해석되어서는 아니되며, 발명자는 자신의 발명을 최선의 방법으로 설명하기 위해 용어의 개념을 적절히 정의할 수 있다는 원칙에 입각하여, 본 발명의 기술적 사상에 부합되는 의미와 개념으로 해석되어야 한다.
따라서, 본 명세서에 기재된 실시예 및 도면에 도시된 구성은 본 발명의 바람직한 실시예에 불과할 뿐이고, 본 발명의 기술적 사상을 모두 표현하는 것은 아니므로, 본 출원 시점에 있어 이들을 대체할 수 있는 다양한 균등물과 변형예들이 존재할 수 있음을 이해하여야 한다.
1. 문서 내 핵심 키워드 추출 시스템에 대한 구체적인 설명
이하에서 설명하는 문서 내 핵심 키워드 추출 시스템은 기본적으로 데이터 저장 구성과 데이터 가공, 분석 및 처리를 담당하는 데이터 연산 구성으로 이루어지며, 이를 소프트웨어 및 하드웨어 형태로 구현하기 위한 데이터 전달, 코딩, 연산 흐름, 회로 설계 등의 기술이 복합적으로 융합되어 문서 내의 앙상블 기법의 키워드 추출 시스템이 구축됨을 밝혀둔다.
도 1 은 본 발명에 따른 문서 내 핵심 키워드 추출 시스템의 구성을 나타낸 블럭도이다.
도 1 을 참조하면, 본 발명에 따른 문서 내 핵심 키워드 추출 시스템(100)은, 후보단어선정부(10)와 유사의미단어선정부(20) 및 키워드추출부(30)를 포함한다.
후보단어선정부(10)는 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 역할을 수행하는 구성으로 텍스트랭크 알고리즘을 통해 후보 단어를 선정한다.
텍스트랭크는 Mihalcea(2004)이 제안한 알고리즘으로 구글의 페이지랭크를 활용한 그래프 기반의 랭킹 모델이다. 페이지랭크는 링크를 가지는 웹 문서에 상대적 중요도의 따라 가중치를 부여하는 방법인데 텍스트랭크는 페이지랭크의 알고리즘을 활용하여 문서 간의 링크에 따라 가중치를 부여하는 알고리즘이다. 텍스트랭크의 기본 수식은 다음과 같다.
Figure 112017119028373-pat00056
[수식 1]
수식1 설명
Figure 112017116352314-pat00002
정점을 갖는 단어
Figure 112017116352314-pat00003
에 대한 텍스트랭크 값
Figure 112017116352314-pat00004
단어
Figure 112017116352314-pat00005
Figure 112017116352314-pat00006
사이의 가중치
Figure 112017116352314-pat00007
페이지랭크에서 다른 페이지로 이동할 확률,
일반적으로는 0.85로 고정하여 사용
상기 후보단어선정부(10)는 텍스트랭크를 활용하여 후보 단어 선정하며, 정점
Figure 112017116352314-pat00008
를 문서 내의 각 단어로 설정함으로써 단어와 단어간의 링크를 연결하고 이를 통해 가중치를 계산한다.
여기서, 텍스트랭크에서는 모든 단어들간의 링크를 연결하여 가중치를 계산하기 때문에 텍스트랭크 결과로서 불용어가 후보 단어로 선정될 수 있기 때문에 이를 방지하기 위하여 후보단어선정부(10)는 상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 전처리부분(12)과 상기 전처리부분(12)을 통해 불용어가 제거된 키워드들 간의 링크를 연결, 즉, 텍스트랭크 알고리즘을 이용하여 각 키워드들의 제1가중치를 계산하는 제1가중치계산부분(14)를 포함한다.
여기서, 상기 전처리부분(12)에서 수행되는 불용어 제거 과정은 텍스트 문서 내의 자질을 추출하는 과정에서 제외되는 대상을 선정하는 과정이다. 또한 사용자가 직접 불용어를 선정하는 것이 아닌 알고리즘을 통해 자동적으로 불용어를 제거하고, 이를 통해 텍스트랭크에 사용할 자질을 선정한다. 불용어 제거 알고리즘은 IDF(Inverse Document Frequency)와 Poisson 분포를 활용하여 계산한다.
먼저 IDF는 한 단어가 텍스트 데이터 전체에서 얼마나 공통적으로 나타나는지를 나타내는 값이다. 텍스트 데이터 전체의 문서 수를 해당 단어를 포함한 문서의 수로 나뉜 뒤 로그를 취하여 얻을 수 있다.
Figure 112017119028373-pat00057
[수식 2]
수식2 설명
Figure 112017116352314-pat00010
텍스트 문서 D의 크기, 또는 전체 문서의 수
Figure 112017116352314-pat00011
단어 t가 포함된 문서의 수, 단어가 전체 말뭉치 안에 존재하지 않을 경우 이는 분모가 0이 되는 결과를 가져온다. 이를 방지하기 위해 1 +
Figure 112017116352314-pat00012
를 사용한다.
Poisson은 단어 t를 0또는 양의 정수 값을 취하는 이산적 변수로 할 때 t의 값이 출현하는 확률로 주어 지는 분포이다.
Figure 112017119028373-pat00058
[수식 3]
분포
Figure 112017116352314-pat00014
는 이 분포에서의 이 분포에서의 평균값 및 분산을 나타낸다. 이분포에서 발생확률이 매우 작을 때 그 분포는 Poisson 분포에 근사하다.
RIDF는 IDF와 IDF의 Poisson 분포와의 차이로 정의한다. 이때, Poisson 분포의
Figure 112017116352314-pat00015
값은 단어
Figure 112017116352314-pat00016
가 전체 문서에 나타난 빈도의 평균값을 사용한다.
Figure 112017119028373-pat00059
[수식 4]
수식4 설명
Figure 112017116352314-pat00018
단어
Figure 112017116352314-pat00019
가 전체 문서에 나타난 빈도의 평균 값
Figure 112017116352314-pat00020
적어도 한번이라도 나타난 문서의 Poisson 확률 값
즉, 후보단어선정부(10)는 전처리부분(12)을 통하여 불용어를 제거한 후, 제1가중치계산부분(14)을 통해 단어들 간의 텍스트랭크 가중치(제1가중치)를 구함으로써 후보 단어(중요 단어)를 선정한다.
한편, 상기 유사의미단어선정부(20)는 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 후보단어선정부(10)에서 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 역할을 수행하는 구성으로, 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 임베딩부분(22) 및 상기 임베딩부분(22)을 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2가중치계산부분(24)를 포함한다.
여기서 상기 "유사 의미 단어"는 단어의 문언적 의미가 유사한 사례 외에 "공구" 및 "드라이버" 또는 "한국" 및 일본" 또는 "상승" 및 "하락" 등과 같이 단어의 상, 하위 개념 또는 의미 관계성을 가지는 개념을 모두 포함하는 포괄적 용어로서 정의됨을 밝혀둔다.
전술한 후보단어선정부(10)를 통한 텍스트랭크 기반의 단어 선정은 단어 간의 링크 관계로 가중치를 결정하기 때문에 의미 기반의 분석을 수행하지 않는다.
즉, 단어들 간의 링크로 키워드를 추출하게 되면 키워드와 유사한 의미를 갖는 다른 키워드를 추출할 수 없기 때문에 앞서 텍스트랭크 알고리즘을 통해 분석한 후보 단어와 유사 의미를 갖는 단어들에 대해 제2가중치를 적용하여 유사 의미 단어 후보를 선정한 것이다.
여기서, 임베딩부분(22)은 분산 단어 표현(Distributed Word Representation)을 사용하는데, 이는 말뭉치를 데이터 마이닝 기반으로 학습하여 차원 축소 및 추상화를 통해 문서 집합에 등장하는 단어를 수십에서 수백 차원의 자질 벡터(Feature Vector)로 표현하는 것이다.
초기 NNLM(Neural Net Language Model)은 이런 단어의 자질을 학습하기 위해서 많은 시간이 필요한 단점이 있었으나, 은닉층(Hidden layer)을 제거하고 신경망 모델을 단순화하는 방법으로 단어 자질의 학습 시간을 비약적으로 단축시켰다.
학습된 단어 벡터는 유사 의미의 단어들이 비슷한 군집을 이룬다는 점에서 주목할 만한 특징을 보이며, 유사 의미 단어 간의 거리를 계산하는 수식은 다음과 같다.
Figure 112017119028373-pat00060
[수식 5]
수식5 설명
Figure 112017116352314-pat00022
단어
Figure 112017116352314-pat00023
와 단어
Figure 112017116352314-pat00024
Figure 112017116352314-pat00025
단어
Figure 112017116352314-pat00026
Figure 112017116352314-pat00027
의 원소
Figure 112017116352314-pat00028
,
Figure 112017116352314-pat00029
의 거리
Figure 112017116352314-pat00030
정규 분포 표현
즉, 단어들이 인베딩된 공간에서의 단어 간의 유사 의미는 단어 간의 거리를 계산하여 나태 낼 수 있다. 예를 들어, 실험한 문서 집합에 대한 학습 결과에서 "한국"과 "일본"의 결과는 가까운 거리를 갖는 특징 벡터를 이루었다. 마찬가지로 "서울"과 "도쿄"의 거리를 계산해 볼 때 두 단어를 유사 의미로 유추할 수 있다. 이를 통해, 학습을 통한 단어 벡터는 유사한 단어의 쓰임에 대하여 규칙적인 패턴을 잘 표현하며 문법적인 관계 정보도 잘 반영되는 것을 알 수 있다.
상기 제2가중치계산부분(24)은 상기 임베딩부분(22)에서 분석된 유사 의미 단어에 대하여 가중치를 부여하는 역할을 수행하며, 임베딩부분(22)을 통해 선정된 유사 의미 단어 후보들은 전술한 후보단어 선정부(10)에서 텍스트랭크 알고리즘을 통해 선정된 후보 단어와 병합하기 위해 제2가중치를 부여한다. 이러한 제2가중치의 계산 방법은 아래의 수식과 같다.
Figure 112017119028373-pat00061
[수식 6]
수식6 설명
Figure 112017116352314-pat00032
단어 t의 출현 수
Figure 112017116352314-pat00033
1/단어 t가 출현한 문장의 수
Figure 112017116352314-pat00034
단어 t의 길이
Figure 112017116352314-pat00035
가중치 정규화 요소
여기서, 특정 단어의 빈도(Term Frequency)와 그 단어의 독특함의 정도(여러 문장에 많이 나타날수록 그 독특함이 떨어진다 간주할 수 있으므로, 그 역수인 Inverse Sentence Frequency를 곱하여 준다), 단어의 조합이 많고 길이가 길수록 뜻이 명확해지는 특징(Term Length)을 조합하여 유사 의미 단어의 제2가중치를 부여한다. 유사 의미 단어에 대한 전체 가중치 계산 수식은 다음과 같다.
Figure 112017119028373-pat00062
[수식 7]
즉, 후보 단어에 대한 유사 의미 단어의 가중치(제2가중치)는 거리가 가까울수록, 문장 내에서 빈도가 많이 발생할수록 높아지게 된다. 이렇게 계산한 제2가중치는 기존에 텍스트랭크로 계산한 제1가중치와 병합 및 정규화되어 최종 키워드를 추출하는 갱신된 가중치로 이용된다.
한편, 키워드추출부(30)는 상기 후보단어선정부(10)에서 선정된 후보 단어와 상기 유사의미단어선정부(20)에서 선정된 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 역할을 수행하는 구성이다.
여기서, 상기 키워드추출부(30)는, 상기 후보단어선정부(10)에서 선정된 후보 단어 집합과 상기 유사의미단어선정부(20)에서 선정된 유사 의미 단어 집합을 병합시키는 단어집합병합부분(32) 및 상기 단어집합병합부분(32)으로부터 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 가중치정규화부분(34); 을 포함한다.
즉, 텍스트랭크 알고리즘 기반으로 선정된 후보 단어 집합과 word2vec 알고리즘 기반으로 선정된 유사 의미 단어 집합이 각각의 가중치를 갖는다. 이러한 각 단어 집합(군집)은 각각 다른 알고리즘에 의해 선정된 단어 집합이고 가중치가 정규화 되어 있지 않다. 때문에 최종 키워드를 추출하기 위해서는 두 단어 집합을 병합하고 가중치를 정규화 시키는 과정이 필요하다. 두 단어 집합을 병합하기 위해서는 각 단어 집합에 대해 앙상블 알고리즘을 적용한 후, 이 결과에 정규화된 가중치가 적용되어 최종 키워드가 추출되게 되는 것이다.
앙상블 알고리즘으로 각 단어 집합을 병합하는 수식은 다음과 같다.
Figure 112017119028373-pat00063
[수식 8]
수식8 설명
Figure 112017116352314-pat00038
문서내의 키워드
Figure 112017116352314-pat00039
를 갖는 집합
Figure 112017116352314-pat00040
Figure 112017116352314-pat00041
불용어를 제외한 텍스트랭크의 후보 단어
Figure 112017116352314-pat00042
후보 단어의 유사 의미 단어
Figure 112017116352314-pat00043
는 정규화 요소
먼저 텍스트랭크 알고리즘에서는 불용어를 제외한 자질들에 대해서 링크를 걸고 각 자질들에 가중치를 계산(제1가중치)함으로써 후보 단어를 선정하지만, 각 문서 내의 링크로는 각 후보 단어가 어떠한 군집을 이루고 있는지, 어떤 유사 의미를 가지고 있는지 알 수 없다. 따라서 각 후보 단어의 유사 의미 단어
Figure 112017116352314-pat00044
를 통해 유사 단어의 가중치(제2가중치)를 계산하고 정규화 요소
Figure 112017116352314-pat00045
를 곱해줌에 따라 텍스트랭크에서 보완하지 못했던 키워드의 품질을 보완할 수 있게 된다. 두 알고리즘을 앙상블 알고리즘으로 병합하는 과정에서 정규화 요소
Figure 112017116352314-pat00046
를 어느 정도로 하느냐에 따라 후보 단어의 영향을 받게 된다. 정규화 요소는 다음과 같이 계산한다
Figure 112017119028373-pat00064
[수식 9]
텍스트랭크와 word2vec 및 TF-ISF는 하나의 단어가 높은 가중치를 갖게 되면 다른 단어의 가중치는 상대적으로 낮아지게 되므로 가중치 기반으로 경계선을 그으면 다른 단어가 키워드의 후보에서 탈락될 가능성이 높다. 때문에 후보 단어를 병합하는 과정에서는 후보 단어
Figure 112017116352314-pat00048
Figure 112017116352314-pat00049
의 가중치의 격차를 줄이는 방향으로 정규화 요소의 값을 정한다.
앙상블 기법을 통하면 각각의 알고리즘으로 키워드를 추출한 결과가 가지고 있는 문제점과 이로 인해 키워드 추출의 품질이 떨어지는 부분을 보완할 수 있다.
Figure 112017116352314-pat00050
에서는 불용어 제거한 자질들 간의 텍스트랭크를 통해 후보 단어를 선정하는 과정을 통해 품질을 향상 시키고,
Figure 112017116352314-pat00051
단계에서는 후보 단어의 유사 단어에 대해 문서 내에 쓰임에 따라 가중치를 계산해주기 때문에 분석한 유사 단어에 대한 가중치를 계산할 수 있다. 이렇게 선정된 모든 후보 단어들은 앙상블 알고리즘에서 정규화 요소
Figure 112017116352314-pat00052
를 거치게 되면 향상된 품질의 최종 키워드들로 추출되는 것이다.
2. 문서 내 핵심 키워드 추출 방법에 대한 구체적인 설명
도 2 는 본 발명에 따른 문서 내 핵심 키워드 추출 방법의 전체적인 흐름도이며, 도 3 은 본 발명에 따른 문서 내 핵심 키워드 추출 방법의 세부 과정이 표현된 흐름도이다.
도 2 내지 도 3 을 참조하면, 본 발명에 따른 문서 내 핵심 키워드 추출 방법은, 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 제1단계(S10); 상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 제1단계(S10)를 통해 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 제2단계(S20); 및 상기 제1단계(S10)를 통한 후보 단어와 상기 제2단계(S20)를 통한 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 제3단계(S30); 로 이루어진다.
여기서, 상기 제1단계(S10)와 제2단계(S20)는 개별적 또는 동시에 이루어질 수 있으며, 바람직하게는 후술할 불용어가 제거(S12)되고, 제1가중치가 적용(S14)되어 선정된 후보 단어가 제2단계(S20)로 전달되어 후보 단어에 대한 유사 의미 분석 단계가 이루어질 수 있다.
여기서, 상기 제1단계(S10)는, 상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 제1-1단계(S12); 및 상기 제1-1단계(S12)를 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1-2단계(S14); 를 포함한다.
또한, 상기 제2단계(S20)는, 상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 제2-1단계(S22); 및 상기 제2-1단계(S22)를 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2-2단계(S24); 를 포함한다.
또한, 상기 제3단계(S30)는, 상기 제1단계(S10)를 통해 선정된 후보 단어 집합과 상기 제2단계(S20)를 통해 선정된 유사 의미 단어 집합을 병합시키는 제3-1단계(S32); 상기 제3-1단계(S32)를 통해 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 제3-2단계(S34); 를 포함한다.
여기서, 상기 제1단계(S10)는 텍스트랭크 알고리즘 기반으로 수행되며, 제2단계(S20)는 word2vec 및 TF-ISF 알고리즘을 기반으로 수행되며, 제3단계(S30)는 앙상블 알고리즘 기반으로 수행된다. 이에 대한 구체적 과정에 대한 상세한 설명은 앞선 문서 내 핵심 키워드 추출 시스템(100)에 대한 설명과 동일함으로 생략하였음을 밝혀둔다.
전술한 바와 같이, 본 발명에 따른 문서 내 핵심 키워드 추출 시스템 및 방법은, 서로 상이한 키워드 선정 알고리즘을 이용하여 얻어진 단어 집합에 대하여 정규화된 가중치를 이용하여 키워드 추출을 수행함으로써 추출 품질을 향상시킬 수 있다.
또한, 문서 내의 단어의 링크 관계로 가중치가 결정되어 선정된 후보 단어 집합과 문서 내의 유사 의미를 갖는 연관 단어 집합을 적절히 임베딩하고 각 단어 집합에 적용되는 가중치를 보정(가중치의 정규화)함으로써 문서 내의 중요 단어(링크가 많은) 뿐만이 아닌 중요 단어와 관계된 연관 단어의 추출을 구현할 수 있다.
이상, 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명의 기술적 사상은 이러한 것에 한정되지 않으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해, 본 발명의 기술적 사상과 하기 될 특허청구범위의 균등범위 내에서 다양한 수정 및 변형 실시가 가능할 것이다.
*도면의 주요부분에 대한 부호의 설명*
100 : 문서 내 핵심 키워드 추출 시스템
10 : 후보단어선정부
12 : 전처리부분 14 : 제1가중치계산부분
20 : 유사의미단어선정부
22 : 임베딩부분 24 : 제2가중치계산부분
30 : 키워드추출부
32 : 단어집합병합부분 34 : 가중치정규화부분

Claims (10)

  1. 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 후보단어선정부;
    상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 후보단어선정부에서 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 유사의미단어선정부; 및
    상기 후보 단어와 상기 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 키워드추출부; 를 포함하고,
    상기 키워드 추출부는 복수의 후보 단어 사이의 가중치 격차를 줄이는 방향으로 정규화 요소의 값을 정하고, 정해진 정규화 요소의 값을 상기 후보 단어와 상기 유사 의미 단어에 적용되는 가중치에 곱하여 상기 후보 단어와 상기 유사 의미 단어를 병합하는 것을 특징으로 하는 문서 내 핵심 키워드 추출 시스템.
  2. 제1항에 있어서,
    상기 후보단어선정부는,
    상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 전처리부분; 및
    상기 전처리부분을 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1가중치계산부분; 을 포함하는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 시스템.
  3. 제2항에 있어서,
    상기 전처리부분은 RIDF(Residual Inverse Document Frequency) 알고리즘을 이용하여 불용어를 제거하도록 마련되며, 상기 RIDF 알고리즘은 IDF(Inverse Document Frequency)와 푸아송 분포(Poisson distribution)를 이용하여 구현되며, 상기 전처리부분을 통해 불용어가 제거된 키워드는 상기 제1가중치계산부분의 자질로 이용되는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 시스템.
  4. 제1항에 있어서,
    상기 유사의미단어선정부는,
    상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 임베딩부분; 및
    상기 임베딩부분을 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2가중치계산부분; 을 포함하는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 시스템.
  5. 제4항에 있어서,
    상기 제2가중치는 유사 의미 단어의 자질 벡터 간의 거리가 가까울수록 또는 문장 내에서 출현 빈도가 많을수록 높게 산출되는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 시스템.
  6. 제1항에 있어서,
    상기 키워드추출부는,
    상기 후보단어선정부에서 선정된 후보 단어 집합과 상기 유사의미단어선정부에서 선정된 유사 의미 단어 집합을 병합시키는 단어집합병합부분; 및
    상기 단어집합병합부분으로부터 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 가중치정규화부분; 을 포함하는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 시스템.
  7. 복수의 비정형 텍스트 문서 내의 키워드를 분석하여 후보 단어를 선정하는 제1단계;
    상기 복수의 비정형 텍스트 문서에서 단어 임베딩을 통해 단어를 군집하고, 상기 제1단계를 통해 선정된 단어들의 의미를 분석하여 단어들 간의 유사 의미 단어를 선정하는 제2단계; 및
    상기 제1단계를 통한 후보 단어와 상기 제2단계를 통한 유사 의미 단어에 적용되는 가중치를 정규화하여 최종 키워드들을 추출하는 제3단계; 를 포함하고,
    상기 제3단계에서 복수의 후보 단어 사이의 가중치 격차를 줄이는 방향으로 정규화 요소의 값을 정하고, 정해진 정규화 요소의 값을 상기 제1단계를 통한 후보 단어와 상기 제2단계를 통한 유사 의미 단어에 적용되는 가중치에 곱하여 상기 후보 단어와 상기 유사 의미 단어를 병합하는 것을 특징으로 하는 문서 내 핵심 키워드 추출 방법.
  8. 제7항에 있어서,
    상기 제1단계는,
    상기 비정형 텍스트 문서에 포함된 키워드들 중 불용어를 제거하는 제1-1단계; 및
    상기 제1-1단계를 통해 불용어가 제거된 키워드들 간의 링크를 연결하여 각 키워드들의 제1가중치를 계산하는 제1-2단계; 를 포함하는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 방법.
  9. 제7항에 있어서,
    상기 제2단계는,
    상기 복수의 비정형 덱스트 문서 내에 등장하는 단어를 자질 벡터(Feature Vector)로 가공하여 신경망 모델을 통해 학습시켜 유사 의미 단어 후보를 선정하는 제2-1단계; 및
    상기 제2-1단계를 통해 선정된 유사 의미 단어 후보들에 제2가중치를 부여하는 제2-2단계; 를 포함하는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 방법.
  10. 제7항에 있어서,
    상기 제3단계는,
    상기 제1단계를 통해 선정된 후보 단어 집합과 상기 제2단계를 통해 선정된 유사 의미 단어 집합을 병합시키는 제3-1단계;
    상기 제3-1단계를 통해 병합된 단어 집합에 정규화된 최종 가중치를 부여하는 제3-2단계; 를 포함하는 것을 특징으로 하는
    문서 내 핵심 키워드 추출 방법.
KR1020170156375A 2017-11-22 2017-11-22 문서 내 핵심 키워드 추출 시스템 및 방법 KR102019194B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170156375A KR102019194B1 (ko) 2017-11-22 2017-11-22 문서 내 핵심 키워드 추출 시스템 및 방법
PCT/KR2017/013869 WO2019103224A1 (ko) 2017-11-22 2017-11-30 문서 내 핵심 키워드 추출 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170156375A KR102019194B1 (ko) 2017-11-22 2017-11-22 문서 내 핵심 키워드 추출 시스템 및 방법

Publications (2)

Publication Number Publication Date
KR20190058935A KR20190058935A (ko) 2019-05-30
KR102019194B1 true KR102019194B1 (ko) 2019-09-06

Family

ID=66631612

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170156375A KR102019194B1 (ko) 2017-11-22 2017-11-22 문서 내 핵심 키워드 추출 시스템 및 방법

Country Status (2)

Country Link
KR (1) KR102019194B1 (ko)
WO (1) WO2019103224A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230062251A (ko) 2021-10-29 2023-05-09 삼성에스디에스 주식회사 텍스트 기반의 문서분류 방법 및 문서분류 장치
KR20240008631A (ko) 2022-07-12 2024-01-19 망고클라우드 주식회사 문서 검색 시스템

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102278020B1 (ko) * 2019-05-31 2021-07-15 주식회사 아티프렌즈 챗봇을 이용한 질의응답 처리 장치 및 방법
KR102188553B1 (ko) * 2019-10-24 2020-12-09 김형민 애니메이션 기반의 스토리텔링을 통한 한글 교육 시스템
CN111046141B (zh) * 2019-12-03 2023-07-18 新华智云科技有限公司 一种基于历史时间特征的文本库关键词精炼方法
KR20210099431A (ko) 2020-02-04 2021-08-12 성균관대학교산학협력단 Html 태그 정보를 이용한 웹 문서 임베딩 방법 및 장치
KR102570285B1 (ko) * 2020-02-17 2023-08-24 주식회사 엘지유플러스 Vod 컨텐츠의 키워드를 출력하는 방법 및 장치
CN111899832B (zh) * 2020-08-13 2024-03-29 东北电力大学 基于上下文语义分析的医疗主题管理系统与方法
KR102500725B1 (ko) * 2020-11-17 2023-02-16 주식회사 한글과컴퓨터 주요 키워드를 기반으로 전자 문서에 대한 요약문을 생성하는 전자 장치 및 그 동작 방법
CN112417101B (zh) * 2020-11-23 2023-08-18 平安科技(深圳)有限公司 一种关键词提取的方法及相关装置
KR102579890B1 (ko) * 2020-11-27 2023-09-15 건국대학교 산학협력단 사용자 생성 데이터 기반의 사용자 경험 분석 장치 및 방법
KR102639979B1 (ko) * 2020-12-08 2024-02-22 주식회사 카카오엔터프라이즈 주요 키워드 추출 장치, 그것의 제어 방법 및 주요 키워드 추출 프로그램
CN114817700A (zh) * 2021-01-29 2022-07-29 腾讯科技(深圳)有限公司 文本关键词的确定方法和装置、存储介质及电子设备
CN112905771A (zh) * 2021-02-10 2021-06-04 北京邮电大学 基于词性和位置的特征关键词提取方法
KR102323667B1 (ko) * 2021-03-24 2021-11-09 이경수 인공지능을 이용한 신체 관리 시술 시뮬레이션 정보 제공 방법 및 그 장치
US11842160B2 (en) 2021-07-14 2023-12-12 International Business Machines Corporation Keyword extraction with frequency—inverse document frequency method for word embedding
KR102347386B1 (ko) * 2021-09-10 2022-01-05 주식회사 애자일소다 단어 정의 기반 헤더 추출 장치 및 방법
US20230139397A1 (en) * 2021-10-29 2023-05-04 Oracle International Corporation Deep learning techniques for extraction of embedded data from documents

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101624909B1 (ko) 2014-12-10 2016-05-27 주식회사 와이즈넛 정규화된 키워드 가중치에 기반한 연관 키워드 추출 방법
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
KR101847847B1 (ko) 2016-11-15 2018-04-12 주식회사 와이즈넛 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101060594B1 (ko) * 2008-12-15 2011-08-31 한국전자통신연구원 문서 데이터의 키워드 추출 및 연관어 네트워크 구성 장치 및 방법
EP2635965A4 (en) 2010-11-05 2016-08-10 Rakuten Inc SYSTEMS AND METHODS RELATING TO KEYWORD EXTRACTION
KR101868936B1 (ko) 2011-10-25 2018-06-20 주식회사 케이티 키워드 추출 및 정련 시스템과 그 방법
KR101353521B1 (ko) * 2012-05-10 2014-01-23 경북대학교 산학협력단 키워드 추출 방법 및 시스템, 그리고 대화 보조 장치
KR101536520B1 (ko) * 2014-04-28 2015-07-14 숭실대학교산학협력단 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
CN104778161B (zh) * 2015-04-30 2017-07-07 车智互联(北京)科技有限公司 基于Word2Vec和Query log抽取关键词方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101624909B1 (ko) 2014-12-10 2016-05-27 주식회사 와이즈넛 정규화된 키워드 가중치에 기반한 연관 키워드 추출 방법
US20170139899A1 (en) * 2015-11-18 2017-05-18 Le Holdings (Beijing) Co., Ltd. Keyword extraction method and electronic device
KR101847847B1 (ko) 2016-11-15 2018-04-12 주식회사 와이즈넛 딥러닝을 이용한 비정형 텍스트 데이터의 문서 군집화 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230062251A (ko) 2021-10-29 2023-05-09 삼성에스디에스 주식회사 텍스트 기반의 문서분류 방법 및 문서분류 장치
KR20240008631A (ko) 2022-07-12 2024-01-19 망고클라우드 주식회사 문서 검색 시스템

Also Published As

Publication number Publication date
KR20190058935A (ko) 2019-05-30
WO2019103224A1 (ko) 2019-05-31

Similar Documents

Publication Publication Date Title
KR102019194B1 (ko) 문서 내 핵심 키워드 추출 시스템 및 방법
CN108052593B (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
Dadgar et al. A novel text mining approach based on TF-IDF and Support Vector Machine for news classification
CN108132927B (zh) 一种融合图结构与节点关联的关键词提取方法
US20180300315A1 (en) Systems and methods for document processing using machine learning
US6189002B1 (en) Process and system for retrieval of documents using context-relevant semantic profiles
Alami et al. Unsupervised neural networks for automatic Arabic text summarization using document clustering and topic modeling
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN108228541B (zh) 生成文档摘要的方法和装置
CN111104510B (zh) 一种基于词嵌入的文本分类训练样本扩充方法
CN108647322B (zh) 基于词网识别大量Web文本信息相似度的方法
CN107766323B (zh) 一种基于互信息和关联规则的文本特征提取方法
Hidayat et al. Automatic text summarization using latent Drichlet allocation (LDA) for document clustering
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
CN110377695B (zh) 一种舆情主题数据聚类方法、装置及存储介质
CN108846033B (zh) 特定领域词汇的发现及分类器训练方法和装置
CN112836029A (zh) 一种基于图的文档检索方法、系统及其相关组件
CN113032556A (zh) 一种基于自然语言处理形成用户画像的方法
Perez-Tellez et al. On the difficulty of clustering microblog texts for online reputation management
CN107180028A (zh) 一种基于lda与退火算法组合的推荐技术
Alqaraleh Turkish Sentiment Analysis System via Ensemble Learning
Figueroa et al. Collaborative ranking between supervised and unsupervised approaches for keyphrase extraction
Khalaf et al. News retrieval based on short queries expansion and best matching
CN113516202A (zh) Cbl特征提取与去噪的网页精准分类方法
Kanaan et al. kNN Arabic text categorization using IG feature selection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant