KR102639858B1 - 문서의 주제별 현황 정보 제공을 위한 인공지능 기반키워드 분류 및 대표 단어 사전 구축 시스템 - Google Patents

문서의 주제별 현황 정보 제공을 위한 인공지능 기반키워드 분류 및 대표 단어 사전 구축 시스템 Download PDF

Info

Publication number
KR102639858B1
KR102639858B1 KR1020230100995A KR20230100995A KR102639858B1 KR 102639858 B1 KR102639858 B1 KR 102639858B1 KR 1020230100995 A KR1020230100995 A KR 1020230100995A KR 20230100995 A KR20230100995 A KR 20230100995A KR 102639858 B1 KR102639858 B1 KR 102639858B1
Authority
KR
South Korea
Prior art keywords
topic
keywords
keyword
representative
document
Prior art date
Application number
KR1020230100995A
Other languages
English (en)
Inventor
심지현
고형석
이홍재
Original Assignee
(주)유알피
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)유알피 filed Critical (주)유알피
Priority to KR1020230100995A priority Critical patent/KR102639858B1/ko
Application granted granted Critical
Publication of KR102639858B1 publication Critical patent/KR102639858B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 각 문서에서 추출한 키워드가 동의어나 유의어일 경우 동일한 주제이지만 키워드 통계가 분산되어 정확한 주제 트렌드를 파악하기 어려우므로, 각 문서에서 추출한 키워드에 대해 비슷한 의미의 키워드를 분류하고, 대표 단어로 그룹화하여, 대표 단어-키워드 사전을 생성하는 문서의 주제별 현황 정보 제공을 위한 인공지능 기반 키워드 분류 및 대표 단어 사전 구축 시스템에 관한 것으로, 제공된 문서 집합에 대해 키워드를 추출하는 키워드 추출부; 상기 문서 집합에서 적어도 하나 이상의 주제 및 상기 주제와 관련되어 등장하는 문서 내 단어 집합을 추출하고, 상기 주제를 대표하는 대표 단어를 지정하는 주제별 대표단어 지정부; 상기 키워드와 상기 키워드가 포함된 주제의 대표 단어 간의 유사도를 비교하고 결과를 저장하는 유사도 비교부; 및 유사도 비교 결과에 따라 주제별로 키워드를 그룹핑하여, 주제별 유사 키워드 그룹을 생성하고, 정해진 데이터 구조로 가공하여 주제별 유사 의미 키워드 사전을 생성하는 사전 생성부;를 포함한다.

Description

문서의 주제별 현황 정보 제공을 위한 인공지능 기반 키워드 분류 및 대표 단어 사전 구축 시스템{SYSTEM OF KEYWORD CLASSIFICATION AND CONSTRUCTION OF REPRESENTATIVE WORD DICTIONARY BASED ON AI FOR PROVIDING STATUS INFORMATION BY SUBJECT OF DOCUMENTS}
본 발명은 제공된 문서 데이터셋에 대해 키워드를 추출하고, 토픽 모델링을상기 통해 문서 집합에서 적어도 하나 이상의 주제 및 주제와 관련된 단어 집합을 추출하여 주제별 대표 단어를 지정하고, 주제에 대한 대표 단어와 주제 내 키워드 간 거리 비교를 통해 주제별 유사 의미 키워드 사전을 생성하는 문서의 주제별 현황 정보 제공을 위한 인공지능 기반 키워드 분류 및 대표 단어 사전 구축 시스템에 관한 것이다.
최근 들어 인터넷, 소셜 미디어, 이메일, 뉴스 기사 등 다양한 매체로부터 생성되는 텍스트 데이터 및 문서의 양은 급격하게 증가하고 있다. 이러한 데이터는 구조화되지 않은 비정형 데이터로 분류되며, 텍스트 분석을 통해 이러한 텍스트 데이터를 이해하고 활용하는 것이 더욱 중요해지고 있다.
특히 많은 기업 및 기관에서는 관련된 영역에서 이슈 및 주제/트렌드 파악을 통해 급변하는 상황을 인지하고, 이에 따라 신속하게 비즈니스 전략 수립, 시장 예측, 투자 의사 결정, 정책 수립 및 지원에 반영하고자 한다.
텍스트 분석을 통해 특정 도메인에서의 이슈, 주제, 트렌드를 파악하기 위해서는 문서 내에서 정교한 키워드 추출이 중요하며, 추출된 키워드를 통해 주제를 효과적으로 파악하는 것이 중요하나 추출된 키워드가 주제를 대표하지 못하고, 분산되는 경우 문서의 주제를 효과적으로 분석하는 것이 어렵다는 문제점이 있다.
본 발명은 상기 문제점을 해결하기 위해 문서에서 추출한 키워드에 대해 유사한 의미 또는 연관된 의미를 가지는 키워드를 대표 단어로 그룹화하여 관리하는 사전을 구축하여, 대표 단어 중심으로 문서의 주제, 내용 파악 및 문서의 분류를 가능하게 하는데 그 목적이 있다.
본 발명의 일 실시예에 따른 문서의 주제별 현황 정보 제공을 위한 인공지능기반 키워드 분류 및 대표 단어 사전 구축 시스템은, 제공된 문서 집합에 대해 키워드를 추출하는 키워드 추출부; 상기 문서 집합에서 적어도 하나 이상의 주제 및 상기 주제와 관련되어 등장하는 문서 내 단어 집합을 추출하고, 상기 주제를 대표하는 대표 단어를 지정하는 주제별 대표단어 지정부; 상기 키워드와 상기 키워드가 포함된 주제의 대표 단어 간의 유사도를 비교하고 결과를 저장하는 유사도 비교부; 및 유사도 비교 결과에 따라 주제별로 키워드를 그룹핑하여, 주제별 유사 키워드 그룹을 생성하고, 정해진 데이터 구조로 가공하여 주제별 유사 의미 키워드 사전을 생성하는 사전 생성부;를 포함할 수 있다.
또한, 특정 도메인에서 수집된 문서 집합에 대해 주제별로 문서를 분류하는 문서 분류부;를 더 포함하고, 상기 키워드 추출부는 상기 문서 분류부에 의해 주제별로 분류된 문서에 대한 키워드를 추출하는 것을 특징으로 할 수 있다.
또한, 상기 주제별 대표단어 지정부는, LDA 토픽모델링을 적용하여 사전에 정해진 주제 개수만큼의 주제 및 상기 주제와 관련되어 등장하는 주제별 연관 단어 집합을 추출하고, 상기 주제별 연관 단어 집합에 중복되는 키워드가 있는 경우 주제 개수를 줄이거나 증가시켜 LDA 토픽모델링을 재수행하는 것을 특징으로 할 수 있다.
또한, 상기 주제별 대표단어 지정부는, 상기 주제별 연관 단어 집합에서 동일 주제 내 문서에서 출현 빈도수가 가장 높은 단어를 대표 단어로 지정하는 것을 특징으로 할 수 있다.
또한, 상기 유사도 비교부는, 상기 제공된 문서 집합에 대한 word2vec 모델을 생성하고, 생성된 word2vec모델을 사용하여 주제별 연관 단어 집합에 포함된 키워드와 상기 주제별 연관 단어 집합의 대표 단어와의 거리 관계를 비교하여 거리 관계 맵으로 저장하는 것을 특징으로 할 수 있다.
또한, 상기 사전 생성부는, 상기 거리 관계 맵에서 특정 키워드와 상기 키워드가 포함된 주제별 연관 단어 집합의 대표 단어와의 거리가 정해진 수치 이상으로 먼 경우 상기 키워드를 상기 주제별 유사 키워드 그룹에서 제외하는 것을 특징으로 할 수 있다.
또한, 상기 키워드 추출부는, N-gram 형태의 적어도 하나 이상의 키워드를 추출하고, 추출된 상기 키워드 간의 포함 관계를 비교하여 최종 키워드를 추출하는 것을 특징으로 할 수 있다.
각 문서에서 추출한 키워드에 대해 연관어 및 유의어로 표현되는 키워드를 대표 단어를 지정하고, 동일 그룹으로 관리함으로서, 분산된 키워드를 대표 단어로 묶어 대표 단어를 기준으로 주제를 분류할 수 있다.
또한, 도메인 별로 대표 단어-키워드 그룹 사전을 생성하여 관리함으로서, 특정 도메인에 특화된 주제 및 트렌드 분석이 용이해 질 수 있다.
도 1은 본 발명의 일 실시예에 따른 문서의 주제별 현황 정보 제공을 위한 인공지능 기반 키워드 분류 및 대표 단어 사전 구축 시스템의 전체 관계도이다.
도 2는 본 발명의 일 실시예에 따른 문서의 주제별 현황 정보 제공을 위한 인공지능 기반 키워드 분류 및 대표 단어 사전 구축 시스템의 기능에 대한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 문서의 주제별 현황 정보 제공을 위한 인공지능 기반 키워드 분류 및 대표 단어 사전 구축 시스템의 하드웨어 구조를 나타낸 도면이다.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.
그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 설정된 용어들로써 이는 발명자의 의도 또는 관례에 따라 달라질 수 있으므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이고, 본 명세서에서 본 발명에 관련된 공지의 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에 이에 관한 자세한 설명은 생략하기로 한다.
이하, 도면을 참조로 하여 본 발명에 따른 문서의 주제별 현황 정보 제공을 위한 인공지능 기반 키워드 분류 및 대표 단어 사전 구축 시스템을 설명한다.
도 1은 본 발명의 일 실시예에 따른 문서의 주제별 현황 정보 제공을 위한 인공지능 기반 키워드 분류 및 대표 단어 사전 구축 시스템(이하, 키워드 분류 및 대표 단어 사전 구축 시스템이라 함.)의 전체 관계도이다.
도 1을 참조하면, 키워드 분류 및 대표 단어 사전 구축 시스템(100)은 데이터베이스(200), 적어도 하나 이상의 외부 서버(300) 및 적어도 하나 이상의 어플리케이션 서버(400)와 네트워크로 연결되어 서로 통신할 수 있다.
본 발명에서 언급하는 네트워크라 함은 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어 망일 수도 있고, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), HTTPS(Hyper Text Transfer Protocol Secure), Telnet, FTP(File Transfer Protocol) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미할 수 있으며, 이러한 예에 한정하지 않고 다양한 형태로 데이터를 송수신할 수 있는 데이터 통신망을 포괄적으로 의미하는 것이다.
본 발명의 키워드 분류 및 대표 단어 사전 구축 시스템(100)은 추출한 키워드가 동의어나 유의어일 경우 동일한 주제이지만 키워드 통계가 분산되어 정확한 주제 트렌드를 파악하기 어려우므로, 각 문서에서 추출한 키워드에 대해 비슷한 의미의 키워드를 분류하고, 대표 단어로 그룹화하여, 주제별 유사 의미 키워드 사전을 구축하는 시스템이다.
이를 위해, 제공된 문서 집합에 대해 키워드를 추출하고, 상기 문서 집합에서 적어도 하나 이상의 주제 및 상기 주제와 관련되어 등장하는 문서 내 단어 집합을 추출하고, 상기 주제를 대표하는 대표 단어를 지정한다.
또한, 제공된 문서에서 추출한 키워드와 상기 키워드가 포함된 연관 단어 집합의 대표 단어 간의 유사도를 비교하여 결과를 저장하고, 키워드의 유사도 비교 결과에 따라 주제별로 키워드를 그룹핑하여, 주제별 유사 키워드 그룹을 생성하고, 정해진 데이터 구조로 가공하여 주제별 유사 의미 키워드 사전을 생성한다.
본 발명에서 데이터베이스(200)는 키워드 분류 및 대표 단어 사전 구축 시스템(100)에서 생성된 주제별 유사 의미 키워드 사전을 저장하는 저장소 및 주제별 유사 의미 키워드 사전에 대한 데이터 검색을 지원하고, 그 결과를 전달하는 데이터베이스 서버이다.
상기 데이터베이스(200)는 물리적으로 독립된 서버로 존재하거나, 키워드 분류 및 대표 단어 사전 구축 시스템(100) 내에 일부로 포함되어 관리/운영될 수 있다.
본 발명에서 외부 서버(300)는 정부기관, 사설기관, 기업, 개인 등이 운영하는 서버일 수 있고, 비정형 텍스트를 포함하는 문서를 보유 및 수집하거나, 데이터 처리를 통해 가공 정보를 산출하는 서버를 의미하며 키워드 분류 및 대표 단어 사전 구축 시스템(100)에 각종 문서를 제공한다.
본 발명에서 어플리케이션 서버(400)는 주제별 유사 의미 키워드 사전을 활용하여 다양한 서비스를 제공하는 서버를 의미한다.
일례로, 어플리케이션 서버(400)는 특정 도메인에 대해 구축된 주제별 유사 의미 키워드 사전을 활용하여 주제별 현황 정보를 구축하는 데이터 분석 서버일 수 있고, 특정 도메인의 이슈 및 트렌드를 분석하는 서버 일 수 있다.
다만, 이에 한정하지 않고, 어플리케이션 서버(400)는 주제별 유사 의미 키워드 사전을 활용하는 모든 응용 서버를 의미할 수 있다.
도 2는 본 발명의 일 실시예에 따른 문서의 주제별 현황 정보 제공을 위한 인공지능 기반 키워드 분류 및 대표 단어 사전 구축 시스템(100)의 기능에 대한 블록도이다.
도 2를 참조하면, 키워드 분류 및 대표 단어 사전 구축 시스템(100)은 문서 수집부(110), 문서 분류부(120), 키워드 추출부(130), 주제별 대표단어 지정부(140), 유사도 비교부(150) 및 사전 생성부(160)를 구비할 수 있다.
문서 수집부(110)는 적어도 하나 이상의 외부 서버(300)로부터 문서 및 메타데이터를 수집한다.
문서 수집부(110)는 외부 서버(300)가 제공하는 FTP, HTTP 프로토콜 기반 또는 TCP/IP기반 Socket 통신 기반 연동API를 이용하거나, 외부 서버와 사전에 협의된 연동 규격으로 문서 및 메타 데이터를 수집할 수 있다.
여기서, 주제별 유사 의미 키워드 사전은 특정 도메인, 즉 Closed Domain에 특화된 주제 및 키워드에 대한 사전으로, 문서 수집은 도메인 별로 독립적으로 이루어지는 것이 바람직할 것이다.
문서 분류부(120)는 문서 수집부(110)가 특정 도메인에서 수집한 문서 집합을 사전에 정해진 주제별 분류 기준으로 분류한다.
이때, 문서 분류 모델은 사전 학습된 CNN, BERT 기반의 분류 모델일 수 있다.
사전 학습된 BERT, CNN 모델을 활용하는 경우 fine-tuning하여 주제별 분류작업에 맞는 추가적인 레이어를 학습시킬 수 있다.
여기서, 학습 데이터는 대상 도메인에서 수집된 문서를 정제, 전처리하고 지도 학습을 위한 레이블을 포함하여 생성할 수 있다.
또한, 문서 자체의 메타데이터에 카테고리, 주제어, 제목 등 문서 분류에 기준이 될 수 있는 데이터가 존재하는 경우 메타데이터를 활용하여 문서를 분류할 수 있다.
또한, 특정 키워드의 존재 여부나 문서 내 특정 패턴의 유무를 기반으로 문서를 분류할 수 있다.
다만, 이에 한정하지 않고 주제에 따라 문서를 분류하는 다양한 기법을 적용할 수 있을 것이다.
키워드 추출부(130)는 제공된 문서 집합에 대해 키워드를 추출한다.
여기서, 제공된 문서 집합은 상기 문서 분류부에 의해 사전에 주제별로 분류된 문서일 수 있다.
키워드 추출부(130)는 N-gram 형태의 적어도 하나 이상의 키워드를 추출하고, 추출된 상기 키워드 간의 포함 관계를 비교하여 최종 키워드를 추출한다.
키워드를 추출하는 알고리즘은 keyBERT, Textrank 등을 포함한 다양한 키워드 추출 알고리즘 중에서 키워드의 중요도 혹은 본문 유사도에 따른 수치를 숫자로 제공 가능한 어느 하나의 키워드 추출 알고리즘을 선택하여 사용할 수 있다.
여기서, 하나의 키워드로 추출되는 단어의 형태소의 개수에 따라 유니그램(uni-gram), 바이그램(bi-gram) 및 트라이그램(tri-gram) 형태로 표시할 수 있다.
키워드 추출 시 형태소 분석기를 이용할 수 있는데, 상기 형태소 분석기가 접사를 분리할 경우 bi-gram 이상의 키워드를 추출하여 접사를 포함한 키워드를 추출한다.
이는, 비’+ ‘과세’나 ‘시행’+‘령’ 등과 같은 접사를 포함한 키워드를 추출하고, ‘해양’+‘경찰’+‘청’+‘장’ 등과 같은 각 형태소가 연결되어야 의미를 가지는 키워드 및 용어를 추출하기 위함이다.
또한, 한 개의 형태소로 구성된 유니그램(uni-gram) 키워드는 단독으로 의미를 가지지 않을 확률이 높기 때문에 불용어(stopword)를 적용하여 제거할 수 있다.
또한, 세 개의 형태소로 구성된 트라이그램(tri-gram) 이상의 키워드는 조합하여 의미를 갖는 단어일 가능성이 높으므로 불용어(stopword)를 적용하지 않을 수 있다.
이렇게 N-gram 형태의 키워드에 대해 서로 간의 포함 관계를 비교하여 길이가 긴 키워드는 우선 순위를 높게 하여 남기고, 길이가 짧은 키워드는 삭제하여 최종적으로 남은 키워드를 추출할 수 있다.
일례로, '시행'은 삭제하고, '시행령'은 우선순위를 높게 부여하여 남길 수 있다.
또한, 키워드 간 유사도 비교를 통해 편집 거리가 전체 길이 대비 비율로 일정 수치 이상인 관계는 유사한 키워드로 가정하고 한쪽을 삭제할 수 있다.
일례로, '해양수산부 장관'과 '해양수산부의 장관'의 키워드 유사도 비교를 통해서 '해양수산부의 장관' 키워드를 삭제할 수 있다.
또한, 키워드 추출 대상 문서가 논문 데이터 등 키워드가 메타데이터로 존재하는 경우 이를 키워드로 추출할 수 있다.
키워드 추출은 개별 문서에 대해 이루어 질 수 있고, 주제-문서ID-키워드 집합의 형태로 저장되어 관리될 수 있다.
주제별 대표단어 지정부(140)는 문서 분류부(120)에 의해 주제별로 분류된 문서 집합에서 적어도 하나 이상의 주제 및 상기 주제와 관련되어 등장하는 문서 내 단어 집합을 추출하고, 상기 주제를 대표하는 대표 단어를 지정한다.
주제별 대표단어 지정부(140)는 사전에 주제별로 분류된 문서 집합에 대해 LDA 토픽모델링을 적용하여 사전에 정해진 주제 개수만큼의 주제 및 상기 주제와 관련되어 등장하는 주제별 연관 단어 집합을 추출한다.
여기서, LDA 토픽모델링은 주어진 문서 집합에서 주요 주제를 추론하는 기법으로 각 문서는 다양한 주제를 혼합한 형태로 구성되어 있다고 가정하고, 각 주제는 특정 단어들이 자주 함께 등장하는 패턴으로 특성화되어 주제-단어 분포와 문서-주제 분포를 모델링한다.
주제-단어 분포는 각 주제에 대해 단어들이 등장하는 확률 분포를 모델링한 것으로 주어진 문서 집합에서 특정 주제와 관련된 단어들의 패턴을 표현한 것이다.
문서-주제 분포는 각 문서가 어떤 주제들을 혼합하여 포함하고 있는지에 대한 확률 분포를 모델링한 것으로 주어진 문서가 다양한 주제를 어떤 비율로 혼합하고 있는지를 나타낸 것이다.
주제별 대표단어 지정부(140)는 사전에 주제별로 분류된 문서 집합을 입력 데이터로 적용하고, 분류된 주제 개수를 LDA 토픽모델링의 파라미터로 설정하여 토픽 모델링을 수행한다.
이때, 주제별 대표단어 지정부(140)는 주제별로 분류된 문서 집합에 대해 토큰화, 정규화, 불용어 제거, 형태소 분석 등을 포함하는 텍스트 전처리를 수행하고, TF-IDF나 워드 임베딩 기법을 적용하여 피처 벡터로 변환하여 LDA 토픽모델링의 입력 데이터로 전달한다.
LDA 토픽모델링을 수행한 결과로 적어도 하나 이상의 주제(토픽)-연관된 단어 집합 및 각 단어에 대한 확률분포를 획득할 수 있다.
LDA 토픽모델링을 수행한 후, 추출된 적어도 하나 이상의 주제에 대해 각 주제를 대표하는 대표 단어를 지정한다.
여기서, 하나의 주제에 대해 연관 단어 집합에서 동일 주제 내의 문서에서 등장 빈도수가 가장 높은 단어를 대표 단어로 지정할 수 있다.
한편, 주제별 연관 단어 집합에서 서로 다른 주제로 분류되어 중복되어 포함된 키워드가 있는 경우 LDA 토픽모델링의 주제 개수를 줄이거나 증가시켜 LDA 토픽모델링을 재수행한다.
유사도 비교부(150)는 주제별로 분류된 문서 집합에서 추출한 키워드와 LDA 토픽모델링을 통해 추출된 주제별 연관 단어 집합에서 상기 키워드가 포함된 주제의 대표 단어 간의 유사도를 비교하고 결과를 저장한다.
유사도 비교부(150)는 주제별로 분류된 문서 집합에 대해 단어의 word2vec 모델을 생성하고, 생성된 word2vec모델을 사용하여 주제별 연관 단어 집합에 포함된 각 문서의 키워드와 상기 주제별 연관 단어 집합의 대표 단어와의 거리 관계를 비교하여 거리 관계 맵으로 저장한다.
유사도 비교부(150)는 word2vec 모델 생성을 위해 주제별로 분류된 문서 집합에 대해 토큰화, 정규화, 불용어 제거 등의 텍스트 전처리를 수행하고, 텍스트 데이터를 단어 또는 서브워드 단위로 분리하여 토큰화한 후, 토큰화된 단어의 시퀀스를 word2vec에 적용하여 모델을 생성한다.
이후, 생성된 word2vec을 사용하여 같은 주제로 분류된 키워드와 대표 단어와의 거리 관계를 저장한다. 즉, 문서에서 추출한 키워드와 상기 키워드가 포함된 주제별 연관 단어 집합의 대표 단어와의 거리 관계를 거리 관계 맵으로 저장한다.
여기서, 거리 관계는 두 단어 간의 코사인 유사도 또는 편집 거리 유사도를 계산한 값일 수 있다.
사전 생성부(160)는 상기 유사도 비교부(150)에서 산출한 키워드의 유사도 비교 결과에 따라 주제별로 키워드를 그룹핑하여, 주제별 유사 키워드 그룹을 생성하고, 정해진 데이터 구조로 가공하여 주제별 유사 의미 키워드 사전을 생성한다.
사전 생성부(160)는 먼저 주제별로 키워드를 그룹핑하여 주제별 유사 키워드 그룹을 생성한다.
여기서, 주제별 키워드는 같은 주제로 묶인 주제별 연관 단어 집합에서 키워드만을 추출하여 구성한 리스트이다.
또한, 상기 키워드는 키워드 추출부(130)에서 분류된 문서 집합에 대해 추출한 키워드를 의미한다.
주제별 유사 키워드 그룹을 생성할 때, 유사도 비교부(150)에서 생성한 거리 관계 맵에서 각각의 키워드와 상기 키워드가 포함된 주제의 대표 단어와의 거리가 정해진 수치 이상으로 먼 경우 상기 키워드를 상기 주제별 유사 키워드 그룹에서 제외시킬 수 있다.
상기 과정은, 같은 주제로 분류되는 키워드들 간의 유사성을 기준이 되는 대표 단어와 비교하여 유사도가 낮은 경우 제외시키는 필터링 과정을 수행하여 유사 키워드 그룹의 정확도를 높이기 위함이다.
사전 생성부(160)는 주제별 유사 키워드 그룹을 정해진 데이터 구조로 가공하여 주제별 유사 의미 키워드 사전을 생성할 수 있다.
일례로, 대표 단어-유사 키워드-유사도 스코어의 데이터 구조로 사전 데이터를 생성하여 저장할 수 있다.
여기서, 유사도 스코어는 대표 단어와 유사 키워드 간의 거리 관계 수치이거나 이를 가공하여 다른 형태로 변환한 수치일 수 있다.
또한 키워드 분류 및 대표 단어 사전 구축 시스템(100)은 외부에 존재하는 어플리케이션 서버(400)가 각 도메인 별로 생성된 주제별 유사 의미 키워드 사전을 활용할 수 있도록 연동 인터페이스를 제공하는 사전 제공부(170)을 더 포함할 수 있다.
일례로, 연동 인터페이스를 생성된 주제별 유사 의미 키워드 사전 데이터를 조회하고 그 결과를 제공받을 수 있도록 웹 API, DB API, TCP/IP기반 연동 모듈, 조회/검색 화면 등을 제공할 수 있다.
또한, 생성된 주제별 유사 의미 키워드 사전을 정해진 형식으로 패키지화하여 배포하여 어플리케이션 서버(400) 내에 설치되어 사용할 수 있도록 배포 인터페이스를 제공할 수 있다.
다만, 이에 한정하지 않고 다양한 방식으로 사전을 제공하는 인터페이스를 포함할 수 있을 것이다.
도 3은 본 발명의 일 실시예에 따른 문서의 주제별 현황 정보 제공을 위한 인공지능 기반 키워드 분류 및 대표 단어 사전 구축 시스템의 하드웨어 구조를 나타낸 도면이다.
도 3을 참조하면, 키워드 분류 및 대표 단어 사전 구축 시스템(100)의 하드웨어 구조는, 중앙처리장치(1000), 메모리(2000), 사용자 인터페이스(3000), 데이터베이스 인터페이스(4000), 네트워크 인터페이스(5000), 웹서버(6000) 등을 포함하여 구성된다.
사용자 인터페이스(3000)는 그래픽 사용자 인터페이스(GUI, graphical user interface)를 사용함으로써, 사용자에게 입력과 출력 인터페이스를 제공한다.
데이터베이스 인터페이스(4000)는 데이터베이스와 하드웨어 구조 사이의 인터페이스를 제공한다.
네트워크 인터페이스(5000)는 사용자가 보유한 장치 간의 네트워크 연결을 제공한다.
웹 서버(6000)는 사용자가 네트워크를 통해 하드웨어 구조로 액세스하기 위한 수단을 제공한다. 대부분의 사용자들은 원격에서 웹 서버로 접속하여 키워드 분류 및 대표 단어 사전 구축 시스템(100)을 사용할 수 있다.
상술한 구성 또는 방법의 각 단계는, 컴퓨터 판독 가능한 기록 매체 상의 컴퓨터 판독 가능 코드로 구현되거나 전송 매체를 통해 전송될 수 있다. 컴퓨터 판독 가능한 기록 매체는, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터를 저장할 수 있는 데이터 저장 디바이스이다.
컴퓨터 판독 가능한 기록 매체의 예로는 데이터베이스, ROM, RAM, CD-ROM, DVD, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 디바이스가 있으나 이에 한정되는 것은 아니다. 전송 매체는 인터넷 또는 다양한 유형의 통신 채널을 통해 전송되는 반송파를 포함할 수 있다. 또한 컴퓨터 판독 가능한 기록 매체는, 컴퓨터 판독 가능 코드가 분산 방식으로 저장되고, 실행되도록 네트워크 결합 컴퓨터 시스템을 통해 분배될 수 있다.
또한 본 발명에 적용된 적어도 하나 이상의 구성요소는, 각각의 기능을 수행하는 중앙처리장치(CPU), 마이크로프로세서 등과 같은 프로세서를 포함하거나 이에 의해 구현될 수 있으며, 상기 구성요소 중 둘 이상은 하나의 단일 구성요소로 결합되어 결합된 둘 이상의 구성요소에 대한 모든 동작 또는 기능을 수행할 수 있다. 또한 본 발명에 적용된 적어도 하나 이상의 구성요소의 일부는, 이들 구성요소 중 다른 구성요소에 의해 수행될 수 있다. 또한 상기 구성요소들 간의 통신은 버스(미도시)를 통해 수행될 수 있다.
상기에서는 본 발명에 따른 실시예를 기준으로 본 발명의 구성과 특징을 설명하였으나 본 발명은 이에 한정되지 않으며, 본 발명의 사상과 범위 내에서 다양하게 변경 또는 변형할 수 있음은 본 발명이 속하는 기술분야의 당업자에게 명한 것이며, 따라서 이와 같은 변경 또는 변형은 첨부된 특허청구범위에 속함을 밝혀둔다.
100: 키워드 분류 및 대표 단어 사전 구축 시스템
110: 문서 수집부 120: 문서 분류부
130: 키워드 추출부 140: 주제별 대표단어 지정부
150: 유사도 비교부 160: 사전 생성부
170: 사전 제공부
200: 주제별 유사 의미 키워드 사전
300: 외부 서버
400: 어플리케이션 서버

Claims (7)

  1. 제공된 문서 집합에 대해 키워드를 추출하는 키워드 추출부;
    상기 문서 집합에 대해 LDA 토픽모델링을 적용하여 적어도 하나 이상의 주제 및 상기 주제와 관련되어 상기 문서 집합에 등장하는 주제별 연관 단어 집합을 추출하고, 상기 주제를 대표하는 대표 단어를 지정하는 주제별 대표단어 지정부;
    상기 문서 집합에서 추출된 키워드와 상기 키워드가 포함된 주제의 대표 단어 간의 유사도를 비교하고 결과를 저장하는 유사도 비교부; 및
    상기 키워드와 상기 키워드가 포함된 주제의 대표 단어 간의 유사도 비교 결과에 따라 주제별로 키워드를 그룹핑하여, 주제별 유사 키워드 그룹을 생성하고, 정해진 데이터 구조로 가공하여 주제별 유사 의미 키워드 사전을 생성하는 사전 생성부;를 포함하고,
    상기 사전 생성부는,
    상기 주제별 유사 키워드 그룹에서 대표 단어와 주제별 유사 키워드 간의 유사도가 정해진 수치 보다 낮은 키워드를 상기 주제별 유사 키워드 그룹에서 제외하는 것을 특징으로 하는,
    키워드 분류 및 대표 단어 사전 구축 시스템.
  2. 제1항에 있어서,
    특정 도메인에서 수집된 문서 집합에 대해 주제별로 문서를 분류하는 문서 분류부;를 더 포함하고,
    상기 키워드 추출부는 상기 문서 분류부에 의해 주제별로 분류된 문서에 대한 키워드를 추출하는 것을 특징으로 하는,
    키워드 분류 및 대표 단어 사전 구축 시스템.
  3. 삭제
  4. 제1항에 있어서,
    상기 주제별 대표단어 지정부는,
    상기 주제별 연관 단어 집합에서 동일 주제 내 문서에서 출현 빈도수가 가장 높은 단어를 대표 단어로 지정하는 것을 특징으로 하는,
    키워드 분류 및 대표 단어 사전 구축 시스템.
  5. 제1항에 있어서,
    상기 유사도 비교부는,
    상기 제공된 문서 집합에 대한 word2vec 모델을 생성하고, 생성된 word2vec모델을 사용하여 주제별 연관 단어 집합에 포함된 키워드와 상기 주제별 연관 단어 집합의 대표 단어와의 거리 관계를 비교하여 거리 관계 맵으로 저장하는 것을 특징으로 하는,
    키워드 분류 및 대표 단어 사전 구축 시스템.
  6. 삭제
  7. 제1항에 있어서,
    상기 키워드 추출부는,
    N-gram 형태의 적어도 하나 이상의 키워드를 추출하고, 추출된 키워드 간의 포함 관계를 비교하여 최종 키워드를 추출하는 것을 특징으로 하는,
    키워드 분류 및 대표 단어 사전 구축 시스템.
KR1020230100995A 2023-08-02 2023-08-02 문서의 주제별 현황 정보 제공을 위한 인공지능 기반키워드 분류 및 대표 단어 사전 구축 시스템 KR102639858B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230100995A KR102639858B1 (ko) 2023-08-02 2023-08-02 문서의 주제별 현황 정보 제공을 위한 인공지능 기반키워드 분류 및 대표 단어 사전 구축 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230100995A KR102639858B1 (ko) 2023-08-02 2023-08-02 문서의 주제별 현황 정보 제공을 위한 인공지능 기반키워드 분류 및 대표 단어 사전 구축 시스템

Publications (1)

Publication Number Publication Date
KR102639858B1 true KR102639858B1 (ko) 2024-02-23

Family

ID=90041718

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230100995A KR102639858B1 (ko) 2023-08-02 2023-08-02 문서의 주제별 현황 정보 제공을 위한 인공지능 기반키워드 분류 및 대표 단어 사전 구축 시스템

Country Status (1)

Country Link
KR (1) KR102639858B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015156099A (ja) * 2014-02-20 2015-08-27 株式会社リコー 会議支援装置、会議支援装置の制御方法、及びプログラム
KR101902460B1 (ko) * 2017-03-29 2018-10-01 고려대학교 산학협력단 문서 분류 장치
KR20200123544A (ko) * 2019-04-22 2020-10-30 넷마블 주식회사 동의어 추출 방법
KR20230062251A (ko) * 2021-10-29 2023-05-09 삼성에스디에스 주식회사 텍스트 기반의 문서분류 방법 및 문서분류 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015156099A (ja) * 2014-02-20 2015-08-27 株式会社リコー 会議支援装置、会議支援装置の制御方法、及びプログラム
KR101902460B1 (ko) * 2017-03-29 2018-10-01 고려대학교 산학협력단 문서 분류 장치
KR20200123544A (ko) * 2019-04-22 2020-10-30 넷마블 주식회사 동의어 추출 방법
KR20230062251A (ko) * 2021-10-29 2023-05-09 삼성에스디에스 주식회사 텍스트 기반의 문서분류 방법 및 문서분류 장치

Similar Documents

Publication Publication Date Title
Hofmann et al. Text mining and visualization: Case studies using open-source tools
Inzalkar et al. A survey on text mining-techniques and application
US10977486B2 (en) Blockwise extraction of document metadata
CN100371927C (zh) 使用机器翻译技术标识释义的方法和系统
RU2732850C1 (ru) Классификация документов по уровням конфиденциальности
US11144606B2 (en) Utilizing online content to suggest item attribute importance
US6405199B1 (en) Method and apparatus for semantic token generation based on marked phrases in a content stream
Wang et al. Harvesting facts from textual web sources by constrained label propagation
JP2005526317A (ja) ドキュメントコーパスからコンセプト階層構造を自動に捜索する方法及びシステム
US11188819B2 (en) Entity model establishment
Sarracén et al. Offensive keyword extraction based on the attention mechanism of BERT and the eigenvector centrality using a graph representation
US11675793B2 (en) System for managing, analyzing, navigating or searching of data information across one or more sources within a computer or a computer network, without copying, moving or manipulating the source or the data information stored in the source
KR102540944B1 (ko) 메타데이터를 활용한 인공지능 기반 문서관리 및 통합 검색 지원 디지털 콘텐츠 시스템
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR102639858B1 (ko) 문서의 주제별 현황 정보 제공을 위한 인공지능 기반키워드 분류 및 대표 단어 사전 구축 시스템
KR102639876B1 (ko) 인공지능 기술을 활용한 주제별 유사 의미 키워드 분류사전 구축 방법
CN116467291A (zh) 一种知识图谱存储与搜索方法及系统
Ma et al. API prober–a tool for analyzing web API features and clustering web APIs
KR102640194B1 (ko) 딥러닝 분석으로 연관 키워드의 대표 단어를 치환하여문서의 현황 정보를 제공하는 방법
JP2022050011A (ja) 情報処理装置及びプログラム
KR102639873B1 (ko) 인공지능을 활용한 대표어 관리를 위한 유의어 치환장치
KR102639880B1 (ko) 문서 내의 유의어를 대표어로 관리하기 위한 인공지능기반 유의어 치환방법
More et al. A framework for summarization of online opinion using weighting scheme
KR102599713B1 (ko) 문서 본문 내용을 기반으로 한 핵심 키워드 선정 시스템 및 그 방법
Aboucaya et al. Building online public consultation knowledge graphs

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant