KR102640811B1 - 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템 - Google Patents

핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템 Download PDF

Info

Publication number
KR102640811B1
KR102640811B1 KR1020230116497A KR20230116497A KR102640811B1 KR 102640811 B1 KR102640811 B1 KR 102640811B1 KR 1020230116497 A KR1020230116497 A KR 1020230116497A KR 20230116497 A KR20230116497 A KR 20230116497A KR 102640811 B1 KR102640811 B1 KR 102640811B1
Authority
KR
South Korea
Prior art keywords
user
keywords
dictionary
morpheme
keyword
Prior art date
Application number
KR1020230116497A
Other languages
English (en)
Inventor
황선희
고형석
이홍재
Original Assignee
(주)유알피
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)유알피 filed Critical (주)유알피
Priority to KR1020230116497A priority Critical patent/KR102640811B1/ko
Application granted granted Critical
Publication of KR102640811B1 publication Critical patent/KR102640811B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 핵심 키워드 추출 시 형태소 분석 단계에서 하나의 키워드로 인식되어야 하는 단어들을 자동으로 추출하여 사용자에게 추천하고, 사용자 사전으로 등록하는 시스템에 관한 것으로, 외부 서버로부터 문서를 수집하여 텍스트를 추출하는 문서 수집부; 텍스트 문서를 문장 단위로 분리하고, 개별 문장에서 어절의 형태소 결합을 분석하여, 사용자 사전에 등록할 사용자 키워드를 추출하는 사용자키워드 추출부; 및 상기 사용자 키워드를 사용자 단말기로 제공하고, 사용자의 요청에 따라 사용자 사전으로 등록하는 사용자사전 등록부;를 포함한다.

Description

핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템{SYSTEM FOR RECOMMENDING KEYWORDS FROM DEEP LEARNING-BASED USER DICTIONARY TO IMPROVE ACCURACY WHEN EXTRACTING CORE KEYWORDS}
본 발명은 핵심 키워드 추출 시 형태소 분석 단계에서 하나의 키워드로 인식되어야 하는 단어들을 자동으로 추출하여 사용자에게 추천하고, 사용자 사전으로 등록하는 시스템에 관한 것으로, 문서에서 핵심 키워드를 추출할 때 상기 사용자 사전을 참조하여 핵심 키워드가 분할되지 않도록 하여 키워드 추출의 정확도를 향상시키는 효과를 제공한다.
디지털 문서의 폭발적인 증가와 빅데이터의 환경에서 정보를 추출하고 분석하는 필요성이 높아지면서, 자연어 처리와 데이터 마이닝 기술의 진보를 토대로, 대량의 텍스트 데이터로부터 유용한 정보를 식별하고 추출하는 키워드 추출 기술이 중요한 역할을 수행하고 있다.
일반적으로 키워드 추출은 문서 내에서 높은 빈도를 나타내는 단어 또는 단어구를 키워드로 추출하는데, 문서 내 빈도수에 기반한 통계적 방법, 딥러닝 기술을 적용한 문장의 구문 분석을 통한 키워드 추출하는 등 문서의 복잡도, 목적 및 도메인의 특성에 따라 다양한 키워드 추출 기술을 사용하고 있다.
키워드 추출을 위해 전처리 단계로 형태소 분석을 통해 텍스트 내에서 형태소를 추출하고, 이를 기반으로 중요한 키워드를 식별하고 선택하는 과정을 수행할 수 있다.
이 과정에서 복수개의 단어로 구성되어 있지만 하나의 의미를 가지는 복합어에 대해 형태소 분석 과정에서 하나의 키워드로 인식하지 못하는 문제가 발생하여, 핵심 키워드가 분할되는 문제가 발생한다.
따라서, 문서의 정확한 내용 분석을 위해 핵심 키워드가 분할되지 않도록 단일 키워드로 추출하는 방법이 요구된다.
본 발명은 상기 문제점을 해결하기 위해 문서 내의 문장들을 띄어쓰기 기준으로 어절 단위로 나누고, 어절에 대한 형태소 결합 관계를 분석하여 하나의 키워드로 인식할 단어를 사용자 사전으로 등록하여 키워드 추출 시 이를 참조하여 핵심 키워드가 분할되지 않도록 하는 것을 목적으로 한다.
또한, 형태소 분석 단위의 키워드 중 하나의 키워드로 묶어서 보고 싶은 단어를 문서에서 자동으로 추출하여 사용자에게 추천함으로서, 사용자가 확인 후 사용자 사전으로 용이하게 등록할 수 있도록 하는 것을 목적으로 한다.
본 발명의 일 실시예에 따른 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템은, 외부 서버로부터 문서를 수집하여 텍스트를 추출하는 문서 수집부; 텍스트 문서를 문장 단위로 분리하고, 개별 문장에서 어절의 형태소 결합을 분석하여, 사용자 사전에 등록할 사용자 키워드를 추출하는 사용자키워드 추출부; 및 상기 사용자 키워드를 사용자 단말기로 제공하고, 사용자의 요청에 따라 사용자 사전으로 등록하는 사용자사전 등록부;를 포함할 수 있다.
또한, 상기 사용자키워드 추출부는 형태소 분석기를 적용하여 문장을 형태소 단위로 구분하고, 형태소 태그를 부착하는 형태소 태깅부;를 포함할 수 있다.
또한, 상기 사용자키워드 추출부는 형태소 태그가 부착된 문장을 띄어쓰기 기준으로 어절 단위로 분리하고, 분리된 각 어절에서 명사를 포함하는 어절을 추출하고, 상기 어절의 형태소 결합 관계를 분석하여 사용자 키워드로 추천할 단어를 추출하는 형태소결합 분석부;를 더 포함할 수 있다.
또한, 상기 형태소결합 분석부는 하나의 어절에서 조사 및 접미사를 제외하고, 나머지 형태소의 결합 형태가 접두사 및 명사인 단어; 및 하나의 어절에서 조사 및 접미사를 제외하고, 나머지 형태소의 결합 형태가 복수개의 명사가 연속으로 결합된 단어; 중 적어도 하나 이상을 사용자 키워드 후보로 추출하는 것을 특징으로 한다.
또한, 상기 사용자키워드 추출부는 예외 사전을 확인하여 추출된 사용자 키워드 후보에서 예외 사전에 등록된 키워드를 제외하는 예외 적용부;를 더 포함하고, 상기 예외 사전은 이전에 추천했던 사용자 키워드 중 향후 추천에서 제외할 키워드를 포함하는 단어 집합인 것을 특징으로 한다.
또한, 상기 사용자사전 등록부는 추천 대상 사용자 키워드를 사용자 단말기로 제공하고, 상기 사용자 단말기로부터 등록 대상 사용자 키워드 리스트를 수신하여 사용자 사전에 등록하는 것을 특징으로 한다.
또한, 상기 사용자사전 등록부는 추천한 사용자 키워드 중에서 예외 사전에 등록할 사용자 키워드를 상기 사용자 단말기로부터 수신하고, 예외 사전에 등록하는 것을 특징으로 한다.
형태소 분석 단위 키워드 중 하나의 키워드로 인식하고자 하는 단어를 자동으로 추출하여 사용자에 추천하고, 사용자 사전으로 등록함으로서, 키워드 추출 시 사용자 사전을 참조하여 핵심 키워드가 분할되지 않도록 하고, 이를 통해 정확한 문서 분석을 수행할 수 있는 효과가 있다.
또한, 하나의 키워드로 인식하도록 사용자 사전으로 등록할 키워드를 자동으로 추출하여 추천함으로서, 사용자가 일일이 모든 문서를 읽고 등록하는 과정을 자동화 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템의 전체 관계도이다.
도 2는 본 발명의 일 실시예에 따른 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템의 기능에 대한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템의 하드웨어 구조를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템에서 문서에서 사용자 사전에 등록할 사용자 키워드를 추출하는 예시를 나타낸 도면이다.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.
그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 설정된 용어들로써 이는 발명자의 의도 또는 관례에 따라 달라질 수 있으므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이고, 본 명세서에서 본 발명에 관련된 공지의 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에 이에 관한 자세한 설명은 생략하기로 한다.
이하, 도면을 참조로 하여 본 발명에 따른 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템을 설명한다.
도 1은 본 발명의 일 실시예에 따른 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템(이하, 사용자 사전 키워드 추천 시스템이라 함.)의 전체 관계도이다.
도 1을 참조하면, 사용자 사전 키워드 추천 시스템(100)은 적어도 하나 이상의 사용자 단말기(200) 및 외부 서버(300)와 네트워크로 연결되어 서로 통신할 수 있다.
본 발명에서 언급하는 네트워크라 함은 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어 망일 수도 있고, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), HTTPS(Hyper Text Transfer Protocol Secure), Telnet, FTP(File Transfer Protocol) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미할 수 있으며, 이러한 예에 한정하지 않고 다양한 형태로 데이터를 송수신할 수 있는 데이터 통신망을 포괄적으로 의미하는 것이다.
본 발명에서 언급하는 단말기는 데스크톱, 태블릿, 노트북, 스마트폰, 웨어러블 스마트 기기 등의 다양한 통신 수단을 포함하는 것으로 해석되어야 하며, 웹 기반 또는 별도의 소프트웨어/애플리케이션 등을 통해 서버 또는 시스템에서 제공하는 각종 기능을 실행할 수 있다.
본 발명의 사용자 사전 키워드 추천 시스템(100)은 키워드 추출 시 핵심 키워드가 분할되어 분석 결과에 영향을 미치는 문제를 개선하기 위해, 형태소 분석 단위 키워드 중 하나의 키워드로 인식할 단어를 자동으로 추출하여 사용자에게 추천하고, 사용자가 이를 확인하여 사용자 사전 등록을 요청하면 사용자 사전에 등록함으로서, 사용자가 일일이 문서를 확인하여 수동으로 사용자 키워드를 추출하고 등록하는 과정을 개선하여 자동화한다.
이를 위해, 외부 서버로부터 수집한 문서를 문장 단위로 분리하고, 각 문장에 대해 형태소를 분석하여, 형태소 태그를 부착하고, 각 문장을 띄어쓰기 단위로 어절을 분리한 후 각 어절의 형태소 결합을 분석하여, 사용자 키워드의 조건을 만족하는 단어를 사용자에게 추천하고, 사용자가 이를 확인한 후 사용자 사전에 단어 등록을 요청하면 해당 키워드를 사용자 사전에 등록하는 과정을 수행한다.
본 발명에서 사용자 단말기(200)는 사용자 사전 키워드 추천 시스템(100)에서 제공하는 웹페이지 및/또는 앱(App) 등의 사용자 인터페이스를 통해 접속하여 사용자 사전 키워드 추천 시스템(100)이 추천하는 사용자 키워드 목록을 확인하고, 사용자 사전에 등록할 키워드를 선택하여 사용자 사전에 등록을 요청할 수 있다.
또한, 추천된 키워드 중 향후 추천을 원하지 않는 키워드는 예외 사전에 등록하도록 요청할 수 있다.
본 발명에서 외부 서버(300)는 사용자 사전 키워드 추천 시스템(100)이 문서를 수집하는 대상 서버이다.
따라서, 외부 서버(300)는 특정 도메인에 포함되어 텍스트 데이터를 생성, 수집 및 가공하거나 문서를 보관하고, 저장하는 서버 또는 시스템인 것이 바람직할 것이다.
외부 서버(300)는 빅데이터 서버, SNS(Social Network Service), 뉴스 사이트, 문서 관리 시스템, 커뮤니티 사이트, 기업 시스템 등 분야에 제한되지 않고 인터넷 상에서 데이터 수집이 가능한 서버들을 포함할 수 있다.
도 2는 본 발명의 일 실시예에 따른 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템(100)의 기능에 대한 블록도이다.
도 2를 참조하면, 사용자 사전 키워드 추천 시스템(100)은 문서 수집부(110), 사용자키워드 추출부(120) 및 사용자사전 등록부(130)를 구비할 수 있다.
문서 수집부(110)는 외부 서버(300)로부터 텍스트를 포함하는 문서 또는 비정형 데이터를 수집한다.
일례로 문서 수집부(110)는 웹 스크래핑(Web Scraping), 웹 크롤링(Web Crawling), Open API 등을 사용하여 인터넷 상의 텍스트 데이터를 수집할 수 있다.
또한, 외부 서버(300)가 제공하는 FTP, HTTP 프로토콜 기반 또는 TCP/IP기반 Socket 통신 기반 연동API를 이용하거나, 외부 서버와 사전에 협의된 연동 규격으로 문서 및 메타 데이터를 수집할 수 있다.
문서 수집부(110)는 수집한 문서에 대해 필요에 따라 가공을 수행할 수 있다.
수집된 텍스트 데이터 또는 문서에는 텍스트, 이미지, 표, 소스 코드(html, javascript, xml) 등이 포함될 수 있으므로, 분석에 필요한 텍스트 만을 추출할 수 있다.
사용자키워드 추출부(120)는 제공된 문서를 문장 단위로 분리하고, 개별 문장에 대해 형태소를 분석하여 형태소 태그를 부착하고, 띄어쓰기 기준으로 어절을 분리하여 각 어절의 형태소 결합을 분석한 후, 사용자 키워드의 기준을 만족하는 단어를 추출한다.
사용자키워드 추출부(120)는 형태소 태깅부(121), 형태소결합 분석부(122) 및 예외 적용부(123)을 포함한다.
형태소 태깅부(121)는 제공된 문서를 문장으로 분리하고, 개별 문장에 대해 형태소를 분석하여 형태소 태그를 부착한다.
형태소 태깅부(121)는 형태소 분석을 위해 Mecab, Kkma, Komoran, Okt 등의 형태소 분석기를 사용할 수 있다.
또한, 복수개의 형태소 분석기를 적용하여 형태소 태그를 부착하고, 각 형태소 분석기의 형태소 태그명을 비교 분석하여 통합하는 과정을 수행할 수 있다.
이는 형태소 분석의 정확도를 높이고, 형태소 분석기 마다 다른 형태소 분석 결과를 도출할 수 있으므로, 서로 다른 결과에 대해 어떠한 결과를 최종 결과로 적용할 지 규칙을 사전에 설정하고, 해당 규칙을 적용하여 통합하는 과정을 수행할 수 있다.
형태소결합 분석부(122)는 형태소가 분석된 개별 문장에서 어절의 형태소 결합을 분석하여 사용자 사전에 등록할 사용자 키워드를 추출한다.
어절의 형태소 결합을 분석하기 위해 개별 문장을 띄어쓰기 기준으로 어절 단위로 분리한다.
분리된 각 어절에서 명사를 포함하는 어절을 추출하고, 각 어절에서 조사 및 접미사를 제외한 나머지 형태소의 결합 형태가 접두사 및 명사인 단어 또는 복수개의 명사가 연속으로 결합된 단어를 사용자 키워드 후보로 추출한다.
일례로, 문장 내에 "항공우주국은" 이라는 명사를 포함한 어절이 있는 경우, 형태소 분석기를 적용하여 형태소를 분석하면 "항공우주국은"이라는 어절은 "항공"(일반명사)/"우주국"(일반명사)/"은"(조사)로 분석된다.
형태소 분석 결과가 [항공/일반명사, 우주국/일반명사, 은/조사]이므로, 어절에서 조사를 제외한 나머지 형태소 [항공/일반명사, 우주국/일반명사]"는 복수개의 명사가 연속으로 결합된 단어이므로 사용자 키워드 후보로 판단한다.
다른 일례로, 문장 내 "초음파"이라는 어절이 포함된 경우, 형태소 분석 결과는 [초/접두사, 음속/일반명사]로 분석되고, 이는 접두사와 명사의 결합이므로 사용자 키워드 후보로 포함한다.
예외 적용부(123)는 추출된 사용자 키워드 후보 중 사용자 키워드 추천에서 제외시킬 단어를 확인하여 제외시키고, 사용자에게 추천할 최종 사용자 키워드를 확정한다.
이를 위해 예외 적용부(123)는 예외 사전을 참조하여 예외 사전에 등록된 키워드를 제외한다.
예외 사전은 이전에 추천했던 사용자 키워드 중 향후 추천에서 제외할 키워드를 포함하는 단어 집합으로, 사용자 단말기(200)로부터 예외 사전에 등록할 단어를 수신하여 예외 사전으로 등록한다.
일례로, 사용자 단말기(200)로 사용자 키워드 목록을 추천하고 추천된 사용자 키워드 중 예외 사전으로 등록할 키워드를 수신하여 등록할 수 있다.
사용자사전 등록부(130)는 사용자키워드 추출부(120)를 통해 추출된 사용자 키워드를 사용자 단말기로 사용자 단말기로 제공한다.
사용자사전 등록부(130)는 문서에서 추출된 사용자 키워드 목록을 주기적으로 사용자 단말기(200)로 제공할 수 있다.
이를 위해, 사용자 키워드 제공 및 등록을 위한 사용자 인터페이스를 제공할 수 있다.
사용자는 사용자 단말기(200)를 통해 사용자사전 등록부(130)가 제공하는 웹페이지 및/또는 앱(App)를 통해 추천된 사용자 키워드 목록을 확인하고, 사용자 사전에 등록할 키워드를 선택하여 사용자 사전 키워드 추천 시스템(100)으로 등록을 요청할 수 있다.
사용자사전 등록부(130)가 사용자 단말기(200)로부터 등록 요청을 수신하면 수신한 사용자 키워드를 사용자 사전에 등록한다.
또한, 사용자 단말기(200)는 사용자 단말기로 제공된(추천된) 사용자 키워드 중 향후 추천을 원하지 않는 사용자 키워드를 선택하여 예외 사전에 등록을 요청할 수 있다.
사용자사전 등록부(130)가 사용자 단말기(200)로부터 예외 사전에 등록할 사용자 키워드를 수신하면, 예외 사전에 등록함으로서, 향후 추천 키워드에서 제외시킬 수 있다.
도 3은 본 발명의 일 실시예에 따른 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템(100)의 하드웨어 구조를 나타낸 도면이다.
도 3을 참조하면, 사용자 사전 키워드 추천 시스템(100)의 하드웨어 구조는, 중앙처리장치(1000), 메모리(2000), 사용자 인터페이스(3000), 데이터베이스 인터페이스(4000), 네트워크 인터페이스(5000), 웹서버(6000) 등을 포함하여 구성된다.
사용자 인터페이스(3000)는 그래픽 사용자 인터페이스(GUI, graphical user interface)를 사용함으로써, 사용자에게 입력과 출력 인터페이스를 제공한다.
데이터베이스 인터페이스(4000)는 데이터베이스와 하드웨어 구조 사이의 인터페이스를 제공한다.
네트워크 인터페이스(5000)는 사용자가 보유한 장치 간의 네트워크 연결을 제공한다.
웹 서버(6000)는 사용자가 네트워크를 통해 하드웨어 구조로 액세스하기 위한 수단을 제공한다. 대부분의 사용자들은 원격에서 웹 서버로 접속하여 사용자 사전 키워드 추천 시스템(100)을 사용할 수 있다.
상술한 구성 또는 방법의 각 단계는, 컴퓨터 판독 가능한 기록 매체 상의 컴퓨터 판독 가능 코드로 구현되거나 전송 매체를 통해 전송될 수 있다. 컴퓨터 판독 가능한 기록 매체는, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터를 저장할 수 있는 데이터 저장 디바이스이다.
컴퓨터 판독 가능한 기록 매체의 예로는 데이터베이스, ROM, RAM, CD-ROM, DVD, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 디바이스가 있으나 이에 한정되는 것은 아니다. 전송 매체는 인터넷 또는 다양한 유형의 통신 채널을 통해 전송되는 반송파를 포함할 수 있다. 또한 컴퓨터 판독 가능한 기록 매체는, 컴퓨터 판독 가능 코드가 분산 방식으로 저장되고, 실행되도록 네트워크 결합 컴퓨터 시스템을 통해 분배될 수 있다.
또한 본 발명에 적용된 적어도 하나 이상의 구성요소는, 각각의 기능을 수행하는 중앙처리장치(CPU), 마이크로프로세서 등과 같은 프로세서를 포함하거나 이에 의해 구현될 수 있으며, 상기 구성요소 중 둘 이상은 하나의 단일 구성요소로 결합되어 결합된 둘 이상의 구성요소에 대한 모든 동작 또는 기능을 수행할 수 있다. 또한 본 발명에 적용된 적어도 하나 이상의 구성요소의 일부는, 이들 구성요소 중 다른 구성요소에 의해 수행될 수 있다. 또한 상기 구성요소들 간의 통신은 버스(미도시)를 통해 수행될 수 있다.
도 4는 본 발명의 일 실시예에 따른 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템에서 문서에서 사용자 사전에 등록할 사용자 키워드를 추출하는 예시를 나타낸 도면이다.
도 4를 참조하여, 사용자 사전에 등록할 사용자 키워드를 추출하는 과정을 설명한다.
분서 수집부(110)가 외부 서버(300)로부터 문서 또는 비정형 텍스트 데이터를 수집하고, 정제 과정을 수행하면, 사용자키워드 추출부(120)는 정제 과정을 거친 문서를 문장으로 분리하고, 개별 문장에 대해 형태소를 분석한다.
이때, 형태소 분석기를 적용하여 문장을 형태소 단위로 구분하고 형태소 태그를 부착할 수 있다.
일례로, 도 4의 (a) 문장에 대해 형태소 분석기를 적용한 결과는 도 4의 (b)와 같다.
다음으로, 형태소가 분석된 개별 문장 데이터에서 어절의 형태소 결합을 분석하여, 사용자 사전에 등록할 사용자 키워드를 추출한다.
이를 위해 형태소 태그가 부착된 문장 데이터를 띄어쓰기 기준으로 어절 단위로 분리한다.
일례로, "미국 항공우주국은 22일 마하 2~마하 4 수준의 초음속 여객기 상용화를 위해 기체 개발 및 기술 로드맵에 대한 본격적인 연구에 들어간다고 밝혔다."라는 예시 문장에 대해 띄어쓰기 기준으로 어절을 분리하면 도 4의 (c)와 같이 [미국 | 항공우주국은 | 22일 | 마하 | 2 | ~ | 마하 | 4 | 수준의 | 초음속 | 여객기 | 상용화를 | 위해 | 기체 | 개발 | 및 | 기술 |로드맵에 | 대한 | 본격적인 | 연구에 | 들어간다고 | 밝혔다]로 분리될 수 있다.
다음으로, 분리된 각 어절 집합에서 명사를 포함하는 어절을 추출한다.
상기 예시 문장에서 명사를 포함하는 어절은 [미국 | 항공우주국은 | 마하 | 수준의 | 초음속 | 여객기 | 상용화를 | 기체 | 개발 | 기술 | 로드맵 | 본격적인 | 연구에] 이다.
이후, 명사를 포함하는 어절의 형태소 결합 관계를 분석하여 사용자 키워드로 추천할 단어를 추출한다.
이때, 사용자 키워드를 추출하는 기준은 하나의 어절에서 조사 및 접미사를 제외하고, 나머지 형태소의 결합 형태가 접두사 및 명사인 단어이거나, 하나의 어절에서 조사 및 접미사를 제외하고, 나머지 형태소의 결합 형태가 복수개의 명사가 연속으로 결합된 단어가 될 수 있다.
일례로, 상기 예시 문장에서 ‘미국’, '마하', '여객기'와 같이 한 어절에 하나의 명사만 포함된 경우 추천 대상에서 제외된다.
‘항공우주국은’ [항공/NNG, 우주국/NNG, 은/JX]은 JX(조사)에서 조사를 제외한 나머지 형태소들이 복수개의 명사로 결합되고 문서에서 붙여서 사용하므로 추천 대상에 포함할 수 있다.
‘수준의’ [수준/NNG, 의/JKG]는 '의/JKG'는 조사를 제외하면, 하나의 명사로 이루어지므로 추천 대상에서 제외된다.
‘초음속’[초/XPN, 음속/NNG]은 접두사와 명사의 결합이므로 추천 대상에 포함할 수 있다.
‘상용화를’[상용/NNG, 화/XSN, 를/JKO]에서 '화/XSN'는 접미사, '를/JKO'은 조사이므로 제외시키면 하나의 명사로 이루어지므로 추천 대상에서 제외된다.
따라서, 상기 예시 문장에서 사용자에게 추천할 사용자 키워드는 '항공우주국'과 '초음파'로 결정될 수 있다.
한편, 사용자 키워드로 추천할 단어 중 예외 사전에 등록된 키워드는 제외한 후 사용자 단말기(200)로 제공될 수 있다.
상기와 같이 형태소 분석 단위 키워드 중 하나의 키워드로 인식하고자 하는 단어를 자동으로 추출하여 사용자에 추천하고, 사용자 사전으로 등록함으로서, 키워드 추출 시 사용자 사전을 참조하여 핵심 키워드가 분할되지 않도록 하고, 이를 통해 정확한 문서 분석을 수행할 수 있는 효과가 있다.
100: 사용자 사전 키워드 추천 시스템
110: 문서 수집부
120: 사용자키워드 추출부
121: 형태소 태깅부 122: 형태소결합 분석부
123: 예외 적용부
130: 사용자사전 등록부
200: 사용자 단말기
300: 외부 서버

Claims (7)

  1. 외부 서버로부터 문서를 수집하여 텍스트를 추출하는 문서 수집부;
    텍스트 문서를 문장 단위로 분리하고, 개별 문장에서 어절의 형태소 결합을 분석하여, 사용자 사전에 등록할 사용자 키워드를 추출하는 사용자키워드 추출부; 및
    상기 사용자 키워드를 사용자 단말기로 제공하고, 사용자의 요청에 따라 사용자 사전으로 등록하는 사용자사전 등록부;를 포함하고,
    상기 사용자키워드 추출부는,
    형태소 태그가 부착된 문장을 띄어쓰기 기준으로 어절 단위로 분리하고, 분리된 각 어절에서 명사를 포함하는 어절을 추출하고, 상기 어절의 형태소 결합 관계를 분석하여 사용자 키워드로 추천할 단어를 추출하는 형태소결합 분석부; 및
    예외 사전을 확인하여 추출된 사용자 키워드 후보에서 예외 사전에 등록된 키워드를 제외하는 예외 적용부;를 포함하고,
    상기 형태소결합 분석부는,
    하나의 어절에서 조사 및 접미사를 제외하고, 나머지 형태소의 결합 형태가 접두사 및 명사인 단어; 및
    하나의 어절에서 조사 및 접미사를 제외하고, 나머지 형태소의 결합 형태가 복수개의 명사가 연속으로 결합된 단어; 중 적어도 하나 이상을 사용자 키워드 후보로 추출하는 것을 특징으로 하고,
    상기 예외 사전은 이전에 추천했던 사용자 키워드 중 향후 추천에서 제외할 키워드를 포함하는 단어 집합인 것을 특징으로 하며,
    상기 외부 서버는 특정 도메인과 관련된 문서를 생성, 수집 및 가공 중 적어도 하나 이상을 수행하는 서버인,
    딥러닝 기반 사용자 사전 키워드 추천 시스템.
  2. 제1항에 있어서,
    상기 사용자키워드 추출부는,
    형태소 분석기를 적용하여 문장을 형태소 단위로 구분하고, 형태소 태그를 부착하는 형태소 태깅부;를 포함하는,
    딥러닝 기반 사용자 사전 키워드 추천 시스템.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    상기 사용자사전 등록부는,
    추천 대상 사용자 키워드를 사용자 단말기로 제공하고, 상기 사용자 단말기로부터 등록 대상 사용자 키워드 리스트를 수신하여 사용자 사전에 등록하는 것을 특징으로 하는,
    딥러닝 기반 사용자 사전 키워드 추천 시스템.
  7. 제6항에 있어서,
    상기 사용자사전 등록부는,
    추천한 사용자 키워드 중에서 예외 사전에 등록할 사용자 키워드를 상기 사용자 단말기로부터 수신하고, 예외 사전에 등록하는 것을 특징으로 하는,
    딥러닝 기반 사용자 사전 키워드 추천 시스템.
KR1020230116497A 2023-09-01 2023-09-01 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템 KR102640811B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230116497A KR102640811B1 (ko) 2023-09-01 2023-09-01 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230116497A KR102640811B1 (ko) 2023-09-01 2023-09-01 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템

Publications (1)

Publication Number Publication Date
KR102640811B1 true KR102640811B1 (ko) 2024-02-27

Family

ID=90058452

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230116497A KR102640811B1 (ko) 2023-09-01 2023-09-01 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템

Country Status (1)

Country Link
KR (1) KR102640811B1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072140A (ko) * 2001-03-09 2002-09-14 서정연 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
KR20040101678A (ko) * 2003-05-26 2004-12-03 한국전자통신연구원 복합 형태소 분석 장치 및 방법
JP2011128737A (ja) * 2009-12-16 2011-06-30 Nifty Corp 辞書生成処理方法、プログラム及び装置
KR20230053373A (ko) * 2021-10-14 2023-04-21 비큐리오 주식회사 심층 신경망 기반의 문서 분석 시스템과 방법 및 이를 구현하기 위한 프로그램이 저장된 기록 매체 및 매체에 저장된 컴퓨터프로그램

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020072140A (ko) * 2001-03-09 2002-09-14 서정연 각 범주의 핵심어와 문장간 유사도 측정 기법을 이용한비지도 학습을 기반으로 하는 자동 문서 범주화 방법
KR20040101678A (ko) * 2003-05-26 2004-12-03 한국전자통신연구원 복합 형태소 분석 장치 및 방법
JP2011128737A (ja) * 2009-12-16 2011-06-30 Nifty Corp 辞書生成処理方法、プログラム及び装置
KR20230053373A (ko) * 2021-10-14 2023-04-21 비큐리오 주식회사 심층 신경망 기반의 문서 분석 시스템과 방법 및 이를 구현하기 위한 프로그램이 저장된 기록 매체 및 매체에 저장된 컴퓨터프로그램

Similar Documents

Publication Publication Date Title
US10169706B2 (en) Corpus quality analysis
Chen et al. A Two‐Step Resume Information Extraction Algorithm
US11521603B2 (en) Automatically generating conference minutes
US8161059B2 (en) Method and apparatus for collecting entity aliases
US9858385B2 (en) Identifying errors in medical data
US20170308524A1 (en) Structured dictionary population utilizing text analytics of unstructured language dictionary text
US11222053B2 (en) Searching multilingual documents based on document structure extraction
WO2013170344A1 (en) Method and system relating to sentiment analysis of electronic content
US10606903B2 (en) Multi-dimensional query based extraction of polarity-aware content
US20190266158A1 (en) System and method for optimizing search query to retreive set of documents
US11645452B2 (en) Performance characteristics of cartridge artifacts over text pattern constructs
Wiedemann et al. New/s/leak 2.0–multilingual information extraction and visualization for investigative journalism
CN113742496B (zh) 一种基于异构资源融合的电力知识学习系统及方法
Bal et al. Bilingual machine translation: English to bengali
Madani et al. A new sentiment analysis method to detect and Analyse sentiments of Covid-19 moroccan tweets using a recommender approach
US11222165B1 (en) Sliding window to detect entities in corpus using natural language processing
CN112632214A (zh) 一种创建清单数据索引的方法和装置
KR102640811B1 (ko) 핵심 키워드 추출 시 정확도 향상을 위한 딥러닝 기반 사용자 사전 키워드 추천 시스템
KR102640803B1 (ko) 사용자 사전 구축을 위한 딥러닝 기반 사용자 키워드 추천 방법
Al-Barhamtoshy et al. A data analytic framework for unstructured text
CN113761906B (zh) 解析文档的方法、装置、设备和计算机可读介质
CN111310465B (zh) 平行语料获取方法、装置、电子设备、及存储介质
Ma et al. Api prober–a tool for analyzing web api features and clustering web apis
JP2011086156A (ja) 漏洩情報追跡システムおよび漏洩情報追跡プログラム
Rustagi et al. DiNer-on building multilingual disease-news profiler

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant