KR102564470B1 - System for synonym extraction through semantic analysis of unregistered words based-on deep learning model and method thereof - Google Patents

System for synonym extraction through semantic analysis of unregistered words based-on deep learning model and method thereof Download PDF

Info

Publication number
KR102564470B1
KR102564470B1 KR1020230020411A KR20230020411A KR102564470B1 KR 102564470 B1 KR102564470 B1 KR 102564470B1 KR 1020230020411 A KR1020230020411 A KR 1020230020411A KR 20230020411 A KR20230020411 A KR 20230020411A KR 102564470 B1 KR102564470 B1 KR 102564470B1
Authority
KR
South Korea
Prior art keywords
word
unregistered
synonym
words
registered
Prior art date
Application number
KR1020230020411A
Other languages
Korean (ko)
Inventor
심지현
고형석
이홍재
Original Assignee
(주)유알피
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)유알피 filed Critical (주)유알피
Priority to KR1020230020411A priority Critical patent/KR102564470B1/en
Application granted granted Critical
Publication of KR102564470B1 publication Critical patent/KR102564470B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/274Converting codes to words; Guess-ahead of partial word inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템 및 그 방법에 관한 것으로, 주어진 문서에서 형태소 분석을 통해 인식하지 못하여 제대로 분리되지 않거나, 형태소 분석을 통해 인식되었지만 사전에는 등록되지 않은 미등록어를 추출하고, 딥러닝 모델을 통해서 상기 추출한 미등록어의 의미를 즉시 파악하여 관련 유의어를 추출 및 추가함으로써, 문장 분석 및 검색에 활용할 수 있도록 하는 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템 및 그 방법에 관한 것이다.The present invention relates to a system for extracting synonyms through semantic analysis of unregistered words based on a deep learning model and a method for extracting synonyms. In a given document, a synonym is not recognized through morpheme analysis and is not properly separated, or is recognized through morpheme analysis but not registered in advance. Synonyms through semantic analysis of unregistered words based on a deep learning model that extracts unregistered words, immediately grasps the meaning of the extracted unregistered words through a deep learning model, and extracts and adds related synonyms so that they can be used for sentence analysis and search. It relates to an extraction system and its method.

Description

딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템 및 그 방법{SYSTEM FOR SYNONYM EXTRACTION THROUGH SEMANTIC ANALYSIS OF UNREGISTERED WORDS BASED-ON DEEP LEARNING MODEL AND METHOD THEREOF}Synonym extraction system and method through semantic analysis of unregistered words based on deep learning model

본 발명은 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템 및 그 방법에 관한 것으로, 더욱 상세하게는 주어진 문서에서 형태소 분석을 통해 인식하지 못하여 제대로 분리되지 않거나, 형태소 분석을 통해 인식되었지만 사전에는 등록되지 않은 미등록어를 추출하고, 딥러닝 모델을 통해서 상기 추출한 미등록어의 의미를 즉시 파악하여 관련 유의어를 추출 및 추가함으로써, 문장 분석 및 검색에 활용할 수 있도록 하는 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템 및 그 방법에 관한 것이다.The present invention relates to a synonym extraction system and method through semantic analysis of unregistered words based on a deep learning model, and more particularly, to a synonym extraction system and method for a given document that is not properly separated because it is not recognized through morpheme analysis in a given document, or is recognized through morpheme analysis but is not recognized through morpheme analysis. Meaning of unregistered words based on a deep learning model that extracts unregistered words that are not registered, immediately grasps the meaning of the extracted unregistered words through a deep learning model, and extracts and adds related synonyms to be used for sentence analysis and search. It relates to a synonym extraction system and method through analysis.

디지털시대로 전환됨에 따라 아날로그적인 많은 부분이 디지털로서 점점 많이 변환되고 있다. 이러한 시대적 변환은 가정, 기업 및 공공기관의 환경을 많이 변화시키고 있다.As we move into the digital age, many of the analog parts are being converted to digital. This epochal transformation is changing the environment of households, businesses and public institutions.

특히, 사무실에서의 변화가 가장 극심한데, 사무실 내의 모든 문서가 페어퍼리스(paperless) 정책에 따라 디지털화되고 있으며, 이에 따라 디지털 문서를 통해 내부 결제 및 관리가 이루어지고 있다.In particular, changes are most extreme in the office, where all documents in the office are digitized according to a paperless policy, and accordingly, internal payment and management are performed through digital documents.

이때 디지털 문서들을 효과적으로 관리하고 검색하기 위해서는, 효과적인 데이터베이스를 구축하는 것이 중요하다. 이를 위해서, 문서들을 자동으로 분석하고, 키워드를 추출하고, 요약문을 추출하는 분석모델들이 필요한 실정이다.At this time, in order to effectively manage and search digital documents, it is important to construct an effective database. To this end, there is a need for analysis models that automatically analyze documents, extract keywords, and extract summaries.

하지만, 기존에는 사전에 등록되어 있지 않은 단어들을 관리하고 정리하지 못하여, 분석모델들의 예측성이 저감되는 문제가 있었다.However, in the past, there was a problem in that the predictability of the analysis models was reduced because words that were not registered in the dictionary could not be managed and organized.

따라서 본 발명에서는 주어진 문서의 형태소 분석을 통해 인식하지 못하여 제대로 분리되지 않거나, 형태소 분석을 통해 인식된 단어지만 사전에 등록되지 않은 미등록어를 추출하고, 상기 추출한 미등록어의 의미를 즉시 파악하여 관련 유의어를 추출 및 추가함으로써, 문장 분석 및 검색에 용이하게 활용할 수 있는 방안을 제시하고자 한다.Therefore, in the present invention, unregistered words that are not properly separated because they are not recognized through morphological analysis of a given document, or words recognized through morphological analysis but not registered in the dictionary are extracted, and the meaning of the extracted unregistered words is immediately grasped to obtain related synonyms. By extracting and adding, we propose a method that can be easily used for sentence analysis and search.

다음으로 본 발명의 기술분야에 존재하는 선행발명에 대하여 간단하게 설명하고, 이어서 본 발명이 상기 선행발명에 비해서 차별적으로 이루고자 하는 기술적 사항에 대해서 기술하고자 한다.Next, the prior inventions existing in the technical field of the present invention will be briefly described, and then the technical details to be achieved by the present invention to be differentiated from the prior inventions will be described.

먼저 연세대학교 정보대학원 빅데이터 석사과정 학위논문(김한준, 2018.12)은 국내 온라인 커뮤니티 게시글에 기반한 신조어 추출 방법 및 형태소 분석 적용에 관한 실증적 연구에 대한 것으로서, 로지스틱 회귀분석을 수행하여 7개의 변수로 구성된 신조어 판별 모델을 통해서 텍스트 데이터로부터 신조어를 추출하는 방법에 관한 선행기술이다.First, Yonsei University Graduate School of Information Big Data master's thesis (Kim Han-jun, 2018.12) is an empirical study on the method of extracting new words and applying morpheme analysis based on domestic online community posts. It is a prior art related to a method of extracting a new word from text data through a discrimination model.

또한 한국공개특허 제10-2022-0074572호(2022.06.03.)는 미리 만들어진 형태소 사전에 제한되지 않고, 문장 내 명사 위치, 결합조사, 어미 등 명사의 딥러닝 기반 공통 패턴 분석을 이용하여 신조어를 추출할 수 있는 장치 및 그 동작 방법에 관한 선행발명이다.In addition, Korea Patent Publication No. 10-2022-0074572 (2022.06.03.) is not limited to pre-made morpheme dictionaries, but uses deep learning-based common pattern analysis of nouns such as noun positions in sentences, conjunctions, and endings to find new words. It is a prior invention related to a device capable of extracting and an operation method thereof.

또한 한국공개특허 제10-2020-0141419호(2020.12.18.)는 커뮤니티로부터 수집된 문장에 대하여 워드 임베딩을 통해 산출된 하나 이상의 단어들의 연관 관계를 분석하고, 연관 관계의 분석에 기초하여 대상 단어 및 유사 후보 단어를 결정하고, 상기 대상 단어 및 상기 유사 후보 단어에 대한 유사도 점수를 연산하고, 상기 유사도 점수에 기초하여 상기 대상 단어 및 상기 유사 후보 단어에 대한 동의 관계를 결정하는 동의어 추출 방법에 관한 선행발명이다.In addition, Korean Patent Publication No. 10-2020-0141419 (2020.12.18.) analyzes the relationship between one or more words calculated through word embedding with respect to sentences collected from the community, and based on the analysis of the relationship, the target word and a synonym extraction method for determining a similar candidate word, calculating a similarity score for the target word and the similar candidate word, and determining a synonym relationship between the target word and the similar candidate word based on the similarity score. It is a preceding invention.

하지만, 본 발명은 주어진 문서 내에서 추출한 미등록어의 의미를 즉시 파악하여 관련 유의어를 추출 및 추가하고, 이를 문장 분석 및 검색에 용이하게 활용하도록 하는 것으로서, 수집한 텍스트 데이터에서 추출한 신조어 후보단어 중에서 사전에 등록된 단어를 제거하여 신조어를 추출하는 상기 학위논문, 문장 내 명사 위치, 결합조사, 어미 등을 이용하여 신조어를 추출하는 상기 한국공개특허 제10-2022-0074572호, 및 워드 임베딩을 통해 산출된 단어들의 연관 관계 분석을 기초로 대상 단어 및 유사 후보 단어를 결정하고, 이에 대한 유사도 점수를 기초로 동의어를 추출하는 상기 한국공개특허 제10-2020-0141419호와 비교해 볼 때, 현저한 구성상 차이점이 있다.However, the present invention immediately grasps the meaning of unregistered words extracted from a given document, extracts and adds related synonyms, and utilizes them easily for sentence analysis and search. The dissertation, which extracts new words by removing words registered in , Korea Patent Publication No. 10-2022-0074572, which extracts new words by using noun positions in sentences, combined investigations, and endings, and calculation through word embedding Compared to Korean Patent Publication No. 10-2020-0141419, which determines a target word and a similar candidate word based on an association analysis of the words and extracts a synonym based on a similarity score, a significant structural difference there is

본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 문장 내의 미등록어를 추출하고, 그 의미를 즉시 파악하여 관련 유의어를 추출 및 추가함으로써, 문장 분석 및 검색에 활용할 수 있도록 하는 시스템 및 그 방법을 제공하는 것을 목적으로 한다.The present invention was created to solve the above problems, and a system and method for extracting non-registered words in a sentence, immediately grasping their meaning, and extracting and adding related synonyms so that they can be used for sentence analysis and search. is intended to provide

또한 본 발명은 문장 내의 미등록어를 사용자 사전에 추가하고, 워드 임베딩을 거쳐 유의어 그룹을 생성한 다음, 대표어를 설정하여 유의어 그룹의 단어들이 검색 결과에 포함될 수 있도록 하는 시스템 및 그 방법을 제공하는 것을 다른 목적으로 한다.In addition, the present invention provides a system and method for adding unregistered words in a sentence to a user dictionary, generating a synonym group through word embedding, and then setting a representative word so that the words of the synonym group can be included in a search result for a different purpose

또한 본 발명은 문장 내의 미등록어를 제거하고 딥러닝 학습모델을 통해서 단어를 예측한 다음, 상기 예측한 단어가 들어간 문장과 미등록어가 들어간 문장의 유사도를 비교하여 유의어를 추출함으로써, 문서 검색에 활용할 수 있도록 하는 시스템 및 그 방법을 제공하는 것을 또 다른 목적으로 한다.In addition, the present invention can be used for document search by removing unregistered words in a sentence, predicting words through a deep learning learning model, and then extracting synonyms by comparing similarities between sentences containing the predicted word and sentences containing unregistered words. It is another object to provide a system and method for enabling it.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.However, the technical problem to be achieved by the present embodiment is not limited to the technical problems described above, and other technical problems may exist.

본 발명의 일 실시예에 따른 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템은, 문서를 수집하는 데이터 수집부; 상기 수집한 문서로부터 미등록어를 추출하는 미등록어 추출부; 및 상기 추출한 미등록어를 제거하고, 상기 미등록어를 제거한 부분에 들어갈 단어를 예측하며, 상기 예측한 단어가 들어간 문장과 상기 미등록어가 들어간 문장의 유사도 비교를 통해 상기 미등록어를 대체할 유의어를 추출하는 유의어 추출부;를 포함하며, 상기 미등록어의 의미 분석에 따라 추출된 유의어를 문장 분석 및 검색에 활용하도록 지원하는 것을 특징으로 한다.A synonym extraction system through semantic analysis of non-registered words based on a deep learning model according to an embodiment of the present invention includes: a data collection unit for collecting documents; an unregistered word extraction unit extracting unregistered words from the collected documents; And extracting synonyms to replace the unregistered words by removing the extracted non-registered words, predicting words to be included in the part from which the unregistered words are removed, and comparing similarities between sentences containing the predicted words and sentences containing the unregistered words It includes a synonym extractor; and is characterized in that the synonym extracted according to the semantic analysis of the non-registered word is supported for use in sentence analysis and search.

또한, 상기 유의어 추출부는, 상기 추출한 미등록어를 마스크 처리하는 미등록어 제거부; 상기 마스크 처리한 부분에 들어갈 단어를 적어도 하나 이상 예측하는 단어 예측부; 상기 적어도 하나 이상 예측한 단어가 들어간 문장과 상기 미등록어가 들어간 문장의 유사도를 비교하는 문장 유사도 비교부; 및 상기 비교한 결과 기 설정된 임계값 이상의 단어 중 어느 하나의 단어를 상기 미등록어를 대체할 유의어로 선정하여 추출하는 미등록어 유의어 추출부;를 포함하는 것을 특징으로 한다.In addition, the synonym extraction unit may include: an unregistered word removal unit that masks the extracted unregistered word; a word prediction unit that predicts at least one word to be included in the masked portion; a sentence similarity comparing unit for comparing a similarity between a sentence containing the at least one predicted word and a sentence containing the unregistered word; and an unregistered word synonym extraction unit for selecting and extracting any one word among words equal to or greater than a preset threshold as a result of the comparison as a synonym to replace the unregistered word.

이때, 상기 예측은, BERT(Bidirectional Encoder Representations from Transformers)를 포함한 기 생성된 단어 예측용 딥러닝 학습모델에 상기 마스크 처리한 문장을 입력하여, 상기 마스크 처리한 부분에 들어갈 단어를 예측하는 것을 특징으로 한다.At this time, the prediction is characterized by inputting the masked sentence to a pre-generated deep learning learning model for word prediction including BERT (Bidirectional Encoder Representations from Transformers), and predicting words to enter the masked part. do.

또한, 상기 시스템은, 상기 추출한 미등록어의 출현 빈도가 기 설정된 횟수 이상인지를 판단하는 출현 빈도 확인부;를 더 포함하며, 상기 출현 빈도 확인부에서 확인한 결과 상기 추출한 미등록어의 출현 빈도가 기 설정된 횟수 미만인 경우, 상기 유의어 추출부를 통해 상기 미등록어를 대체할 유의어를 추출하는 것을 특징으로 한다.In addition, the system further includes an appearance frequency checking unit that determines whether the frequency of appearance of the extracted non-registered word is equal to or greater than a preset number of times, and as a result of checking by the frequency of appearance checking unit, the frequency of appearance of the extracted non-registered word is set in advance. If it is less than the number of times, it is characterized in that a synonym to replace the non-registered word is extracted through the synonym extraction unit.

또한, 상기 시스템은, 상기 출현 빈도 확인부에서 확인한 결과 상기 추출한 미등록어의 출현 빈도가 기 설정된 횟수 이상인 경우, 상기 추출한 미등록어를 형태소 분석기 사용자 사전에 등록하는 형태소 분석기 사용자 사전 등록부; 상기 추출한 미등록어를 포함한 단어 전체에 대한 워드 임베딩을 실행하여 유의어 그룹을 생성하는 워드 임베딩 및 유의어 그룹 생성부; 및 상기 생성한 유의어 그룹에서 대표어를 설정하고, 상기 설정한 대표어와 유의어의 연결관계에 대한 정보를 상기 형태소 분석기 사용자 사전에 업데이트하는 대표어 설정부;를 더 포함하는 것을 특징으로 한다.In addition, the system may include: a morpheme analyzer user dictionary registration unit for registering the extracted unregistered word in the morpheme analyzer user dictionary when the appearance frequency of the extracted unregistered word is equal to or greater than a preset number of times as a result of checking by the appearance frequency checking unit; a word embedding and synonym group generation unit generating a synonym group by executing word embedding on all of the extracted words including unregistered words; and a representative word setter configured to set a representative word in the generated synonym group and to update information on a connection between the set representative word and the synonym in the user dictionary of the morpheme analyzer.

또한, 상기 미등록어 추출부는, 형태소 분석기를 통해 상기 문서에 포함된 단어를 분리하는 형태소 분석부; 상기 형태소 분석기를 통해 단어 분리가 정상적으로 수행되는지를 확인하는 단어 분리 확인부; 및 상기 확인한 결과 상기 형태소 분석기를 통해 단어 분리가 정상적으로 수행되면, 상기 단어가 형태소 분석기 사용자 사전에 등록되어 있지 않은 미등록 단어인지를 확인하는 미등록 단어 확인부;를 포함하며, 상기 단어 분리 확인부에서 확인한 결과 상기 형태소 분석기가 인식하지 못하여 단어로 분리되지 않거나, 상기 미등록 단어 확인부에서 확인한 결과 상기 형태소 분석기가 단어로 인식하였으나 상기 형태소 분석기 사용자 사전에 등록되어 있지 않으면, 미등록어로 추출하는 것을 특징으로 한다.In addition, the unregistered word extraction unit may include a morpheme analysis unit separating words included in the document through a morpheme analyzer; a word separation confirmation unit checking whether word separation is normally performed through the morpheme analyzer; and an unregistered word confirmation unit for confirming whether the word is an unregistered word that is not registered in the morpheme analyzer user dictionary when word separation is normally performed through the morpheme analyzer as a result of the confirmation, wherein the word separation confirmation unit checks As a result, if the morpheme analyzer does not recognize it and is not divided into words, or if the non-registered word confirmation unit recognizes the morpheme as a word but is not registered in the user dictionary of the morpheme analyzer, it is characterized in that it is extracted as an unregistered word.

또한, 상기 미등록어 추출부는, LR 토크나이저(tokenizer), 응집 스코어(cohesion score), 브랜치 엔트로피(branch entropy)를 중 적어도 하나를 이용하여 상기 수집한 문서로부터 미등록어를 추출하는 것을 특징으로 한다.In addition, the non-registered word extraction unit may extract unregistered words from the collected documents using at least one of an LR tokenizer, a cohesion score, and branch entropy.

아울러, 본 발명의 일 실시예에 따른 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 방법은, 미등록어의 의미 분석을 통한 유의어 추출 시스템에서, 문서를 수집하는 데이터 수집 단계; 상기 수집한 문서로부터 미등록어를 추출하는 미등록어 추출 단계; 및 상기 추출한 미등록어를 제거하고, 상기 미등록어를 제거한 부분에 들어갈 단어를 예측하며, 상기 예측한 단어가 들어간 문장과 상기 미등록어가 들어간 문장의 유사도 비교를 통해 상기 미등록어를 대체할 유의어를 추출하는 유의어 추출 단계;를 포함하며, 상기 미등록어의 의미 분석에 따라 추출된 유의어를 문장 분석 및 검색에 활용하도록 지원하는 것을 특징으로 한다.In addition, a synonym extraction method through semantic analysis of unregistered words based on a deep learning model according to an embodiment of the present invention includes a data collection step of collecting documents in a synonym extraction system through semantic analysis of unregistered words; an unregistered word extraction step of extracting unregistered words from the collected documents; And extracting synonyms to replace the unregistered words by removing the extracted non-registered words, predicting words to be included in the part from which the unregistered words are removed, and comparing similarities between sentences containing the predicted words and sentences containing the unregistered words A synonym extraction step is included, and the synonym extracted according to the semantic analysis of the non-registered word is supported for use in sentence analysis and search.

또한, 상기 유의어 추출 단계는, 상기 미등록어의 의미 분석을 통한 유의어 추출 시스템에서, 상기 미등록어 추출 단계에서 추출한 미등록어를 마스크 처리하는 미등록어 제거 단계; 상기 마스크 처리한 부분에 들어갈 단어를 적어도 하나 이상 예측하는 단어 예측 단계; 상기 적어도 하나 이상 예측한 단어가 들어간 문장과 상기 미등록어가 들어간 문장의 유사도를 비교하는 문장 유사도 비교 단계; 및 상기 비교한 결과 기 설정된 임계값 이상의 단어 중 어느 하나의 단어를 상기 미등록어를 대체할 유의어로 선정하여 추출하는 미등록어 유의어 추출 단계;를 포함하며, 상기 예측은, BERT를 포함한 기 생성된 단어 예측용 딥러닝 학습모델에 상기 마스크 처리한 문장을 입력하여, 상기 마스크 처리한 부분에 들어갈 단어를 예측하는 것을 특징으로 한다.In addition, the synonym extraction step may include, in the synonym extraction system through the semantic analysis of the unregistered word, an unregistered word removal step of masking the unregistered word extracted in the unregistered word extraction step; a word prediction step of predicting at least one word to be included in the masked portion; a sentence similarity comparison step of comparing a similarity between a sentence containing the at least one predicted word and a sentence containing the unregistered word; And as a result of the comparison, an unregistered word synonym extraction step of selecting and extracting any one of the words equal to or greater than a preset threshold value as a synonym to replace the unregistered word; wherein the prediction is performed using previously generated words including BERT It is characterized in that a word to be entered into the masked part is predicted by inputting the masked sentence to a prediction deep learning model.

또한, 상기 방법은, 상기 미등록어의 의미 분석을 통한 유의어 추출 시스템에서, 상기 미등록어 추출 단계에서 추출한 미등록어의 출현 빈도가 기 설정된 횟수 이상인지를 판단하는 출현 빈도 확인 단계;를 더 포함하며, 상기 출현 빈도 확인 단계에서 확인한 결과 상기 추출한 미등록어의 출현 빈도가 기 설정된 횟수 미만인 경우, 상기 유의어 추출 단계를 통해 상기 미등록어를 대체할 유의어를 추출하는 것을 특징으로 한다.In addition, the method further includes an appearance frequency check step of determining whether the frequency of occurrence of the non-registered word extracted in the non-registered word extraction step is equal to or greater than a predetermined number of times in the synonym extraction system through the semantic analysis of the non-registered word, As a result of checking in the occurrence frequency checking step, if the appearance frequency of the extracted unregistered word is less than a preset number of times, a synonym to replace the unregistered word is extracted through the synonym extraction step.

또한, 상기 방법은, 상기 미등록어의 의미 분석을 통한 유의어 추출 시스템에서, 상기 출현 빈도 확인 단계에서 확인한 결과 상기 추출한 미등록어의 출현 빈도가 기 설정된 횟수 이상인 경우, 상기 추출한 미등록어를 형태소 분석기 사용자 사전에 등록하는 형태소 분석기 사용자 사전 등록 단계; 상기 추출한 미등록어를 포함한 단어 전체에 대한 워드 임베딩을 실행하여 유의어 그룹을 생성하는 워드 임베딩 및 유의어 그룹 생성 단계; 및 상기 생성한 유의어 그룹에서 대표어를 설정하고, 상기 설정한 대표어와 유의어의 연결관계에 대한 정보를 상기 형태소 분석기 사용자 사전에 업데이트하는 대표어 설정 단계;를 더 포함하는 것을 특징으로 한다.In addition, in the synonym extraction system through semantic analysis of the non-registered word, as a result of checking in the occurrence frequency checking step, if the frequency of appearance of the extracted non-registered word is equal to or greater than a predetermined number of times, the extracted non-registered word is converted into a morpheme analyzer user dictionary. pre-registering a morpheme analyzer user to register in; a word embedding and synonym group generation step of generating a synonym group by executing word embedding for all words including the extracted non-registered words; and a representative word setting step of setting a representative word in the generated synonym group and updating information on a connection relationship between the set representative word and the synonym in the user dictionary of the morpheme analyzer.

또한, 상기 미등록어 추출 단계는, 형태소 분석기를 통해 상기 문서에 포함된 단어를 분리하는 형태소 분석 단계; 상기 형태소 분석기를 통해 단어 분리가 정상적으로 수행되는지를 확인하는 단어 분리 확인 단계; 및 상기 확인한 결과 상기 형태소 분석기를 통해 단어 분리가 정상적으로 수행되면, 상기 단어가 형태소 분석기 사용자 사전에 등록되어 있지 않은 단어인지를 확인하는 미등록 단어 확인 단계;를 포함하며, 상기 단어 분리 확인 단계에서 확인한 결과 상기 형태소 분석기가 인식하지 못하여 단어로 분리되지 않거나, 상기 미등록 단어 확인 단계에서 확인한 결과 상기 형태소 분석기가 단어로 인식하였으나 상기 형태소 분석기 사용자 사전에 등록되어 있지 않으면, 미등록어로 추출하는 것을 특징으로 한다.In addition, the step of extracting unregistered words may include a morpheme analysis step of separating words included in the document through a morpheme analyzer; a word separation check step of checking whether word separation is normally performed through the morpheme analyzer; and an unregistered word check step of checking whether the word is a word not registered in the morpheme analyzer user dictionary, when the word split is normally performed through the morpheme analyzer as a result of the check, and as a result of the check in the word split check step If the morpheme analyzer does not recognize it and is not divided into words, or if the morpheme analyzer recognizes it as a word but is not registered in the user dictionary of the morpheme analyzer as a result of checking in the unregistered word confirmation step, it is characterized in that it is extracted as an unregistered word.

이상에서와 같이 본 발명의 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템 및 그 방법에 따르면, 출현빈도가 낮은 단어, 전문용어, 신조어, 제품명, 회사명 등의 형태소 분석을 통해 인식하지 못하여 제대로 분리되지 않거나, 형태소 분석을 통해 인식된 단어지만 사전에 등록되지 않은 미등록어를 추출하고, 상기 추출한 미등록어의 의미를 즉시 파악하여 관련 유의어를 추출 및 추가함으로써, 문장 분석 및 검색에 용이하게 활용할 수 있으며, 형태소 분석을 포함한 자연어 분석의 정확도를 높일 수 있는 효과가 있다.As described above, according to the synonym extraction system and method through semantic analysis of unregistered words based on a deep learning model of the present invention, words with low frequency of occurrence, technical terms, new words, product names, company names, etc. are not recognized through morphological analysis. By extracting non-registered words that are not properly separated because they are not properly separated or recognized through morphological analysis but not registered in the dictionary, and immediately grasping the meaning of the extracted non-registered words and extracting and adding related synonyms, it is easy to analyze and search sentences. It can be utilized and has the effect of increasing the accuracy of natural language analysis including morpheme analysis.

다만, 본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.However, the effects of the present invention are not limited to the above-mentioned effects, and effects not mentioned will be clearly understood by those skilled in the art from this specification and the accompanying drawings.

도 1은 본 발명의 일 실시예에 따른 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템을 포함한 전체 구성을 나타낸 개념도이다.
도 2는 본 발명의 일 실시예에 따른 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템의 구성을 보다 상세하게 나타낸 블록도이다.
도 3은 본 발명의 일 실시예에 따른 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템의 하드웨어 구조를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 방법의 동작과정을 상세하게 나타낸 순서도이다.
1 is a conceptual diagram showing the overall configuration including a synonym extraction system through semantic analysis of non-registered words based on a deep learning model according to an embodiment of the present invention.
2 is a block diagram showing the configuration of a synonym extraction system through semantic analysis of non-registered words based on a deep learning model according to an embodiment of the present invention in more detail.
3 is a diagram showing the hardware structure of a synonym extraction system through semantic analysis of non-registered words based on a deep learning model according to an embodiment of the present invention.
4 is a flowchart illustrating in detail the operation process of a synonym extraction method through semantic analysis of non-registered words based on a deep learning model according to an embodiment of the present invention.

이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.Hereinafter, specific embodiments of the present invention will be described in detail with reference to the drawings. However, the spirit of the present invention is not limited to the presented embodiments, and those skilled in the art who understand the spirit of the present invention may add, change, delete, etc. other elements within the scope of the same spirit, through other degenerative inventions or the present invention. Other embodiments included within the scope of the inventive idea can be easily proposed, but it will also be said to be included within the scope of the inventive concept.

또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.In addition, components having the same function within the scope of the same idea appearing in the drawings of each embodiment are described using the same reference numerals.

도 1은 본 발명의 일 실시예에 따른 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템을 포함한 전체 구성을 나타낸 개념도이다.1 is a conceptual diagram showing the overall configuration including a synonym extraction system through semantic analysis of non-registered words based on a deep learning model according to an embodiment of the present invention.

도 1에 도시된 바와 같이, 본 발명은 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템(100, 이하 미등록어의 의미 분석을 통한 유의어 추출 시스템으로 약칭함), 외부 서버(200), 형태소 분석기 사용자 사전(300) 등을 포함하여 구성된다.As shown in FIG. 1, the present invention includes a synonym extraction system through semantic analysis of unregistered words based on a deep learning model (100, hereinafter abbreviated as a synonym extraction system through semantic analysis of unregistered words), an external server 200, It is configured to include a morpheme analyzer user dictionary 300 and the like.

상기 미등록어의 의미 분석을 통한 유의어 추출 시스템(100)은 네트워크를 통해 복수의 외부 서버(200)와 연결될 수 있다.The synonym extraction system 100 through semantic analysis of the unregistered word may be connected to a plurality of external servers 200 through a network.

네트워크는 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어 망일 수도 있고, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), HTTPS(Hyper Text Transfer Protocol Secure), Telnet, FTP(File Transfer Protocol), DNS(Domain Name System), SMTP(Simple Mail Transfer Protocol) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미할 수 있으며, 이러한 예에 한정하지 않고 다양한 형태로 데이터를 송수신할 수 있는 데이터 통신망을 포괄적으로 의미한다.The network may be a core network integrated with a wired public network, a wireless mobile communication network, or a mobile Internet, etc., and various services existing in the TCP/IP protocol and its upper layer, that is, HTTP (Hyper Text Transfer Protocol), HTTPS (Hyper Text Transfer Protocol Secure) ), Telnet, FTP (File Transfer Protocol), DNS (Domain Name System), SMTP (Simple Mail Transfer Protocol), etc. It comprehensively means a data communication network capable of transmitting and receiving data.

상기 미등록어의 의미 분석을 통한 유의어 추출 시스템(100)은 네트워크를 통해 복수의 외부 서버(200)로부터 각종 문서를 수집하고, 상기 수집한 문서 내에서 미등록어를 추출하여 의미를 분석한 후 상기 미등록어를 대체할 유의어를 상기 형태소 분석기 사용자 사전(300)에 추가함으로써, 형태소 분석을 포함한 자연어 분석 정확도를 높일 수 있도록 한다.The synonym extraction system 100 through semantic analysis of the unregistered word collects various documents from a plurality of external servers 200 through a network, extracts unregistered words from the collected documents, analyzes the meaning, and then analyzes the unregistered word. By adding a synonym to replace a word to the user dictionary 300 of the morpheme analyzer, it is possible to increase the accuracy of natural language analysis including morpheme analysis.

즉, 상기 미등록어의 의미 분석을 통한 유의어 추출 시스템(100)은 기존 단어와의 유사도 비교를 통해 어휘 집합을 형성함으로써, 미등록어가 사용되지 않은 연관 문서를 검색하는 등의 활용이 가능하도록 하는 것이다.That is, the synonym extraction system 100 through semantic analysis of unregistered words forms a vocabulary set through similarity comparison with existing words, so that it can be utilized, such as searching for related documents in which unregistered words are not used.

특히, 대부분의 미등록어 추출 알고리즘은 오탈자 등으로 인한 일회성 미등록어의 등록 방지를 위해서 빈도 수를 활용하였지만, 본 발명에서는 미등록어가 등장하는 즉시 의미를 파악하고, 유사한 단어(즉 유의어)로 대체함으로써, 검색 정확도를 높일 수 있도록 한다.In particular, most of the non-registered word extraction algorithms used the frequency count to prevent registration of one-time unregistered words due to misspellings, etc., but in the present invention, the meaning of an unregistered word appears immediately, and by replacing it with a similar word (i.e., a synonym), To improve search accuracy.

또한, 상기 미등록어의 의미 분석을 통한 유의어 추출 시스템(100)은 상기 수집한 문서로부터 추출한 미등록어를 포함한 단어 전체의 워드 임베딩을 처리하고, 비슷한 의미를 가진 유의어 그룹을 집합으로 구성한 후 유의어 그룹에서 대표어를 설정하고, 대표어와 유의어의 연결관계에 대한 정보를 업데이트하여 문장 분석 및 검색에 활용할 수 있도록 한다.In addition, the synonym extraction system 100 through semantic analysis of the unregistered words processes word embedding of all words including unregistered words extracted from the collected documents, configures synonym groups having similar meanings, and then Set representative words and update information on the connection between representative words and synonyms so that they can be used for sentence analysis and search.

여기서, 상기 문서는 기관 내에서 전자적으로 작성되거나 관리되는 것으로서, 예를 들어, 내부 결재 서류, 업무 진행 상황들이 누적된 보고 서류 등을 포함할 수 있다. 다만, 이에 한정하지 않고, 상기 문서의 종류는 통상의 기술자에게 자명한 수준에서 다양하게 변형 가능하다.Here, the document is electronically created or managed within the institution, and may include, for example, internal approval documents and report documents in which business progress is accumulated. However, it is not limited to this, and the type of the document can be variously modified at a level obvious to those skilled in the art.

전자 문서에는 각종 텍스트 등 자료가 포함된 문서들일 수 있고, 각종 행정 문서, 보고서, 논문 및 평가서 등 다양한 포맷일 수 있고, odt, pdf, ppt, pptx, xls, xlsx, doc, docx, hwp 및 hwpx 등 파일형식을 갖출 수 있으며 데이터베이스 상에 저장되어 있을 수 있다.Electronic documents may be documents containing data such as various texts, and may be in various formats such as various administrative documents, reports, theses, and evaluations, and may include odt, pdf, ppt, pptx, xls, xlsx, doc, docx, hwp, and hwpx. etc., and may be stored in a database.

미등록어는 상기 복수의 외부 서버(200)로부터 수집한 문서 내에서 출현 빈도가 낮은 단어, 전문용어, 신조어, 제품명, 회사명 등 형태소 분석기가 인식하지 못하여 제대로 분리되지 않은 단어이거나, 또는 형태소 분석기가 해당 단어를 인식했으나 기존에 등장하지 않은 단어로 자연어 분석 시 OOV(out of vocabulary, 즉 사전에 등록되어 있지 않은 단어)가 되는 단어를 의미한다.The unregistered word is a word that is not properly separated because the morpheme analyzer does not recognize it, such as a word with a low frequency of occurrence in the documents collected from the plurality of external servers 200, a technical term, a newly coined word, a product name, a company name, or the morpheme analyzer. A word that has been recognized but has not previously appeared, and is a word that is out of vocabulary (OOV) during natural language analysis.

한편, 상기 미등록어의 의미 분석을 통한 유의어 추출 시스템(100)은 상기 미등록어를 추출할 때, LR 토크나이저(tokenizer), 응집 스코어(cohesion score), 브랜치 엔트로피(branch entropy) 등을 통해서 미등록어를 추출할 수 있다.On the other hand, the synonym extraction system 100 through semantic analysis of the unregistered word extracts the unregistered word through an LR tokenizer, cohesion score, branch entropy, etc. can be extracted.

LR 토크나이저는 L 파트에 명사, 동사, 형용사 및 부사가 위치할 수 있으며, L 파트가 인식되면 나머지 부분이 R 파트가 된다.In the LR tokenizer, nouns, verbs, adjectives, and adverbs can be located in the L part, and when the L part is recognized, the remaining parts become the R part.

또한, 응집 스코어는 한 무리의 문자열이 얼마나 밀접하게 뭉쳐서 등장하는지를 파악하는 척도이다.In addition, the cohesion score is a measure of how closely a group of strings appear together.

또한, 브랜치 엔트로피는 문자열의 경계에서 얼마나 다양한 다음 문자가 등장하는지를 계산하는 척도이다.Also, branch entropy is a measure of how many different next characters appear at a string boundary.

상기 외부 서버(200)는 공공 기관 서버, 기업 서버 및/또는 개인 서버로서, 문서를 보유 및 수집하거나, 데이터 처리를 통해 가공 정보를 산출하는 서버를 의미한다.The external server 200 is a public institution server, a corporate server, and/or a personal server, and refers to a server that holds and collects documents or calculates processed information through data processing.

본 발명에서 언급하는 외부 서버(200)는 서버 환경을 수행하기 위한 다른 구성들이 포함될 수도 있으며, 임의의 형태의 장치를 모두 포함할 수 있다.The external server 200 mentioned in the present invention may include other configurations for performing a server environment, and may include all types of devices.

예를 들어, 상기 외부 서버(200)는 디지털 기기로서, 랩톱(laptop) 컴퓨터, 노트북 컴퓨터, 데스크톱 컴퓨터, 웹 패드, 이동 전화기와 같이 프로세서를 탑재하고 메모리를 구비한 연산 능력을 갖춘 디지털 기기일 수 있다.For example, the external server 200 is a digital device, and may be a digital device equipped with a processor and memory and computing capability, such as a laptop computer, a notebook computer, a desktop computer, a web pad, and a mobile phone. there is.

상기 형태소 분석기 사용자 사전(300)은 형태소 분석기에서 기본적으로 활용되는 사전으로서, 항목을 간단하게 추가 및 수정할 수 있기 때문에 유연하게 사용될 수 있다.The morpheme analyzer user dictionary 300 is a dictionary basically used in the morpheme analyzer, and can be used flexibly because items can be easily added and modified.

이때 상기 형태소 분석기 사용자 사전(300)은 대표어 및 상기 대표어와 일정 유사 기준 이상으로 유사한 단어(유의어)를 하나의 군 단위로 정렬하여 저장할 수 있다. 예를 들어, 대표어가 '비행기'일 경우, 유의어는 '비행체', '비행물체', '항공기' 일 수 있다. 또한, 사전에 존재하지 않는 단어라고 판단되면, 그 단어를 미등록어로 하여 별도의 저장 공간에 저장할 수 있다.In this case, the morpheme analyzer user dictionary 300 may sort and store representative words and words (synonyms) similar to the representative word by a certain similarity criterion or more in a group unit. For example, when the representative word is 'airplane', synonyms may be 'aircraft', 'flying object', and 'aircraft'. In addition, if it is determined that the word does not exist in the dictionary, the word may be stored as an unregistered word in a separate storage space.

도 2는 본 발명의 일 실시예에 따른 미등록어의 의미 분석을 통한 유의어 추출 시스템의 구성을 보다 상세하게 나타낸 블록도이다.2 is a block diagram showing the configuration of a synonym extraction system through semantic analysis of non-registered words according to an embodiment of the present invention in more detail.

도 2에 도시된 바와 같이, 상기 미등록어의 의미 분석을 통한 유의어 추출 시스템(100)은 데이터 수집부(100), 미등록어 추출부(120), 출현 빈도 확인부(130), 유의어 추출부(140), 형태소 분석기 사용자 사전 등록부(150), 워드 임베딩 및 유의어 그룹 생성부(160), 대표어 설정부(170) 등을 포함하여 구성된다.As shown in FIG. 2, the synonym extraction system 100 through semantic analysis of the unregistered word includes a data collection unit 100, an unregistered word extraction unit 120, an appearance frequency check unit 130, a synonym extraction unit ( 140), a morpheme analyzer user dictionary registration unit 150, a word embedding and synonym group generation unit 160, a representative word setting unit 170, and the like.

상기 데이터 수집부(110)는 네트워크를 통해 연결된 복수의 외부 서버(200)로부터 각종 문서를 수집한다.The data collection unit 110 collects various documents from a plurality of external servers 200 connected through a network.

상기 문서는 여러 개의 문장들을 하나의 문서의 요약문일 수도 있고, 일부 추출된 문장들일 수 있다.The document may be a summary of several sentences in one document or may be partially extracted sentences.

또한, 상기 데이터 수집부(110)는 통신부(미도시)를 포함할 수 있다. 상기 통신부는 일 예로, 셀룰러 모듈, WiFi 모듈, 블루투스 모듈, GNSS 모듈, NFC 모듈, RF 모듈, 5G 모듈, LTE 모듈, NB-IOT 모듈 및/또는 LoRa 모듈을 포함할 수 있다.In addition, the data collection unit 110 may include a communication unit (not shown). The communication unit may include, for example, a cellular module, a WiFi module, a Bluetooth module, a GNSS module, an NFC module, an RF module, a 5G module, an LTE module, a NB-IOT module, and/or a LoRa module.

상기 미등록어 추출부(120)는 상기 데이터 수집부(110)를 통해 상기 외부 서버(200)로부터 수집한 문서로부터 미등록어를 추출하는 기능을 수행하며, 형태소 분석부(121), 단어 분리 확인부(122) 및 미등록 단어 확인부(123)를 포함하여 구성된다.The non-registered word extraction unit 120 performs a function of extracting unregistered words from documents collected from the external server 200 through the data collection unit 110, and includes a morpheme analysis unit 121 and a word separation confirmation unit. (122) and an unregistered word confirmation unit (123).

상기 형태소 분석부(121)는 형태소 분석기를 통해 상기 데이터 수집부(110)에서 수집한 문서에 포함된 단어를 분리한다.The morpheme analysis unit 121 separates words included in the document collected by the data collection unit 110 through the morpheme analyzer.

상기 단어 분리 확인부(122)는 상기 형태소 분석부(121)에서 형태소 분석기를 통해 단어가 정상적으로 분리되었는지의 여부를 확인하고, 상기 확인한 결과 상기 형태소 분석기가 인식하지 못하여 단어로 분리되지 않는 것을 미등록어로 추출한다.The word separation confirmation unit 122 checks whether the word is normally separated through the morpheme analyzer in the morpheme analyzer 121, and as a result of the check, the morpheme analyzer does not recognize and is not separated into words as an unregistered word. extract

상기 미등록 단어 확인부(123)는 상기 단어 분리 확인부(122)에서 확인한 결과 상기 형태소 분석기를 통해 단어 분리가 정상적으로 수행되면, 해당 단어가 상기 형태소 분석기 사용자 사전(300)에 등록되어 있지 않은 단어(OOV, out of vocabulary)인지를 확인하고, 상기 확인한 결과 상기 형태소 분석기가 단어로 인식하였으나 기존에 등장하지 않은 단어로 상기 형태소 분석기 사용자 사전(300)에 등록되어 있지 않은 것을 미등록어로 추출한다.The non-registered word checking unit 123 determines that if word separation is normally performed through the morpheme analyzer as a result of checking by the word separation check unit 122, the corresponding word is a word that is not registered in the morpheme analyzer user dictionary 300 ( OOV, out of vocabulary), and as a result of the confirmation, the morpheme analyzer recognizes it as a word, but as a word that has not previously appeared and is not registered in the morpheme analyzer user dictionary 300, it is extracted as an unregistered word.

또한, 상기 미등록어 확인부(123)는 상기 단어 분리 확인부(122)에서 확인한 결과 상기 단어가 상기 형태소 분석기 사용자 사전(300)에 등록되어 있으면, 미등록어에 대한 유의어 추출을 수행할 필요 없이, 문장 분석 및 검색 활용을 지원한다.In addition, if the non-registered word confirmation unit 123 confirms that the word is registered in the morpheme analyzer user dictionary 300 as a result of confirmation by the word separation confirmation unit 122, there is no need to perform synonym extraction for the unregistered word, It supports sentence analysis and search utilization.

여기서, 문장 분석 및 검색 활용의 의미는 입력된 문장의 의미를 분석하여 문서 검색에 활용한다는 것이며, 문서 내에서 쓰인 문장인 경우 미등록어의 등장 빈도수에 따라 사용자 사전에 어휘를 추가하여 정확한 문장 분석을 위해 활용될 수 있을 것이다.Here, the meaning of sentence analysis and search utilization is that the meaning of an input sentence is analyzed and used for document search. may be utilized for

상기 출현 빈도 확인부(130)는 상기 미등록어 추출부(120)에서 추출한 미등록어의 출현 빈도가 기 설정된 횟수 이상인지를 판단하고, 상기 판단한 결과 미등록어의 출현 빈도가 기 설정된 횟수 미만인 경우, 상기 유의어 추출부(140)에서 상기 미등록어를 대체할 유의어를 추출할 수 있도록 한다.The appearance frequency checking unit 130 determines whether the frequency of appearance of the non-registered word extracted by the non-registered word extractor 120 is equal to or greater than a preset number of times, and as a result of the determination, if the frequency of appearance of the non-registered word is less than the preset number of times, the The synonym extraction unit 140 allows synonyms to be replaced with the non-registered words to be extracted.

즉, 미등록어의 출현 빈도가 일정 횟수에 도달하지 않는 경우, 문서로부터 추출한 미등록어의 의미를 분석한 후 상기 미등록어를 대체할 유의어를 추출함으로써, 문장 분석 및 검색에 활용할 수 있도록 하는 것이다.That is, when the occurrence frequency of unregistered words does not reach a certain number of times, the meaning of the unregistered words extracted from the document is analyzed and synonyms to replace the unregistered words are extracted so that they can be used for sentence analysis and search.

또한, 상기 출현 빈도 확인부(130)는 상기 미등록어 추출부(120)에서 추출한 미등록어의 출현 빈도가 기 설정된 횟수 이상이면, 상기 형태소 분석기 사용자 사전 등록부(150), 워드 임베딩 및 유의어 그룹 생성부(160), 및 대표어 설정부(170)를 통해서 사용자 사전에 추가하고, 워드 임베딩을 거쳐 유의어 그룹을 생성하고, 대표어를 설정하여 같은 유의어 그룹의 단어들이 검색 결과에 포함될 수 있도록 한다.In addition, if the appearance frequency of the non-registered word extracted by the non-registered word extractor 120 is equal to or greater than a preset number of occurrences, the appearance frequency checking unit 130 may include the morpheme analyzer user dictionary registration unit 150, word embedding and thesaurus group generator 160 and the representative word setting unit 170, the words are added to the user dictionary, a synonym group is created through word embedding, and a representative word is set so that words of the same synonym group can be included in the search results.

즉, 미등록어의 출현 빈도가 사전에 설정된 일정 횟수 이상이 되는 경우, 문서로부터 추출한 미등록어를 사용자 사전에 추가하고, 워드 임베딩을 거쳐 유의어 그룹을 생성하고, 대표어를 설정하여 같은 유의어 그룹의 단어들이 문장 분석 및 검색에 활용할 수 있도록 하는 것이다.That is, when the frequency of occurrence of unregistered words exceeds a certain number of times set in advance, the non-registered words extracted from the document are added to the user dictionary, a synonym group is created through word embedding, and a representative word is set so that words in the same synonym group are added. It is to enable them to use it for sentence analysis and search.

상기 유의어 추출부(140)는 상기 미등록어 추출부(120)에서 추출한 미등록어와 유사한 적어도 하나 이상의 단어를 예측하고, 상기 예측한 단어 중 상기 미등록어와 가장 유사한 단어를 상기 미등록어를 대체하는 유의어로 추출한다.The synonym extractor 140 predicts at least one or more words similar to the unregistered word extracted by the unregistered word extractor 120, and extracts a word most similar to the unregistered word among the predicted words as a synonym replacing the unregistered word. do.

즉, 상기 유의어 추출부(140)는 수집한 문서에서 추출한 미등록어를 제거하고, 상기 미등록어를 제거한 부분에 들어갈 단어를 기 생성된 딥러닝 학습모델을 통해서 예측하며, 상기 예측한 단어가 들어간 문장과 상기 미등록어가 들어간 문장의 유사도를 비교하여 상기 미등록어를 대체할 유의어를 추출함으로써, 상기 미등록어의 의미 분석에 따라 추출된 유의어를 문장 분석 및 검색에 활용하도록 지원하는 것이다.That is, the synonym extractor 140 removes unregistered words extracted from the collected documents, predicts words to be included in the part from which the unregistered words are removed, through a previously generated deep learning learning model, and sentences containing the predicted words. By comparing the similarity of the unregistered word with the similarity of the sentence containing the unregistered word and extracting a synonym to replace the unregistered word, the synonym extracted according to the semantic analysis of the unregistered word is supported for sentence analysis and search.

상기 유의어 추출부(140)는 미등록어 제거부(141), 단어 예측부(142), 문장 유사도 비교부(143) 및 미등록어 유의어 추출부(144)를 포함하여 구성된다.The synonym extraction unit 140 includes an unregistered word removal unit 141, a word prediction unit 142, a sentence similarity comparison unit 143, and an unregistered word synonym extraction unit 144.

상기 미등록어 제거부(141)는 상기 미등록어 추출부(120)에서 추출한 미등록어를 마스크(mask) 처리하고, 상기 마스크 처리한 문장을 상기 단어 예측부(142)로 제공한다. 즉, 문장에서 미등록어 부분을 빈 칸으로 만들어 상기 단어 예측부(142)로 전달하는 것이다.The non-registered word removal unit 141 masks the non-registered word extracted by the non-registered word extraction unit 120 and provides the masked sentence to the word prediction unit 142 . That is, the non-registered word part in the sentence is made blank and transmitted to the word prediction unit 142.

상기 단어 예측부(142)는 상기 미등록어 제거부(141)를 통해 마스크 처리한 부분에 들어갈 단어를 적어도 하나 이상 예측하고, 상기 예측한 단어가 포함된 문장을 상기 문장 유사도 비교부(143)로 제공한다.The word prediction unit 142 predicts at least one word to be included in the masked portion through the non-registered word removal unit 141, and transfers the sentence including the predicted word to the sentence similarity comparison unit 143. to provide.

이때 상기 단어 예측부(142)는 BERT(Bidirectional Encoder Representations from Transformers)를 포함한 기 생성된 단어 예측용 딥러닝 학습모델에 상기 미등록어 제거부(141)에서 마스크 처리한 문장을 입력하여, 상기 마스크 처리한 부분에 들어갈 단어를 예측한다.At this time, the word prediction unit 142 inputs the sentence masked by the unregistered word removal unit 141 to a pre-generated deep learning learning model for word prediction including BERT (Bidirectional Encoder Representations from Transformers), and the mask processing Predict the words that will fit in a part.

상기 문장 유사도 비교부(143)는 상기 단어 예측부(142)에서 예측한 단어를 포함한 문장과 상기 미등록어가 들어간 문장 간의 유사도를 비교하고, 상기 비교한 결과를 상기 미등록어 유의어 추출부(144)로 제공한다.The sentence similarity comparison unit 143 compares the similarity between a sentence including the word predicted by the word prediction unit 142 and a sentence including the unregistered word, and sends the comparison result to the unregistered word synonym extractor 144. to provide.

즉, 예측한 단어가 들어간 문장과 미등록어가 들어간 문장의 유사도를 비교하여, 기 설정된 임계값 이상이 되는 유사도를 가진 단어에 대한 정보를 상기 미등록어 유의어 추출부(144)로 제공하는 것이다.That is, similarity between a sentence containing a predicted word and a sentence containing an unregistered word is compared, and information on a word having a similarity equal to or higher than a predetermined threshold value is provided to the non-registered word synonym extractor 144 .

상기 미등록어 유의어 추출부(144)는 상기 문장 유사도 비교부(143)에서 비교한 결과를 토대로 기 설정된 임계값 이상의 단어 중 어느 하나의 단어를 상기 미등록어를 대체할 유의어로 선정하여 추출한다.The non-registered word synonym extractor 144 selects and extracts any one word among words equal to or higher than a preset threshold value as a synonym to replace the unregistered word based on the comparison result from the sentence similarity comparison unit 143.

이때, 상기 미등록어 유의어 추출부(144)는 문맥을 고려하여 상기 미등록어와 의미가 가장 비슷한 단어를 유의어로 선정하므로, 오탈자 등의 보정 효과를 기대할 수 있다.At this time, since the unregistered word synonym extractor 144 selects a word having the most similar meaning to the unregistered word as a synonym in consideration of the context, correction effects such as misspellings can be expected.

상기 형태소 분석기 사용자 사전 등록부(150)는 상기 출현 빈도 확인부(130)에서 판단한 결과 미등록어의 출현 빈도가 기 실정된 일정 횟수 이상인 경우, 상기 미등록어 추출부(120)에서 추출한 미등록어를 형태소 분석기 사용자 사전(300)에 등록한다.The morpheme analyzer user dictionary registration unit 150 converts the non-registered word extracted by the non-registered word extractor 120 to the morpheme analyzer when the appearance frequency of the non-registered word is equal to or greater than a predetermined predetermined number of times as determined by the appearance frequency confirmation unit 130. Register in the user dictionary 300.

상기 워드 임베딩 및 유의어 그룹 생성부(160)는 상기 미등록어 추출부(120)에서 추출한 미등록어를 포함한 단어 전체에 대한 워드 임베딩을 실행하고, 상기 실행한 결과에 따라 유의어 그룹을 생성한다.The word embedding and synonym group generation unit 160 executes word embedding on all words including unregistered words extracted by the unregistered word extractor 120, and creates a synonym group according to the execution result.

상기 대표어 설정부(170)는 상기 워드 임베딩 및 유의어 그룹 생성부(160)에서 생성한 유의어 그룹에서 대표어를 설정하고, 상기 설정한 대표어와 유의어의 연결관계에 대한 정보를 상기 형태소 분석기 사용자 사전(300)에 업데이트한다.The representative word setting unit 170 sets a representative word in the synonym group created by the word embedding and synonym group generation unit 160, and transmits information about a connection between the set representative word and the synonym to the morpheme analyzer user dictionary. Update to 300.

도 3은 본 발명의 일 실시예에 따른 미등록어의 의미 분석을 통한 유의어 추출 시스템의 하드웨어 구조를 나타낸 도면이다.3 is a diagram showing the hardware structure of a synonym extraction system through semantic analysis of unregistered words according to an embodiment of the present invention.

도 3에 도시한 것과 같이, 상기 미등록어의 의미 분석을 통한 유의어 추출 시스템(100)의 하드웨어 구조는, 중앙처리장치(1000), 메모리(2000), 사용자 인터페이스(3000), 데이터베이스 인터페이스(4000), 네트워크 인터페이스(5000), 웹서버(6000) 등을 포함하여 구성된다.As shown in FIG. 3, the hardware structure of the synonym extraction system 100 through semantic analysis of the unregistered word includes a central processing unit 1000, a memory 2000, a user interface 3000, and a database interface 4000. , a network interface 5000, a web server 6000, and the like.

상기 사용자 인터페이스(3000)는 그래픽 사용자 인터페이스(GUI, graphical user interface)를 사용함으로써, 사용자에게 입력과 출력 인터페이스를 제공한다.The user interface 3000 provides an input and output interface to the user by using a graphical user interface (GUI).

상기 데이터베이스 인터페이스(4000)는 데이터베이스와 하드웨어 구조 사이의 인터페이스를 제공한다. 상기 네트워크 인터페이스(5000)는 사용자가 보유한 장치 간의 네트워크 연결을 제공한다.The database interface 4000 provides an interface between a database and a hardware structure. The network interface 5000 provides a network connection between devices possessed by a user.

상기 웹 서버(6000)는 사용자가 네트워크를 통해 하드웨어 구조로 액세스하기 위한 수단을 제공한다. 대부분의 사용자들은 원격에서 웹 서버로 접속하여 상기 미등록어의 의미 분석을 통한 유의어 추출 시스템(100)을 사용할 수 있다.The web server 6000 provides a means for users to access hardware structures through a network. Most users can access the web server remotely and use the synonym extraction system 100 through semantic analysis of the non-registered word.

상술한 구성 또는 방법의 각 단계는, 컴퓨터 판독 가능한 기록매체 상의 컴퓨터 판독 가능 코드로 구현되거나 전송 매체를 통해 전송될 수 있다. 컴퓨터 판독 가능한 기록매체는, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터를 저장할 수 있는 데이터 저장 디바이스이다.Each step of the above configuration or method may be implemented as computer readable code on a computer readable recording medium or transmitted through a transmission medium. A computer-readable recording medium is a data storage device capable of storing data that can be read by a computer system.

컴퓨터 판독 가능한 기록매체의 예로는 데이터베이스, ROM, RAM, CD-ROM, DVD, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 디바이스가 있으나 이에 한정되는 것은 아니다. 전송매체는 인터넷 또는 다양한 유형의 통신 채널을 통해 전송되는 반송파를 포함할 수 있다. 또한 컴퓨터 판독 가능한 기록매체는, 컴퓨터 판독 가능 코드가 분산 방식으로 저장되고, 실행되도록 네트워크 결합 컴퓨터 시스템을 통해 분배될 수 있다.Examples of computer-readable recording media include, but are not limited to, databases, ROMs, RAMs, CD-ROMs, DVDs, magnetic tapes, floppy disks, and optical data storage devices. The transmission medium may include a carrier wave transmitted through the Internet or various types of communication channels. Also, the computer readable recording medium may be distributed over a network coupled computer system such that the computer readable code is stored and executed in a distributed manner.

또한 본 발명에 적용된 적어도 하나 이상의 구성요소는, 각각의 기능을 수행하는 중앙처리장치(CPU), 마이크로프로세서 등과 같은 프로세서를 포함하거나 이에 의해 구현될 수 있으며, 상기 구성요소 중 둘 이상은 하나의 단일 구성요소로 결합되어 결합된 둘 이상의 구성요소에 대한 모든 동작 또는 기능을 수행할 수 있다. 또한 본 발명에 적용된 적어도 하나 이상의 구성요소의 일부는, 이들 구성요소 중 다른 구성요소에 의해 수행될 수 있다. 또한 상기 구성요소들 간의 통신은 버스(미도시)를 통해 수행될 수 있다.In addition, at least one component applied to the present invention may include or be implemented by a processor such as a central processing unit (CPU) or a microprocessor that performs each function, and two or more of the components are one single All operations or functions for two or more components that are combined into components can be performed. In addition, some of at least one or more components applied to the present invention may be performed by other components among these components. Also, communication between the components may be performed through a bus (not shown).

다음에는, 이와 같이 구성된 본 발명에 따른 미등록어의 의미 분석을 통한 유의어 추출 방법의 일 실시예를 도 4를 참조하여 상세하게 설명한다. 이때 본 발명의 방법에 따른 각 단계는 사용 환경이나 당업자에 의해 순서가 변경될 수 있다.Next, an embodiment of a synonym extraction method through semantic analysis of unregistered words according to the present invention configured as described above will be described in detail with reference to FIG. 4 . At this time, the order of each step according to the method of the present invention may be changed by a user environment or a person skilled in the art.

도 4는 본 발명의 일 실시예에 따른 미등록어의 의미 분석을 통한 유의어 추출 방법의 동작과정을 상세하게 나타낸 순서도이다.4 is a flowchart showing in detail the operation process of a synonym extraction method through semantic analysis of unregistered words according to an embodiment of the present invention.

도 4에 도시된 바와 같이, 상기 미등록어의 의미 분석을 통한 유의어 추출 시스템(100)은 네트워크를 통해 연결된 복수의 외부 서버(200)로부터 문서를 수집한다(S102).As shown in FIG. 4 , the synonym extraction system 100 through semantic analysis of the unregistered word collects documents from a plurality of external servers 200 connected through a network (S102).

이어서, 상기 S102 단계를 통해 수집한 문서로부터 미등록어를 추출한다.Subsequently, non-registered words are extracted from the documents collected through step S102.

즉, 상기 미등록어의 의미 분석을 통한 유의어 추출 시스템(100)은 형태소 분석기를 통해 상기 수집한 문서의 형태소 분석을 수행하여 상기 문서에 포함된 단어를 분리한 다음(S104), 단어 분리가 정상적으로 수행되는지를 판단한다(S106).That is, the synonym extraction system 100 through semantic analysis of the non-registered words performs morphological analysis of the collected documents through a morpheme analyzer to separate words included in the documents (S104), and then word separation is normally performed. It is determined whether or not (S106).

상기 판단한 결과 상기 확인한 결과 상기 형태소 분석기를 통해 단어 분리가 정상적으로 수행되면, 상기 단어가 형태소 분석기 사용자 사전(300)에 등록되어 있지 않은 단어인지를 판단한다(S108). 즉 형태소 분석을 통해서 정상적으로 분리된 단어가 OOV(out of vocabulary)인지의 여부를 확인하는 것이다.As a result of the determination, if word separation is normally performed through the morpheme analyzer as a result of the confirmation, it is determined whether the word is not registered in the morpheme analyzer user dictionary 300 (S108). That is, it is checked whether a normally separated word is out of vocabulary (OOV) through morpheme analysis.

상기 S108 단계에서 판단한 결과 OOV에 해당하지 않으면, 상기 미등록어의 의미 분석을 통한 유의어 추출 시스템(100)은 문장 분석 및 검색 활용을 지원한다(S110).As a result of the determination in step S108, if it does not correspond to OOV, the synonym extraction system 100 through semantic analysis of the non-registered word supports sentence analysis and search utilization (S110).

상기 S106 단계에서 판단한 결과 상기 형태소 분석기가 인식하지 못하여 단어로 분리되지 않거나, 상기 S108 단계에서 판단한 결과 상기 형태소 분석기가 단어로 인식하였으나 상기 형태소 분석기 사용자 사전(300)에 등록되어 있지 않은 단어이면, 미등록어로 추출한다(S112).If it is determined in step S106 that the morpheme analyzer does not recognize and is not divided into words, or as a result of determination in step S108, the morpheme analyzer recognizes the word as a word but is not registered in the user dictionary 300 of the morpheme analyzer, it is not registered. It is extracted by fish (S112).

이어서, 상기 미등록어의 의미 분석을 통한 유의어 추출 시스템(100)은 상기 S112 단계에서 추출한 미등록어의 출현 빈도가 기 설정된 횟수 이상인지를 판단한다(S114).Subsequently, the synonym extraction system 100 through the semantic analysis of the unregistered word determines whether the frequency of occurrence of the unregistered word extracted in step S112 is equal to or greater than a preset number of times (S114).

상기 S114 단계에서 판단한 결과 미등록어의 출현 빈도가 기 설정된 횟수 미만이면, 상기 S112 단계에서 추출한 미등록어를 마스크 처리하여 문장 내에서 미등록어 부분을 제거하고(S116), BERT를 포함한 단어 예측용 딥러닝 학습모델을 통해서 상기 마스크 처리한 부분에 들어갈 단어를 적어도 하나 이상 예측한다(S118).As a result of the determination in step S114, if the frequency of appearance of the non-registered word is less than the preset number of times, the unregistered word extracted in step S112 is masked to remove the non-registered word part from the sentence (S116), and deep learning for word prediction including BERT At least one word to be included in the masked portion is predicted through the learning model (S118).

그리고 상기 S118 단계에서 예측한 단어가 들어간 문장과 상기 미등록어가 들어간 문장의 유사도를 비교하고(S120), 상기 비교한 결과 기 설정된 임계값 이상의 단어 중 어느 하나의 단어를 상기 미등록어를 대체할 유의어로 선정하여 추출(S122)함으로써, 상기 미등록어의 의미 분석에 따라 추출된 유의어를 문장 분석 및 검색에 활용하도록 지원한다(S124).Then, the similarity between the sentence containing the word predicted in step S118 and the sentence containing the unregistered word is compared (S120), and as a result of the comparison, any one of the words above a predetermined threshold value is used as a synonym to replace the unregistered word. By selecting and extracting (S122), the synonym extracted according to the semantic analysis of the non-registered word is supported for use in sentence analysis and search (S124).

한편, 상기 미등록어의 의미 분석을 통한 유의어 추출 시스템(100)은 상기 S114 단계에서 판단한 결과 미등록어의 출현 빈도가 기 설정된 횟수 이상인 경우, 상기 S112 단계에서 추출한 미등록어를 형태소 분석기 사용자 사전(300)에 등록한다(S126).On the other hand, if the synonym extraction system 100 through semantic analysis of the unregistered word determines in step S114 that the frequency of appearance of the unregistered word is equal to or greater than the predetermined number of times, the non-registered word extracted in step S112 is converted to the morpheme analyzer user dictionary 300. Register in (S126).

이후 상기 미등록어를 포함한 단어 전체에 대한 워드 임베딩을 실행하고(S128), 워드 임베딩 결과에 따라 유의어 그룹을 생성한다(S130).Thereafter, word embedding is executed for all words including the non-registered words (S128), and a synonym group is generated according to the word embedding result (S130).

또한 상기 S130 단계를 통해 생성한 유의어 그룹에서 대표어를 설정하고(S132), 상기 설정한 대표어와 유의어의 연결관계에 대한 정보를 상기 형태소 분석기 사용자 사전(300)에 업데이트함으로써, 상기 S124 단계의 문장 분석 및 검색 활용을 지원한다.In addition, a representative word is set in the synonym group generated in step S130 (S132), and information on a connection relationship between the set representative word and synonym is updated in the user dictionary 300 of the morpheme analyzer, so that the sentence in step S124 Support analysis and search utilization.

이처럼, 본 발명은 형태소 분석을 통해 인식하지 못하여 제대로 분리되지 않거나, 형태소 분석을 통해 인식된 단어지만 사전에 등록되지 않은 미등록어를 추출하고, 상기 추출한 미등록어의 의미를 즉시 파악하여 관련 유의어를 추출 및 추가하기 때문에, 문장 분석 및 검색에 용이하게 활용할 수 있으며, 형태소 분석을 포함한 자연어 분석의 정확도를 높일 수 있다.As such, the present invention extracts unregistered words that are not properly separated because they are not recognized through morpheme analysis, or are recognized through morpheme analysis but are not registered in advance, and extract related synonyms by immediately grasping the meaning of the extracted unregistered words. And, since it is added, it can be easily used for sentence analysis and search, and the accuracy of natural language analysis including morpheme analysis can be increased.

첨부된 도면은 본 발명의 기술적 사상을 보다 명확하게 표현하기 위해, 본 발명의 기술적 사상과 관련성이 없거나 떨어지는 구성에 대해서는 간략하게 표현하거나 생략하였다.In the accompanying drawings, in order to more clearly express the technical idea of the present invention, components that are not related to or detached from the technical idea of the present invention are briefly expressed or omitted.

상기에서는 본 발명에 따른 실시예를 기준으로 본 발명의 구성과 특징을 설명하였으나 본 발명은 이에 한정되지 않으며, 본 발명의 사상과 범위 내에서 다양하게 변경 또는 변형할 수 있음은 본 발명이 속하는 기술분야의 당업자에게 명백한 것이며, 따라서 이와 같은 변경 또는 변형은 첨부된 특허청구범위에 속함을 밝혀둔다.In the above, the configuration and characteristics of the present invention have been described based on the embodiments according to the present invention, but the present invention is not limited thereto, and various changes or modifications can be made within the spirit and scope of the present invention. It is apparent to those skilled in the art, and therefore such changes or modifications are intended to fall within the scope of the appended claims.

100 : 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템
110 : 데이터 수집부 120 : 미등록어 추출부
121 : 형태소 분석부 122 : 단어 분리 확인부
123 : 미등록 단어 확인부 130 : 출현 빈도 확인부
140 : 유의어 추출부 141 : 미등록어 제거부
142 : 단어 예측부 143 : 문장 유사도 비교부
144 : 미등록어 유의어 추출부 150 : 형태소 분석기 사용자 사전 등록부
160 : 워드 임베딩 및 유의어 그룹 생성부
170 : 대표어 설정부 200 : 외부 서버
300 : 형태소 분석기 사용자 사전
100: Synonym extraction system through semantic analysis of unregistered words based on deep learning model
110: data collection unit 120: unregistered word extraction unit
121: morpheme analysis unit 122: word separation confirmation unit
123: Unregistered word confirmation unit 130: Appearance frequency confirmation unit
140: synonym extraction unit 141: unregistered word removal unit
142: word prediction unit 143: sentence similarity comparison unit
144: Unregistered word synonym extraction unit 150: Morphological analyzer user dictionary registration unit
160: word embedding and synonym group generation unit
170: representative word setting unit 200: external server
300: morpheme analyzer user dictionary

Claims (12)

문서를 수집하는 데이터 수집부;
상기 수집한 문서로부터 미등록어를 추출하는 미등록어 추출부; 및
상기 추출한 미등록어를 대체할 유의어를 추출하는 유의어 추출부;를 포함하며,
상기 유의어 추출부는,
상기 추출한 미등록어를 마스크 처리하는 미등록어 제거부;
상기 마스크 처리한 부분에 들어갈 단어를 적어도 하나 이상 예측하는 단어 예측부;
상기 적어도 하나 이상 예측한 단어가 들어간 문장과 상기 미등록어가 들어간 문장의 유사도를 비교하는 문장 유사도 비교부; 및
상기 비교한 결과 기 설정된 임계값 이상의 단어 중 어느 하나의 단어를 상기 미등록어를 대체할 유의어로 선정하여 추출하는 미등록어 유의어 추출부;를 포함하며,
상기 미등록어의 의미 분석에 따라 추출된 유의어를 문장 분석 및 검색에 활용하도록 지원하는 것을 특징으로 하는 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템.
a data collection unit that collects documents;
an unregistered word extraction unit extracting unregistered words from the collected documents; and
Includes a synonym extraction unit for extracting a synonym to replace the extracted unregistered word;
The synonym extraction unit,
an unregistered word removal unit that masks the extracted unregistered words;
a word prediction unit that predicts at least one word to be included in the masked portion;
a sentence similarity comparing unit for comparing a similarity between a sentence containing the at least one predicted word and a sentence containing the unregistered word; and
As a result of the comparison, an unregistered word synonym extraction unit for selecting and extracting any one word among words equal to or greater than a predetermined threshold value as a synonym to replace the unregistered word;
A synonym extraction system through semantic analysis of unregistered words based on a deep learning model, characterized in that to support the use of synonyms extracted according to the semantic analysis of the unregistered words for sentence analysis and search.
삭제delete 청구항 1에 있어서,
상기 예측은,
BERT(Bidirectional Encoder Representations from Transformers)를 포함한 기 생성된 단어 예측용 딥러닝 학습모델에 상기 마스크 처리한 문장을 입력하여, 상기 마스크 처리한 부분에 들어갈 단어를 예측하는 것을 특징으로 하는 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템.
The method of claim 1,
The prediction is
Deep learning model-based non-registration characterized by predicting words to enter the masked part by inputting the masked sentence to a pre-generated deep learning learning model for word prediction including BERT (Bidirectional Encoder Representations from Transformers) A synonym extraction system through semantic analysis of words.
청구항 1에 있어서,
상기 시스템은,
상기 추출한 미등록어의 출현 빈도가 기 설정된 횟수 이상인지를 판단하는 출현 빈도 확인부;를 더 포함하며,
상기 출현 빈도 확인부에서 확인한 결과 상기 추출한 미등록어의 출현 빈도가 기 설정된 횟수 미만인 경우, 상기 유의어 추출부를 통해 상기 미등록어를 대체할 유의어를 추출하는 것을 특징으로 하는 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템.
The method of claim 1,
The system,
It further includes; an appearance frequency check unit for determining whether the appearance frequency of the extracted non-registered word is equal to or greater than a preset number of times,
As a result of checking by the appearance frequency confirmation unit, if the frequency of appearance of the extracted unregistered word is less than a predetermined number of times, a synonym to replace the unregistered word is extracted through the synonym extraction unit Semantic analysis of the unregistered word based on a deep learning model Synonym extraction system through.
청구항 4에 있어서,
상기 시스템은,
상기 출현 빈도 확인부에서 확인한 결과 상기 추출한 미등록어의 출현 빈도가 기 설정된 횟수 이상인 경우,
상기 추출한 미등록어를 형태소 분석기 사용자 사전에 등록하는 형태소 분석기 사용자 사전 등록부;
상기 추출한 미등록어를 포함한 단어 전체에 대한 워드 임베딩을 실행하여 유의어 그룹을 생성하는 워드 임베딩 및 유의어 그룹 생성부; 및
상기 생성한 유의어 그룹에서 대표어를 설정하고, 상기 설정한 대표어와 유의어의 연결관계에 대한 정보를 상기 형태소 분석기 사용자 사전에 업데이트하는 대표어 설정부;를 더 포함하는 것을 특징으로 하는 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템.
The method of claim 4,
The system,
As a result of checking by the appearance frequency confirmation unit, if the appearance frequency of the extracted non-registered word is more than a preset number of times,
a morpheme analyzer user dictionary registration unit registering the extracted unregistered word in a morpheme analyzer user dictionary;
a word embedding and synonym group generation unit generating a synonym group by executing word embedding on all of the extracted words including unregistered words; and
Based on the deep learning model, further comprising a representative word setting unit for setting a representative word in the generated synonym group and updating information on a connection between the set representative word and the synonym in the user dictionary of the morpheme analyzer. A synonym extraction system through semantic analysis of unregistered words.
청구항 1에 있어서,
상기 미등록어 추출부는,
형태소 분석기를 통해 상기 문서에 포함된 단어를 분리하는 형태소 분석부;
상기 형태소 분석기를 통해 단어 분리가 정상적으로 수행되는지를 확인하는 단어 분리 확인부; 및
상기 확인한 결과 상기 형태소 분석기를 통해 단어 분리가 정상적으로 수행되면, 상기 단어가 형태소 분석기 사용자 사전에 등록되어 있지 않은 단어인지를 확인하는 미등록 단어 확인부;를 포함하며,
상기 단어 분리 확인부에서 확인한 결과 상기 형태소 분석기가 인식하지 못하여 단어로 분리되지 않거나, 상기 미등록 단어 확인부에서 확인한 결과 상기 형태소 분석기가 단어로 인식하였으나 상기 형태소 분석기 사용자 사전에 등록되어 있지 않으면, 미등록어로 추출하는 것을 특징으로 하는 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템.
The method of claim 1,
The unregistered word extraction unit,
a morpheme analysis unit separating words included in the document through a morpheme analyzer;
a word separation confirmation unit checking whether word separation is normally performed through the morpheme analyzer; and
When word separation is normally performed through the morpheme analyzer as a result of the check, an unregistered word check unit confirming whether the word is not registered in the user dictionary of the morpheme analyzer;
As a result of confirmation by the word separation confirmation unit, if the morpheme analyzer does not recognize and is not separated into words, or if the result of confirmation by the unregistered word confirmation unit is that the morpheme analyzer recognizes the word as a word but is not registered in the user dictionary of the morpheme analyzer, it is an unregistered word. A synonym extraction system through semantic analysis of unregistered words based on a deep learning model, characterized in that for extraction.
청구항 1에 있어서,
상기 미등록어 추출부는,
LR 토크나이저(tokenizer), 응집 스코어(cohesion score), 브랜치 엔트로피(branch entropy)를 중 적어도 하나를 이용하여 상기 수집한 문서로부터 미등록어를 추출하는 것을 특징으로 하는 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템.
The method of claim 1,
The unregistered word extraction unit,
Semantic analysis of unregistered words based on a deep learning model, characterized by extracting unregistered words from the collected documents using at least one of an LR tokenizer, cohesion score, and branch entropy Synonym extraction system through.
딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템에서, 문서를 수집하는 데이터 수집 단계;
상기 수집한 문서로부터 미등록어를 추출하는 미등록어 추출 단계; 및
상기 추출한 미등록어를 대체할 유의어를 추출하는 유의어 추출 단계;를 포함하며,
상기 유의어 추출 단계는,
상기 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템에서, 상기 미등록어 추출 단계에서 추출한 미등록어를 마스크 처리하는 미등록어 제거 단계;
상기 마스크 처리한 부분에 들어갈 단어를 적어도 하나 이상 예측하는 단어예측 단계;
상기 적어도 하나 이상 예측한 단어가 들어간 문장과 상기 미등록어가 들어간 문장의 유사도를 비교하는 문장 유사도 비교 단계; 및
상기 비교한 결과 기 설정된 임계값 이상의 단어 중 어느 하나의 단어를 상기 미등록어를 대체할 유의어로 선정하여 추출하는 미등록어 유의어 추출 단계;를 포함하며,
상기 미등록어의 의미 분석에 따라 추출된 유의어를 문장 분석 및 검색에 활용하도록 지원하는 것을 특징으로 하는 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 방법.
A data collection step of collecting documents in a synonym extraction system through semantic analysis of unregistered words based on a deep learning model;
an unregistered word extraction step of extracting unregistered words from the collected documents; and
A synonym extraction step of extracting a synonym to replace the extracted non-registered word; includes,
In the synonym extraction step,
In the synonym extraction system through the semantic analysis of the non-registered word based on the deep learning model, a non-registered word removal step of masking the non-registered word extracted in the non-registered word extraction step;
a word prediction step of predicting at least one word to be included in the masked portion;
a sentence similarity comparison step of comparing a similarity between a sentence containing the at least one predicted word and a sentence containing the unregistered word; and
As a result of the comparison, an unregistered word synonym extraction step of selecting and extracting any one word among words equal to or greater than a preset threshold value as a synonym to replace the unregistered word;
A method of extracting synonyms through semantic analysis of unregistered words based on a deep learning model, characterized in that supporting the use of synonyms extracted according to the semantic analysis of the unregistered words for sentence analysis and search.
청구항 8에 있어서,
상기 예측은, BERT를 포함한 기 생성된 단어 예측용 딥러닝 학습모델에 상기 마스크 처리한 문장을 입력하여, 상기 마스크 처리한 부분에 들어갈 단어를 예측하는 것을 특징으로 하는 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 방법.
The method of claim 8,
The prediction is a deep learning model-based non-registered word, characterized in that by inputting the masked sentence into a pre-generated deep learning learning model for word prediction including BERT, and predicting words to enter the masked part Synonym extraction method through analysis.
청구항 8에 있어서,
상기 방법은,
상기 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템에서, 상기 미등록어 추출 단계에서 추출한 미등록어의 출현 빈도가 기 설정된 횟수 이상인지를 판단하는 출현 빈도 확인 단계;를 더 포함하며,
상기 출현 빈도 확인 단계에서 확인한 결과 상기 추출한 미등록어의 출현 빈도가 기 설정된 횟수 미만인 경우, 상기 유의어 추출 단계를 통해 상기 미등록어를 대체할 유의어를 추출하는 것을 특징으로 하는 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 방법.
The method of claim 8,
The method,
In the synonym extraction system through the semantic analysis of the non-registered word based on the deep learning model, an appearance frequency check step of determining whether the frequency of appearance of the non-registered word extracted in the non-registered word extraction step is equal to or greater than a predetermined number of times; further comprising,
As a result of checking in the occurrence frequency checking step, if the frequency of appearance of the extracted non-registered word is less than a preset number of times, a synonym to replace the non-registered word is extracted through the synonym extraction step. Meaning of non-registered word based on a deep learning model Synonym extraction method through analysis.
청구항 10에 있어서,
상기 방법은,
상기 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 시스템에서, 상기 출현 빈도 확인 단계에서 확인한 결과 상기 추출한 미등록어의 출현 빈도가 기 설정된 횟수 이상인 경우,
상기 추출한 미등록어를 형태소 분석기 사용자 사전에 등록하는 형태소 분석기 사용자 사전 등록 단계;
상기 추출한 미등록어를 포함한 단어 전체에 대한 워드 임베딩을 실행하여 유의어 그룹을 생성하는 워드 임베딩 및 유의어 그룹 생성 단계; 및
상기 생성한 유의어 그룹에서 대표어를 설정하고, 상기 설정한 대표어와 유의어의 연결관계에 대한 정보를 상기 형태소 분석기 사용자 사전에 업데이트하는 대표어 설정 단계;를 더 포함하는 것을 특징으로 하는 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 방법.
The method of claim 10,
The method,
In the synonym extraction system through semantic analysis of unregistered words based on the deep learning model, as a result of checking in the occurrence frequency checking step, if the appearance frequency of the extracted unregistered word is more than a preset number of times,
a morpheme analyzer user dictionary registration step of registering the extracted unregistered word in a morpheme analyzer user dictionary;
a word embedding and synonym group generation step of generating a synonym group by executing word embedding for all words including the extracted non-registered words; and
A representative word setting step of setting a representative word in the generated synonym group and updating information on a connection between the set representative word and the synonym in the user dictionary of the morpheme analyzer; based on a deep learning model further comprising Synonym extraction method through semantic analysis of unregistered words.
청구항 8에 있어서,
상기 미등록어 추출 단계는,
형태소 분석기를 통해 상기 문서에 포함된 단어를 분리하는 형태소 분석 단계;
상기 형태소 분석기를 통해 단어 분리가 정상적으로 수행되는지를 확인하는 단어 분리 확인 단계; 및
상기 확인한 결과 상기 형태소 분석기를 통해 단어 분리가 정상적으로 수행되면, 상기 단어가 형태소 분석기 사용자 사전에 등록되어 있지 않은 단어인지를 확인하는 미등록 단어 확인 단계;를 포함하며,
상기 단어 분리 확인 단계에서 확인한 결과 상기 형태소 분석기가 인식하지 못하여 단어로 분리되지 않거나, 상기 미등록 단어 확인 단계에서 확인한 결과 상기 형태소 분석기가 단어로 인식하였으나 상기 형태소 분석기 사용자 사전에 등록되어 있지 않으면, 미등록어로 추출하는 것을 특징으로 하는 딥러닝 모델 기반 미등록어의 의미 분석을 통한 유의어 추출 방법.
The method of claim 8,
In the step of extracting unregistered words,
a morpheme analysis step of separating words included in the document through a morpheme analyzer;
a word separation check step of checking whether word separation is normally performed through the morpheme analyzer; and
When word separation is normally performed through the morpheme analyzer as a result of the check, an unregistered word check step of confirming whether the word is not registered in a user dictionary of the morpheme analyzer;
As a result of checking in the word separation confirmation step, if the morpheme analyzer does not recognize it and is not separated into words, or if it is confirmed in the non-registered word check step that the morpheme analyzer recognizes it as a word but is not registered in the user dictionary of the morpheme analyzer, it is an unregistered word. Synonym extraction method through semantic analysis of unregistered words based on deep learning model, characterized in that for extraction.
KR1020230020411A 2023-02-16 2023-02-16 System for synonym extraction through semantic analysis of unregistered words based-on deep learning model and method thereof KR102564470B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230020411A KR102564470B1 (en) 2023-02-16 2023-02-16 System for synonym extraction through semantic analysis of unregistered words based-on deep learning model and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230020411A KR102564470B1 (en) 2023-02-16 2023-02-16 System for synonym extraction through semantic analysis of unregistered words based-on deep learning model and method thereof

Publications (1)

Publication Number Publication Date
KR102564470B1 true KR102564470B1 (en) 2023-08-07

Family

ID=87561262

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230020411A KR102564470B1 (en) 2023-02-16 2023-02-16 System for synonym extraction through semantic analysis of unregistered words based-on deep learning model and method thereof

Country Status (1)

Country Link
KR (1) KR102564470B1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060042296A (en) * 2004-11-09 2006-05-12 삼성전자주식회사 Method and apparatus for updating dictionary
KR20200141419A (en) * 2020-12-04 2020-12-18 넷마블 주식회사 Mehtod for extracting synonyms
KR20210153912A (en) * 2020-06-11 2021-12-20 배재대학교 산학협력단 Deep learning document analysis system and method based on keyword frequency and section centrality analysis
KR20220074572A (en) * 2020-11-27 2022-06-03 주식회사 데이터마케팅코리아 A method and an apparatus for extracting new words based on deep learning to generate marketing knowledge graphs

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060042296A (en) * 2004-11-09 2006-05-12 삼성전자주식회사 Method and apparatus for updating dictionary
KR20210153912A (en) * 2020-06-11 2021-12-20 배재대학교 산학협력단 Deep learning document analysis system and method based on keyword frequency and section centrality analysis
KR20220074572A (en) * 2020-11-27 2022-06-03 주식회사 데이터마케팅코리아 A method and an apparatus for extracting new words based on deep learning to generate marketing knowledge graphs
KR20200141419A (en) * 2020-12-04 2020-12-18 넷마블 주식회사 Mehtod for extracting synonyms

Similar Documents

Publication Publication Date Title
Al-Radaideh et al. A hybrid approach for arabic text summarization using domain knowledge and genetic algorithms
KR101737887B1 (en) Apparatus and Method for Topic Category Classification of Social Media Text based on Cross-Media Analysis
KR100453227B1 (en) Similar sentence retrieval method for translation aid
EP1703419A1 (en) Translation judgment device, method, and program
KR20130060720A (en) Apparatus and method for interpreting service goal for goal-driven semantic service discovery
Wu et al. Searching services" on the web": A public web services discovery approach
KR102426919B1 (en) An OPERATION METHOD FOR INTELLIGENT DOCUMENT PLATFORM AND An INTELLIGENT DOCUMENT PLATFORM IMPLEMENTING THE SAME
TW201826145A (en) Method and system for knowledge extraction from Chinese corpus useful for extracting knowledge from source corpuses mainly written in Chinese
CN107577713B (en) Text handling method based on electric power dictionary
Jia et al. A Chinese unknown word recognition method for micro-blog short text based on improved FP-growth
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
Lampos et al. Archiving the greek web
KR102564470B1 (en) System for synonym extraction through semantic analysis of unregistered words based-on deep learning model and method thereof
Cortez et al. A flexible approach for extracting metadata from bibliographic citations
Fudholi et al. Ontology-based information extraction for knowledge enrichment and validation
CN111046168A (en) Method, apparatus, electronic device, and medium for generating patent summary information
Kaur et al. News classification using neural networks
Patil et al. Inflectional and derivational hybrid stemmer for sentiment analysis: a case study with Marathi tweets
Shrawankar et al. Construction of news headline from detailed news article
KR102639873B1 (en) Apparatus for synonym replacement for representative word management using ai
JP5308918B2 (en) Keyword extraction method, keyword extraction device, and keyword extraction program
KR102639880B1 (en) Ai based synonym replacement method for managing synonyms in documents as representative words
Martín Chozas et al. Defying Wikidata: Validation of terminological relations in the web of data
KR102599713B1 (en) System for core keyword selection based on contents of the document body and method thereof
KR102434455B1 (en) A document information processing system for search database and a document information processing method

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant