KR102196508B1 - Method and system for constructing named entity dictionary of using unsupervised learning - Google Patents
Method and system for constructing named entity dictionary of using unsupervised learning Download PDFInfo
- Publication number
- KR102196508B1 KR102196508B1 KR1020130151365A KR20130151365A KR102196508B1 KR 102196508 B1 KR102196508 B1 KR 102196508B1 KR 1020130151365 A KR1020130151365 A KR 1020130151365A KR 20130151365 A KR20130151365 A KR 20130151365A KR 102196508 B1 KR102196508 B1 KR 102196508B1
- Authority
- KR
- South Korea
- Prior art keywords
- entity name
- category
- document data
- usage pattern
- unregistered
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Abstract
본 발명은 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템으로서, 인터넷 상에서 문서 데이터를 수집하고, 상기 문서 데이터의 카테고리를 추출하는 카테고리별 문서 데이터 수집 단계; 문서 데이터에 대한 자연어 처리 과정을 통해 문장 구조를 분석하고, 개체명 사전 DB에 등록된 등록 개체명의 카테고리별 의미를 기초로 개체명에 대한 카테고리별 사용 패턴을 분석하여, 도출된 카테고리별 정식 사용 패턴을 카테고리별 사용 패턴 DB에 등록하는 개체명 사용 패턴 등록 단계; 및 문서 데이터 중 미등록 개체명이 존재하는 문서 데이터에서 상기 미등록 개체명이 사용되는 사용 패턴에 해당 카테고리에 따라 상기 카테고리별 사용 패턴 DB에 등록된 정식 사용 패턴을 적용하여 상기 미등록 개체명의 의미를 판단하고, 상기 미등록 개체명을 상기 의미에 대응시켜 신규 개체명으로 상기 개체명 사전 DB에 등록하는 개체명 사전 등록 단계를 포함하는 것을 특징으로 하는 비지도 학습을 통한 개체명 사전 구축 방법과 이를 위한 시스템이며, 이와 같은 본 발명에 의하면 카테고리가 분류된 문서 데이터의 종합적인 분석을 통해 카테고리별로 개체명의 의미를 파악함으로써 새롭게 등장한 개체명에 대한 인식의 신뢰도를 높이고, 나아가서 개체명의 의미 변형을 효과적으로 인식할 수 있다.The present invention provides a method and system for constructing an entity name dictionary through unsupervised learning, comprising: collecting document data for each category of collecting document data on the Internet and extracting a category of the document data; Formal usage pattern for each category derived by analyzing the sentence structure through the natural language processing process for document data, and analyzing the usage pattern for each category of the entity name based on the meaning of each category of the registered entity name registered in the entity name dictionary DB An entity name usage pattern registration step of registering a usage pattern DB for each category; And determining the meaning of the unregistered entity name by applying a formal usage pattern registered in the category-specific usage pattern DB according to a corresponding category to a usage pattern in which the unregistered entity name is used in document data in which an unregistered entity name exists, and the It is a method for constructing an entity name dictionary through unsupervised learning and a system for the same, comprising the step of registering an entity name dictionary in the entity name dictionary DB as a new entity name by matching an unregistered entity name to the meaning, and According to the present invention, by grasping the meaning of the entity name for each category through comprehensive analysis of the document data in which the category is classified, it is possible to increase the reliability of recognition of the newly emerged entity name, and furthermore effectively recognize the meaning change of the entity name.
Description
본 발명은 비지도 학습을 통한 개체명 사전 구축 방법 및 시스템에 대한 것으로서, 보다 상세하게는 매일 대량으로 생산되는 빅데이터 상에 존재하는 개체명에 대하여 카테고리별로 개체명이 사용되는 사용 패턴을 판단하여 카테고리별 개체명 사용 패턴에 대한 데이터베이스를 구축하고, 미등록 개체명이 발생되면 미등록 개체명이 존재하는 해당 문서의 카테고리를 고려하여 사용 패턴에 대한 분석을 통해 미등록 개체명의 의미를 파악하여 개체명 사전에 등록하는 방법과 이를 위한 시스템을 개시한다.
The present invention relates to a method and system for constructing an entity name dictionary through unsupervised learning, and more specifically, by determining a usage pattern in which the entity name is used for each category for entity names existing on big data produced in large volumes every day. A method of constructing a database for the use pattern of individual entity names, and when an unregistered entity name occurs, the meaning of the unregistered entity name is identified by analyzing the usage pattern by considering the category of the document in which the unregistered entity name exists, and registered in the entity name dictionary. And a system for this is disclosed.
디지털 경제의 확산으로 우리 주변에는 규모를 가늠할 수 없을 정도로 많은 정보와 데이터가 생산되는 빅데이터(Big Data) 환경이 도래하고 있다. 빅데이터란 과거 아날로그 환경에서 생성되던 데이터에 비하면 그 규모가 방대하고, 생성 주기도 짧으며, 그 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함하는 대규모 데이터를 말한다.With the proliferation of the digital economy, a big data environment in which a lot of information and data are produced is coming around us. Big data refers to large-scale data that includes not only numerical data but also text and image data in its size, and its generation period is short compared to data generated in the past analog environment.
특히, 인터넷, 네트워크, 모바일 기기 등의 디지털 통신 기술의 급속한 발달과 폭발적인 보급으로 인해 디지털 통신 기기들이 사람들의 일반 생활에 깊이 관여함으로써 사람들이 도처에 남긴 발자국인 데이터들은 기하급수적으로 증가하고 있으며, 이에 따라 사람들의 개성이나 사회, 문화의 진보로 새롭게 사용되는 명칭인 신종 개체명이 다량으로 발생되고 있다.In particular, due to the rapid development and explosive spread of digital communication technologies such as the Internet, networks, and mobile devices, digital communication devices are deeply involved in people's general life, and data, which are footprints people leave everywhere, are increasing exponentially. Accordingly, a large number of new individual names, which are newly used names due to the progress of people's individuality, society, and culture, are occurring.
이와 같은 신종 개체명은 대체적으로 짧은 시간에 폭넓게 퍼지면서도 그 사용주기가 짧아, 새롭게 등장한 신종 개체명을 가능한 빠르게 파악하여 반영하는 것이 디지털 통신 기술에서 하나의 관건이므로 개체명 사전의 업그레이드와 관련하여 다양한 기술들이 제시되고 있는 실정이다.As such new entity names generally spread widely in a short period of time, but their use cycle is short, identifying and reflecting newly emerging entity names as quickly as possible is one of the key issues in digital communication technology.Therefore, various technologies related to upgrading the entity name dictionary Are being presented.
도 1은 종래기술(한국 공개특허공보 : 10-2011-0068137 참조)에 따른 개체명 사전 구축 방안의 구성도를 도시하는데, 상기 도 1을 참고하여 종래기술에 따른 개체명 사전 구축 시스템(20)을 살펴보면, 일반적으로 소개된 종래기술에서는 인터넷(10) 상에 분포되어 존재하는 다양한 개체명들이 포함된 웹 문서를 웹 문서 수집기(21)가 수집하고, 정보 추출기(23)를 통해 해당 문서의 각 문장들에 대한 의미 등을 파악하여 추출한 후, 여기에 포함된 새로운 개체명을 개체명 추출기(25)로 추출하여 그 의미를 매칭시켜 개체명 사전 DB(29)에 등록하게 된다. 추가적으로 발굴된 개체명의 적절한 이용을 도모하기 위해서 카테고리 결정기(27)를 통해 각각의 카테고리에서 이용될 수 있는 해당 개체명을 분류하여 등록할 수도 있다.FIG. 1 shows a configuration diagram of a method for constructing an entity name dictionary according to the prior art (refer to Korean Patent Publication No. 10-2011-0068137). Referring to FIG. 1, a
이와 같은 종래기술은 개체명의 의미를 문맥 정보만으로 인식하게 되며, 대부분은 코퍼스(Corpus) 기반의 학습을 통해서 개체명 인식을 진행하는 방식으로서, 데이터의 급속한 확장으로 인해 새로운 단어의 추가가 기하급수적으로 증가하고 기존의 단어 의미가 변형되는 수도 증가하고 있는 상황에서 정확한 신규 개체명의 의미를 파악하여 반영하기가 힘들다.In such a conventional technique, the meaning of an entity name is recognized only with contextual information, and most of it is a method of recognizing entity names through corpus-based learning, and the addition of new words is exponentially due to the rapid expansion of data. It is difficult to grasp and reflect the exact meaning of a new entity name in a situation where the number of changes and the number of changes in the existing word meaning is increasing.
가령, 도 2와 같은 개체명을 포함하는 문서 데이터가 존재하는 경우에, 상기 도 2의 (a)에서는 "박원순 시장"에서 시장이 'mayor'를 의미하지만, 상기 도 2의 (b)에서는 "클라우드 시장"에서 시장이 'market'을 의미하므로, 전체적인 문서 내용 상으로는 "박원순"이나 "클라우드"라는 개체명에 대한 어느 정도 그 의미 식별이 가능할 수도 있지만, 단문장으로 이와 같은 패턴이 존재하는 경우에는 "박원순"이란 개체명을 'market'의 명칭으로 인식하는 오류가 발생할 수 있으며 또한 "클라우드"라는 개체명을 'mayor'의 인물명으로 인식하는 오류가 발생할 수도 있다. 이와 같은 문제는 한글이란 언어에서만의 단편적인 문제가 아니며 동음이의 단어가 존재하는 영어, 일어, 불어 등 세계 모든 언어에서 발생될 수 있는 문제이다.For example, when document data including an entity name as shown in FIG. 2 exists, in FIG. 2(a), the mayor means'mayor' in "Mayor Won-soon Park", but in FIG. 2(b), " In the cloud market", the market means'market', so it may be possible to identify the meaning of the entity name "Park Won-soon" or "Cloud" to some extent in the overall document content, but if such a pattern exists in a short sentence There may be an error in recognizing the entity name "Park Won-soon" as the name of'market', and also an error in recognizing the entity name "Cloud" as the person name of'mayor'. Such a problem is not a fragmentary problem only in the language of Hangul, but a problem that can occur in all languages of the world, such as English, Japanese, and French, where homophones exist.
따라서, 빅데이터의 분석을 통해 개체명들의 문법적 의미와 표기법적 의미에 대한 종합적인 정보를 추출하여 개체명의 의미를 판단함으로써 새롭게 등장한 개체명에 대한 인식의 신뢰도를 높일 수 있는 개체명 사전 구축 방안이 필요하며, 나아가서 개체명이나 단어의 의미 변형을 인식할 수 있는 개체명 사전 구축 방안의 도입이 필요한 상황이다.
Therefore, a method of constructing an entity name dictionary that can increase the reliability of recognition of newly emerged entity names by extracting comprehensive information on the grammatical meaning and notational meaning of entity names through analysis of big data is determined. In addition, it is necessary to introduce a method for constructing an entity name dictionary that can recognize the transformation of the entity name or the meaning of a word.
(특허문헌 1) KR10-2011-0068137 A(개체명 사전 구축 시스템 및 구축 방법, 2011.06.22)(Patent Document 1) KR10-2011-0068137 A (object name dictionary construction system and construction method, 2011.06.22)
본 발명은 상술한 바와 같은 종래 기술의 문제점을 해결하고자 하는 것으로서, 빅데이터의 분석을 통해 개체명들의 문법적 의미와 표기법적 의미에 대한 종합적인 정보를 추출하여 개체명의 의미를 판단함으로써 새롭게 등장한 개체명에 대한 인식의 신뢰도를 높이고, 나아가서 개체명이나 단어의 의미 변형을 인식할 수 있는 개체명 사전 구축 방안을 제시하고자 한다.
The present invention seeks to solve the problems of the prior art as described above, and extracts comprehensive information on the grammatical and notational meanings of entity names through analysis of big data, and determines the meaning of the entity name. We would like to suggest a method of constructing an entity name dictionary that can increase the reliability of recognition for and further recognize the transformation of the entity name or the meaning of a word.
상기 기술적 과제를 달성하고자 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 방법은, 인터넷 상에서 문서 데이터를 수집하고, 상기 문서 데이터의 카테고리를 추출하는 카테고리별 문서 데이터 수집 단계; 문서 데이터에 대한 자연어 처리 과정을 통해 문장 구조를 분석하고, 개체명 사전 DB에 등록된 등록 개체명의 카테고리별 의미를 기초로 개체명에 대한 카테고리별 사용 패턴을 분석하여, 도출된 카테고리별 정식 사용 패턴을 카테고리별 사용 패턴 DB에 등록하는 개체명 사용 패턴 등록 단계; 및 문서 데이터 중 미등록 개체명이 존재하는 문서 데이터에서 상기 미등록 개체명이 사용되는 미등록 개체명 사용 패턴에 해당 카테고리에 따라 상기 카테고리별 사용 패턴 DB에 등록된 정식 사용 패턴을 적용하여 상기 미등록 개체명의 의미를 판단하고, 상기 미등록 개체명을 상기 의미에 대응시켜 신규 개체명으로 상기 개체명 사전 DB에 등록하는 개체명 사전 등록 단계를 포함할 수 있다.In order to achieve the above technical problem, a method for constructing an entity name dictionary through unsupervised learning according to the present invention includes the steps of collecting document data for each category of collecting document data on the Internet and extracting a category of the document data; Formal usage pattern for each category derived by analyzing the sentence structure through the natural language processing process for document data, and analyzing the usage pattern for each category of the entity name based on the meaning of each category of the registered entity name registered in the entity name dictionary DB An entity name usage pattern registration step of registering a usage pattern DB for each category; And determining the meaning of the unregistered entity name by applying the official usage pattern registered in the category-specific usage pattern DB according to the category to the unregistered entity name usage pattern in which the unregistered entity name is used in document data in which the unregistered entity name exists. And, it may include the entity name dictionary registration step of registering the entity name dictionary DB as a new entity name by matching the unregistered entity name to the meaning.
바람직하게는 상기 개체명 사용 패턴 등록 단계는, 상기 문서 데이터에 대한 자연어 처리 과정을 통해 문장 구조를 분석하고, 분석된 문장 구조에 포함된 등록 개체명에 대한 상기 개체명 사전 DB에 등록된 의미를 기초로 상기 문서 데이터 상에서 상기 등록 개체명이 카테고리별로 사용되는 하나 이상의 사용 패턴 후보를 추출하는 단계; 상기 사용 패턴 후보의 카테고리에 해당되는 하나 이상의 문서 데이터 상에서 상기 사용 패턴 후보의 사용 빈도를 산출하는 단계; 상기 사용 빈도를 기초로 하나 이상의 상기 사용 패턴 후보에서 카테고리별 정식 사용 패턴을 선택하는 단계; 및 상기 정식 사용 패턴을 상기 카테고리에 매칭시켜 카테고리별 사용 패턴 DB에 등록하는 단계를 포함할 수 있다.Preferably, in the registering of the entity name use pattern, the sentence structure is analyzed through a natural language processing process for the document data, and the meaning registered in the entity name dictionary DB for the registered entity name included in the analyzed sentence structure is Extracting one or more usage pattern candidates in which the registered entity name is used for each category from the document data as a basis; Calculating a usage frequency of the usage pattern candidate on one or more document data corresponding to the category of the usage pattern candidate; Selecting a formal usage pattern for each category from one or more usage pattern candidates based on the usage frequency; And matching the official usage pattern to the category and registering it in a usage pattern DB for each category.
보다 바람직하게는 상기 사용 패턴 후보를 추출하는 단계는, 상기 문서 데이터에 대한 자연어 처리 과정을 통해 형태소를 분석하고, 분석된 형태소 중 명사로 분류된 단어를 추출하는 단계; 추출된 상기 단어 중 등록 개체명에 대한 의미를 상기 개체명 사전 DB에서 추출하는 단계; 및 상기 등록 개체명의 의미를 기초로 하나 이상의 상기 명사와 결합되어 상기 등록 개체명이 카테고리별로 사용되는 하나 이상의 사용 패턴 후보를 추출하는 단계를 포함할 수 있다.More preferably, the step of extracting the use pattern candidate may include analyzing a morpheme through a natural language processing process for the document data, and extracting a word classified as a noun from among the analyzed morphemes; Extracting a meaning of a registered entity name among the extracted words from the entity name dictionary DB; And extracting one or more usage pattern candidates that are combined with one or more of the nouns based on the meaning of the registered entity name and used for each category of the registered entity name.
그리고 상기 사용 빈도를 산출하는 단계는, 상기 사용 패턴 후보의 카테고리에 해당되는 하나 이상의 문서 데이터를 대상으로 상기 사용 패턴 후보가 사용된 수를 카운팅하여 사용 빈도를 산출하며, 상기 정식 사용 패턴을 선택하는 단계는, 상기 사용 패턴 후보의 사용 빈도 중 최상값을 갖는 사용 패턴 후보를 카테고리별 정식 사용 패턴으로 선택할 수 있다.The calculating of the frequency of use includes calculating the frequency of use by counting the number of use of the use pattern candidates for one or more document data corresponding to the category of the use pattern candidate, and selecting the formal use pattern. In the step, a usage pattern candidate having the highest value among the usage frequencies of the usage pattern candidates may be selected as a formal usage pattern for each category.
또한 상기 개체명 사전 등록 단계는, 문서 데이터 중 미등록 개체명이 존재하는 문서 데이터를 분석 대상 데이터로 분류하고 상기 분석 대상 데이터의 카테고리를 추출하는 단계; 상기 분석 대상 데이터에 대한 자연어 처리 과정을 통해 문장 구조를 분석하여 상기 미등록 개체명이 상기 분석 대상 데이터에서 사용되는 하나 이상의 미등록 개체명 사용 패턴을 추출하는 단계; 상기 카테고리별 사용 패턴 DB에서 상기 분석 대상 데이터의 카테고리에 대응되는 정식 사용 패턴 중 상기 미등록 개체명 사용 패턴에 대응되는 정식 사용 패턴을 추출하는 단계; 추출된 상기 정식 사용 패턴을 상기 미등록 개체명 사용 패턴에 적용하여 상기 미등록 개체명의 의미를 판단하는 단계; 및 상기 미등록 개체명을 상기 의미에 대응시켜 신규 개체명으로 상기 개체명 사전 DB에 등록하는 단계를 포함할 수 있다.In addition, the pre-registering of the entity name may include classifying document data in which an unregistered entity name exists among document data as analysis target data and extracting a category of the analysis target data; Analyzing a sentence structure through a natural language processing process for the analysis target data to extract one or more unregistered entity name usage patterns used in the analysis target data; Extracting a formal usage pattern corresponding to the unregistered entity name usage pattern from the formal usage patterns corresponding to the category of the analysis target data from the category-specific usage pattern DB; Determining the meaning of the unregistered entity name by applying the extracted formal usage pattern to the unregistered entity name usage pattern; And registering the unregistered entity name with the meaning in the entity name dictionary DB as a new entity name.
바람직하게는 상기 미등록 개체명의 사용 패턴을 추출하는 단계는, 상기 분석 대상 데이터에 대한 자연어 처리 과정을 통해 형태소를 분석하고, 분석된 형태소 중 명사로 분류된 단어를 추출하는 단계; 및 하나 이상의 상기 명사와 결합되어 상기 미등록 개체명이 카테고리별로 사용되는 하나 이상의 미등록 개체명 사용 패턴을 추출하는 단계를 포함할 수도 있다.Preferably, the extracting the use pattern of the unregistered entity name includes: analyzing a morpheme through a natural language processing process for the analysis target data, and extracting a word classified as a noun among the analyzed morphemes; And extracting one or more unregistered entity name usage patterns that are combined with one or more of the nouns and used for each category of the unregistered entity name.
나아가서 상기 카테고리별 문서 데이터 수집 단계는, 개체명 수집 봇(Bot)을 통해 인터넷 상에서 카테고리가 분류된 문서 데이터를 파싱하고, 상기 문서 데이터에서 카테고리를 추출할 수 있다.Further, in the step of collecting document data for each category, document data classified in categories on the Internet may be parsed through an entity name collecting bot, and a category may be extracted from the document data.
여기서 상기 문서 데이터는, 카테고리가 분류된 뉴스, 학술문헌 또는 특허문헌 중 하나 이상을 포함할 수 있다.Here, the document data may include one or more of news, academic literature, or patent literature classified by category.
또한 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 시스템은, 인터넷 상에서 문서 데이터를 수집하고, 상기 문서 데이터의 카테고리를 추출하는 문서 데이터 수집부; 개체명 사전 DB에 등록된 등록 개체명의 카테고리별 의미를 기초로 문서 데이터에서 개체명이 사용되는 카테고리별 정식 사용 패턴을 도출하여 이를 카테고리별 사용 패턴 DB에 등록하는 사용 패턴 분석부; 및 미등록 개체명이 존재하는 문서 데이터에서 상기 미등록 개체명이 사용되는 미등록 개체명 사용 패턴에 해당 카테고리에 따라 상기 카테고리별 사용 패턴 DB에 등록된 정식 사용 패턴을 적용하여 상기 미등록 개체명의 의미를 판단하고 이를 상기 개체명 사전 DB에 등록하는 개체명 분석부를 포함할 수 있다.In addition, the system for constructing an entity name dictionary through unsupervised learning according to the present invention includes: a document data collection unit that collects document data on the Internet and extracts a category of the document data; A usage pattern analysis unit that derives a formal usage pattern for each category in which an entity name is used from document data based on the meaning of each category of the registered entity name registered in the entity name dictionary DB, and registers it in a usage pattern DB for each category; And determining the meaning of the unregistered entity name by applying the official usage pattern registered in the category-specific usage pattern DB according to the category to the unregistered entity name usage pattern in which the unregistered entity name is used in document data in which the unregistered entity name exists, It may include an entity name analysis unit that registers in the entity name dictionary DB.
바람직하게는 상기 사용 패턴 분석부는, 문서 데이터에 대한 자연어 처리 과정을 통해 형태소를 분석하는 자연어 처리부; 개체명 사전 DB에 등록된 등록 개체명의 카테고리별 의미를 기초로 문서 데이터에서 개체명이 사용되는 하나 이상의 사용 패턴 후보를 추출하는 개체명 사용 패턴 추출부; 및 상기 사용 빈도를 기초로 하나 이상의 상기 사용 패턴 후보에서 카테고리별 정식 사용 패턴을 선택하여 카테고리별 사용 패턴 DB에 등록하는 정식 사용 패턴 생성부를 포함할 수 있다.Preferably, the usage pattern analysis unit comprises: a natural language processing unit for analyzing morphemes through a natural language processing process for document data; An entity name usage pattern extracting unit that extracts one or more usage pattern candidates in which the entity name is used from document data based on the meaning of each category of the registered entity name registered in the entity name dictionary DB; And a formal usage pattern generator that selects a formal usage pattern for each category from one or more usage pattern candidates based on the usage frequency and registers it in a usage pattern DB for each category.
그리고 상기 개체명 분석부는, 문서 데이터에서 미등록 개체명이 포함된 문서 데이터를 인식하여 분석 대상 데이터로 추출하는 미등록 개체명 추출부; 상기 분석 대상 데이터에 대한 자연어 처리 과정을 통해 형태소를 분석하는 자연어 처리부; 상기 분석 대상 데이터에서 상기 미등록 개체명이 사용되는 미등록 개체명 사용 패턴에 해당 카테고리에 따라 상기 카테고리별 사용 패턴 DB에 등록된 정식 사용 패턴을 적용하여 상기 미등록 개체명의 의미를 판단하는 미등록 개체명 분석부; 및 상기 미등록 개체명을 상기 의미에 대응시켜 신규 개체명으로 상기 개체명 사전 DB에 등록하는 신규 개체명 등록부를 포함할 수 있다.In addition, the entity name analyzer includes: an unregistered entity name extracting unit that recognizes document data including an unregistered entity name from the document data and extracts it as analysis target data; A natural language processing unit for analyzing a morpheme through a natural language processing process for the data to be analyzed; An unregistered entity name analysis unit that determines the meaning of the unregistered entity name by applying a formal usage pattern registered in the category-specific usage pattern DB according to a corresponding category to an unregistered entity name usage pattern in which the unregistered entity name is used in the analysis target data; And a new entity name registration unit for registering the unregistered entity name in the entity name dictionary DB as a new entity name in correspondence with the meaning.
나아가서 상기 문서 데이터 수집부는, 인터넷 상에서 카테고리가 분류된 문서 데이터 중 개체명을 포함하는 문서 데이터를 수집하는 개체명 수집 봇(Bot)이 구비된 문서 데이터 수집부; 및 수집된 문서 데이터의 카테고리를 인식하고 해당 카테고리별로 문서 데이터를 분류하는 문서 데이터 분류부를 포함할 수 있다.Further, the document data collection unit may include a document data collection unit equipped with an entity name collecting bot (Bot) for collecting document data including an entity name among document data classified into categories on the Internet; And a document data classification unit that recognizes a category of the collected document data and classifies the document data by corresponding category.
바람직하게는 상기 사용 패턴 DB는, 개체명의 정식 사용 패턴이 카테고리별로 분류되어 저장되며, 상기 개체명 사전 DB는, 개체명과 그 의미가 카테고리별로 분류되어 저장될 수 있다.
Preferably, in the usage pattern DB, formal usage patterns of entity names are classified and stored by category, and the entity name dictionary DB may be classified and stored by entity names and their meanings.
이와 같은 본 발명에 의하면, 카테고리가 분류된 문서 데이터의 종합적인 분석을 통해 카테고리별로 개체명의 의미를 파악함으로써 새롭게 등장한 개체명에 대한 인식의 신뢰도를 높이고, 나아가서 개체명의 의미 변형을 효과적으로 인식할 수 있다.According to the present invention, by grasping the meaning of the entity name by category through comprehensive analysis of the document data in which the category is classified, it is possible to increase the reliability of recognition of the newly emerged entity name, and further effectively recognize the change in the meaning of the entity name. .
특히 개체명이 카테고리별로 사용되는 사용 패턴을 근거로 신규 개체명이나 의미가 변화된 개체명의 의미를 판단함으로써 동음이의 개체명 또는 유사한 문장 구조로 존재하는 개체명의 의미나 기존 개체명의 의미 변형에 대해서 정확하게 파악할 수 있게 된다.In particular, by judging the meaning of a new entity name or an entity name whose meaning has changed based on the usage pattern of the entity name by category, it is possible to accurately grasp the meaning of the entity name existing in the same sentence structure or the meaning of the existing entity name. You will be able to.
나아가서 일반적이지 않은 비정형 데이터에서도 개체명의 의미를 파악하기 위한 사용 패턴 추출이 가능하며, 또한 개체명 인식기를 이용하지 않고 카테고리별로 추출된 사용 패턴을 근거로 개체명의 의미를 판단함으로써 기존의 개체명 인식 엔진의 성능에 의존적이지 않으며 일편적인 분석으로 인해 개체명 인식 엔진에서 발생되는 인식 오류도 극복할 수 있게 된다.
Furthermore, it is possible to extract a usage pattern to grasp the meaning of an entity name even in unstructured data that is not general, and also, the existing entity name recognition engine by determining the meaning of the entity name based on the usage pattern extracted for each category without using an entity name recognizer. It is not dependent on the performance of and can overcome the recognition errors that occur in the entity name recognition engine due to a unilateral analysis.
도 1은 종래기술에 따른 개체명 사전 구축 방안의 구성도를 도시하며,
도 2는 종래기술에 따른 문서 데이터에 존재하는 개체명에 대한 인식 오류의 실시예를 도시하며,
도 3은 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 시스템에 대한 개략적인 구성도를 도시하며,
도 4는 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 시스템에서 문서 데이터 수집부의 실시예에 대한 구성도를 도시하며,
도 5는 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 시스템에서 사용 패턴 분석부의 실시예에 대한 구성도를 도시하며,
도 6은 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 시스템에서 개체명 분석부의 실시예에 대한 구성도를 도시하며,
도 7은 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 방법에 대한 개략적인 흐름도를 도시하며,
도 8은 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 방법에서 카테고리별 개체명의 사용 패턴을 생성하는 개략적인 흐름도를 도시하며,
도 9는 상기 도 8의 카테고리별 개체명의 사용 패턴을 생성하는 실시예를 도시하며,
도 10은 상기 도 8의 카테고리별 개체명의 사용 패턴을 생성한 다양한 실시예를 도시하며,
도 11은 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 방법에서 카테고리별 신규 개체명을 개체명 사전에 등록하는 개략적인 흐름도를 도시하며,
도 12는 상기 도 11의 카테고리별 신규 개체명을 개체명 사전에 등록하는 실시예를 도시한다.1 shows a configuration diagram of an entity name dictionary construction method according to the prior art,
2 shows an embodiment of a recognition error for an entity name existing in document data according to the prior art,
3 shows a schematic configuration diagram of an entity name dictionary construction system through unsupervised learning according to the present invention,
4 is a block diagram of an embodiment of a document data collection unit in the system for constructing an entity name dictionary through unsupervised learning according to the present invention,
5 shows a configuration diagram of an embodiment of a usage pattern analysis unit in the system for constructing an entity name dictionary through unsupervised learning according to the present invention,
6 shows a configuration diagram of an embodiment of an entity name analysis unit in the entity name dictionary construction system through unsupervised learning according to the present invention,
7 is a schematic flowchart of a method for constructing an entity name dictionary through unsupervised learning according to the present invention,
FIG. 8 is a schematic flowchart illustrating a method for constructing an entity name dictionary through unsupervised learning according to the present invention;
9 shows an embodiment of generating a use pattern of entity names for each category of FIG. 8,
10 is a diagram illustrating various embodiments in which a usage pattern of entity names for each category of FIG. 8 is generated,
11 is a schematic flowchart of registering a new entity name for each category in the entity name dictionary in the entity name dictionary construction method through unsupervised learning according to the present invention,
12 shows an embodiment of registering a new entity name for each category of FIG. 11 in the entity name dictionary.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 설명하기 위하여 이하에서는 본 발명의 바람직한 실시예를 예시하고 이를 참조하여 살펴본다.In order to explain the present invention, operational advantages of the present invention, and objects achieved by the implementation of the present invention, the following will illustrate a preferred embodiment of the present invention and look at it with reference.
먼저, 본 출원에서 사용한 용어는단지 특정한 실시예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니며, 단수의표현은 문맥상 명백하게 다르게뜻하지 않는 한, 복수의표현을 포함할 수 있다. 또한 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.First, terms used in the present application are only used to describe specific embodiments, and are not intended to limit the present invention, and expressions in the singular may include a plurality of expressions unless the context clearly indicates otherwise. In addition, in the present application, terms such as "comprise" or "have" are intended to designate the existence of features, numbers, steps, actions, components, parts, or a combination thereof described in the specification, but one or more other It is to be understood that it does not preclude the presence or addition of features, numbers, steps, actions, components, parts, or combinations thereof.
본 발명을 설명함에 있어서, 관련된공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의요지를 흐릴 수 있다고판단되는 경우에는 그 상세한설명은 생략한다.
In describing the present invention, when it is determined that a detailed description of a related known configuration or function may obscure the subject matter of the present invention, a detailed description thereof will be omitted.
본 발명은 인터넷 상에서 해당 카테고리가 분류되어 존재하는 문서 데이터들의 종합적인 분석을 통해 새롭게 등장한 신종 개체명의 의미나 기존 개체명의 변형된 의미를 인식하여 개체명 사전을 구축하는 방안을 개시한다.The present invention discloses a method of constructing an entity name dictionary by recognizing the meaning of a newly emerged new entity name or a modified meaning of an existing entity name through a comprehensive analysis of document data existing after a corresponding category is classified on the Internet.
특히, 본 발명에서는 개체명 사전 DB에 등록된 등록 개체명의 카테고리별 의미를 고려하여 문서 데이터 상에서 사용되는 카테고리별 사용 패턴을 생성하고 이를 이용하여 해당 카테고리에서 새롭게 등장하거나 변형된 의미를 갖는 신종 개체명에 대한 의미를 파악하는데, 이하에서는 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 시스템에 대하여 먼저 살펴본 후 이를 이용한 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 방법에 대하여 살펴보기로 한다.
In particular, in the present invention, a use pattern for each category used in document data is created in consideration of the meaning of each category of a registered entity name registered in the entity name dictionary DB, and a new type of entity name having a new or modified meaning in the category is used. To understand the meaning of, the following will first look at the entity name dictionary construction system through unsupervised learning according to the present invention, and then look at the entity name dictionary construction method through unsupervised learning according to the present invention using the same. .
도 3은 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 시스템에 대한 개략적인 구성도를 도시한다.3 shows a schematic configuration diagram of an entity name dictionary construction system through unsupervised learning according to the present invention.
본 발명에 따른 개체명 사전 구축 시스템(100)은 개략적으로 문서 데이터 수집부(110), 사용 패턴 분석부(130) 및 개체명 분석부(150)를 포함하여 구성될 수 있다.The entity name
문서 데이터 수집부(110)는 인터넷(10)에서 실시간 생성되는 다양한 문서 데이터 중 개체명이 포함된 문서 데이터를 수집한다. 상기 도 3에서는 문서 데이터 수집부(110)를 별개의 구성으로 도시하였으나, 상황에 따라서는 문서 데이터 수집부가 사용 패턴 분석부(130)나 개체명 분석부(150)의 일부 구성으로서 필요시에 사용 패턴 분석부(130)나 개체명 분석부(150)가 자체적으로 해당 문서 데이터를 수집하도록 구성될 수도 있다.The document
사용 패턴 분석부(130)는 개체명 사전 DB에 등록된 등록 개체명의 카테고리별 의미를 기초로 문서 데이터에서 개체명이 사용되는 카테고리별 정식 사용 패턴을 도출하여 이를 카테고리별 사용 패턴 DB(200)에 등록한다. 여기서 사용 패턴 DB(200)에는 개체명의 정식 사용 패턴이 카테고리별로 분류되어 저장되는데, 상기 도 3에서는 사용 패턴 DB(200)가 개체명 사전 구축 시스템(100)의 외부에 존재하는 것으로 도시되었으나 필요에 따라 사용 패턴 분석부(130)의 일부 구성으로 포함될 수도 있다.The usage
그리고 개체명 분석부(150)는 미등록 개체명이 존재하는 문서 데이터에서 상기 미등록 개체명이 사용되는 사용 패턴을 해당 카테고리에 따라 카테고리별 사용 패턴 DB(200)에 등록된 정식 사용 패턴으로 분석하여 상기 미등록 개체명의 의미를 판단하고 이를 개체명 사전 DB(300)에 등록한다. 여기서 개체명 사전 DB(300)에는 등록 개체명과 그 의미가 카테고리별로 분류되어 저장될 수 있으며, 또한 상기 도 3에서는 개체명 사전 DB(300)가 개체명 사전 구축 시스템(100)의 외부에 존재하는 것으로 도시되었으나 사용 패턴 DB(200)와 마찬가지로 필요에 따라 개체명 분석부(150)의 일부 구성으로 포함될 수도 있다.In addition, the entity
본 발명에 따른 개체명 사전 구축 시스템(100)의 각 구성에 대하여 실시예를 통해 좀더 살펴보자면, 먼저 도 4는 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 시스템에서 문서 데이터 수집부(110)의 실시예에 대한 구성도를 도시하는데, 문서 데이터 수집부(110)는 인터넷 상에서 카테고리가 분류된 문서 데이터 중 개체명을 포함하는 문서 데이터를 수집하는 개체명 수집 봇(Bot)이 구비된 문서 데이터 수집부(111)와 수집된 문서 데이터의 카테고리를 인식하고 해당 카테고리별로 문서 데이터를 분류하는 문서 데이터 분류부(115)를 포함할 수 있다.Looking at each configuration of the entity name
여기서 수집되는 문서 데이터는 사전에 해당되는 카테고리가 분류된 문서 데이터로서, 뉴스, 학술문헌, 특허문헌 등이 포함될 수 있는데, 가령 뉴스의 경우에는 정치, 경제, 사회, 생활/문화, IT/과학 등으로 해당 기사의 카테고리가 분류되어 있으며, 특허문헌의 경우에는 국제특허분류인 IPC(International Patent Classification)를 통해 해당 기술분야별로 카테고리가 분류되어 있다. 나아가서 이에 국한되지 않고 사전에 카테고리가 분류된 정보 데이터가 포함될 수 있는데, 가령 인터넷 블로그 또는 카페 상에서 카테고리가 분류되어 존재하는 정보 데이터나 소셜 네트워크 상에서 개인간 주고 받는 카테고리별 정보 데이터 등이 포함될 수도 있다.The document data collected here is document data in which the corresponding category is classified in advance, and may include news, academic literature, and patent literature. For example, in the case of news, politics, economy, society, life/culture, IT/science, etc. The article's category is classified as, and in the case of a patent document, the category is classified by the relevant technical field through IPC (International Patent Classification), which is an international patent classification. Furthermore, the present invention is not limited thereto, and information data classified in advance may be included. For example, it may include information data that exists after categories are classified on an Internet blog or a cafe, or information data for each category exchanged between individuals on a social network.
나아가서 문서 데이터 수집부(110)는 주기적으로 또는 필요시에 카테고리별 문서 데이터를 수집하고, 문서 데이터 분류부(115)는 수집된 문서 데이터를 해당 카테고리별로 분류하여 카테고리별 문서 데이터(11)를 준비할 수도 있지만, 바람직하게는 사용 패턴 분석부(130)와 연동하여 특정 카테고리의 문서 데이터를 수집하고 수집된 문서 데이터의 카테고리를 추출할 수도 있으며, 또한 개체명 분석부(150)와 연동하여 미등록 개체명이 존재하는 문서 데이터를 수집하고 수집된문서데이터의 카테고리를 추출할 수도 있다.Furthermore, the document
다음으로 도 5는 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 시스템에서 사용 패턴 분석부(130)의 실시예에 대한 구성도를 도시하는데, 사용 패턴 분석부(130)는 자연어 처리부(131), 개체명 사용 패턴 추출부(135), 정식 사용 패턴 생성부(137)를 포함하여 구성될 수 있다.Next, FIG. 5 shows a configuration diagram of an embodiment of the usage
자연어 처리부(131)는 문서 데이터에 대한 자연어 처리 과정을 통해 형태소를 분석하는데, 특히 등록 개체명이 포함된 문장에 대하여 형태소 사전(350)을 기반으로 형태소를 분석한다. 개체명 사용 패턴 추출부(135)는 개체명 사전 DB(300)에 등록된 등록 개체명의 카테고리별 의미를 기초로 문서 데이터에서 개체명이 사용되는 하나 이상의 사용 패턴 후보를 추출하며, 정식 사용 패턴 생성부(137)는 개체명 사용 패턴 추출부(135)에서 추출한 하나 이상의 사용 패턴 후보에 대한 각각의 사용 빈도를 기초로 하나 이상의 사용 패턴 후보 중에서 카테고리별 정식 사용 패턴을 선택하여 카테고리별 사용 패턴 DB(200)에 등록하는데, 사용 패턴 DB(200)에는 해당 카테고리별로 분류되어 정식 사용 패턴이 저장될 수 있다. 개체명 사용 패턴 추출부(135)와 정식 사용 패턴 생성부(137)의 동작에 대한 자세한 내용은 이후의 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 방법에서 살펴보기로 한다.The natural
이와 같은 사용 패턴 분석부(130)를 통해 사용 패턴 DB(200)에는 카테고리별 의미를 기초로 등록 개체명에 대한 카테고리별 정식 사용 패턴이 축적되며, 개체명 분석부(150)에서는 사용 패턴 분석부(130)를 통해 사용 패턴 DB(200)에 축적된 카테고리별 정식 사용 패턴을 적용하여 미등록 개체명에 대하여 보다 정확하고 신뢰도 높게 그 의미를 판단할 수 있게 되는데, 도 6은 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 시스템에서 개체명 분석부의 실시예에 대한 구성도를 도시한다.Through the usage
개체명 분석부(150)는 미등록 개체명 추출부(151), 자연어 처리부(153), 미등록 개체명 분석부(155), 신규 개체명 등록부(157)를 포함하여 구성될 수 있다.The entity
미등록 개체명 추출부(151)는 문서 데이터에서 미등록 개체명이 포함된 문서 데이터를 인식하여 분석 대상 데이터로 추출하는데, 이를 위해 미등록 개체명 추출부(151)는 자체적으로 인터넷 상에서 미등록 개체명을 포함하는 문서 데이터를 파싱할 수 있는 구성을 구비할 수도 있으나, 바람직하게는 미등록 개체명 추출부(151)는 문서 데이터 수집부(110)와 연동하여 미등록 개체명을 포함하는 문서 데이터를 수집하고, 수집된 문서 데이터에 포함된 미등록 개체명을 개체명사전 DB(300)를 기반으로 인식하여 분석 대상 데이터를 추출할 수 있다.The unregistered entity
자연어 처리부(153)는 미등록 개체명 추출부(151)에서 추출한 분석 대상 데이터에 대한 자연어 처리 과정을 통해 형태소를 분석하는데, 미등록 개체명이 포함된 문장에 대하여 형태소 사전(350)을 기반으로 형태소를 분석할 수 있다.The natural
미등록 개체명 분석부(155)는 상기 분석 대상 데이터에서 상기 미등록 개체명이 사용되는 사용 패턴을 해당 카테고리에 따라 카테고리별 사용 패턴 DB(200)에 등록된 정식 사용 패턴으로 분석하여 상기 미등록 개체명의 의미를 판단하는데, 미등록 개체명 분석부(155)의 동작에 대해서는 이후에 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 방법에서 보다 자세히 살펴보기로 한다.The unregistered entity
신규 개체명 등록부(157)는 미등록 개체명 분석부(155)에서 판단한 미등록 개체명의 의미를 기초로 신규 개체명을 개체명 사전 DB(300)에 등록한다. 이때 개체명 사전 DB(300)에는 카테고리별로 분류되어 신규 개체명이 저장될 수 있다.
The new entity
본 발명에서는 이와 같은 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 시스템을 이용하여 보다 신속하며 신뢰도 높은 개체명 사전을 구축하는 방법도 제시하는데, 이하에서는 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 방법에 대하여 살펴보기로 한다.The present invention also proposes a method of constructing a faster and more reliable entity name dictionary using the entity name dictionary construction system through unsupervised learning according to the present invention. Hereinafter, an entity through unsupervised learning according to the present invention Let's look at how to build a name dictionary.
본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 방법은 앞서 살펴본 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 시스템을 기반으로 제시되므로 상기의 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 시스템의 실시예를 같이 참조하여 살펴보기로 한다.Since the method of constructing an entity name dictionary through unsupervised learning according to the present invention is presented based on the entity name dictionary construction system through unsupervised learning according to the present invention, as described above, the entity name dictionary through unsupervised learning according to the present invention. It will be described with reference to the embodiment of the construction system together.
도 7은 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 방법에 대한 개략적인 흐름도를 도시한다.7 is a schematic flowchart of a method for constructing an entity name dictionary through unsupervised learning according to the present invention.
본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 방법은 개략적으로 문서 데이터에 포함된 개체명에 대한 카테고리별 정식 사용 패턴을 생성하여 카테고리별 사용 패턴 DB(200)를 구축하는 과정과 문서 데이터에 포함된 미등록 개체명이 사용되는 사용 패턴에 카테고리별 사용 패턴DB(200)의 정식 사용 패턴을 적용하여 미등록 개체명의 의미를 판단하여 카테고리별 개체명 사전 DB(300)를 구축하는 과정으로 구분할 수 있다.The method of constructing an entity name dictionary through unsupervised learning according to the present invention is a process of constructing a
먼저 카테고리별 사용 패턴 DB(200)를 구축하는 과정을 살펴보면, 인터넷(10)에 존재하는 카테고리가 분류된 문서 데이터를 수집(S110)하고, 수집된 문서 데이터의 카테고리를 추출(S120)하여 해당 문서 데이터가 속하는 카테고리를 기준으로 상기 문서 데이터에 포함된 등록 개체명의 의미를 카테고리별로 파악하여 상기 등록 개체명이 상기 문서 데이터 상에서 사용되는 카테고리별 개체명 사용 패턴을 분석(S210)한다. 그리고 분석된 결과를 기초로 상기 등록 개체명이 사용되는 카테고리별 정식 사용 패턴을 추출(S270)하여 생성된 정식 사용 패턴을 카테고리별 사용 패턴 DB(200)에 등록(S290)한다.First, looking at the process of building the
카테고리별 사용 패턴 DB(200)를 구축하는 과정에 대하여 좀더 자세히 살펴보기 위해 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 방법에서 카테고리별 개체명의 사용 패턴을 생성하는 흐름도인 도 8을 참조한다.For a more detailed look at the process of constructing the
먼저 문서 데이터 수집부(110)가 인터넷(10)에 존재하는 카테고리가 분류된 문서 데이터를 수집(S110a)하는데, 이때 카테고리가 분류된 문서 데이터에는 개체명 사전 DB(300)에 등록된 등록 개체명이 포함되어 있다. 그리고 수집된 문서 데이터의 카테고리를 추출(S120a)하여 추출한 카테고리와 문서 데이터를 사용 패턴 분석부(130)에 제공(S130a)한다. 여기서 수집된 문서 데이터는 이미 카테고리가 분류된 상태이므로 문서 데이터 수집부(110)는 카테고리를 추출하는 과정(S120a)을 생략하고 바로 문서 데이터를 사용 패턴 분석부(130)로 제공할 수도 있다. First, the document
사용 패턴 분석부(130)는 제공된 문서 데이터에 대한 자연어 처리 과정(S220)을 통해 문장 구조를 분석하고, 분석된 문장 구조에 포함된 등록 개체명에 대한 개체명 사전 DB(300)에 등록된 의미를 기초로 상기 문서 데이터 상에서 상기 등록 개체명이 카테고리별로 사용되는 하나 이상의 사용 패턴 후보를 추출(S230)한다.The usage
보다 상세한 설명을 위하여 도 9에 도시된 카테고리별 개체명의 사용 패턴을 생성하는 실시예를 같이 참조하여 살펴보면, 인터넷 상의 뉴스는 해당 카테고리가 분류되어 있으며, 상기 도 9에서는 카테고리가 사회(A1)인 뉴스 문서 데이터를 나타낸다. 상기 도 9에서는 "박원순"개체명을 포함하는 뉴스 문서 데이터로서 "박원순" 개체명은 이미 개체명 사전DB(300)에 등록된 등록 개체명으로 가정한다. For a more detailed description, referring to the embodiment of generating the use pattern of entity names for each category shown in FIG. 9 together, news on the Internet is classified into a corresponding category, and in FIG. 9, news in which the category is society (A1). Represents document data. In FIG. 9, it is assumed that the entity name "Park Won-soon" as news document data including the entity name "Park Won-soon" is a registered entity name already registered in the entity
사용 패턴 분석부(130)의 자연어 처리부(131)는 "박원순" 개체명이 포함된 문장(B1)에 대하여 자연어 처리 과정을 통해 형태소를 분석하는데, 이때 형태소 사전(350)을 근거로 형태소를 분석하고 분석된 형태소 중 명사로 분류된 단어만을 추출한다. 상기 B1 문장 분석 결과 박원순, 시장, 롯데월드, 건립, 결정, 번복이란 명사 단어가 추출된다.The natural
그리고 사용 패턴 분석부(130)의 개체명 사용 패턴 추출부(135)는 등록 개체명 "박원순"을 추출하여 개체명 사전 DB(300)에서 "박원순"의 사회 카테고리에서의 의미를 파악하여, 등록 개체명 "박원순"이 사회 카테고리 상에서 인물명임을 인식한다.In addition, the entity name usage
또한 사용 패턴 분석부(130)의 개체명 사용 패턴 추출부(135)는 등록 개체명 "박원순"의 사회 카테고리 상 의미인 인물명으로 B1 문장에서 등록 개체명이 사용되는 사용 패턴을 명사와 결합시켜 사용 패턴 후보를 추출하는데, 상기 도 9에서와 같이 제1 사용 패턴 후보로서2 gram pattern인 "인물명+시장", 제2 사용 패턴 후보로서 3 gram pattern인 "인물명+시장+롯데월드", 제3 사용 패턴 후보로서 4 gram pattern인 "인물명+시장+롯데월드+건립", 제4 사용 패턴 후보로서 5 gram pattern인 "인물명+시장+롯데월드+건립+번복"으로 4개의 사용 패턴 후보가 추출된다.In addition, the entity name usage
다시 도 8로 회귀하여 이후 과정을 살펴보면, 등록 개체명에 대한 문서 데이터 상에서의 사용 패턴 후보가 추출(S230)되면, 추출된 사용 패턴 후보에 대하여 사용 패턴 후보가 산출된 문서 데이터에서 사용 빈도를 산출하는데, 보다 바람직하게는 해당 카테고리에 속하는 복수의 문서 데이터에서 각각의 사용 패턴 후보가 사용되는 사용 빈도를 산출하는 것이 정확도를 향상시킬 수 있으므로 상기 도 8에서와 같이 문서 데이터 수집부(110)를 통해서 해당 카테고리에 속하는 복수의 문서 데이터를 제공(S240)받아 이들 문서 데이터에서 각각의 사용 패턴 후보가 사용되는 사용 빈도를 산출(S250)하고, 산출된 사용 빈도를 근거로 사용 패턴 후보 중 정식 사용 패턴 후보를 선택(S280)한다. 그리고 선택된 정식 사용 패턴 후보를 카테고리별 사용 패턴 DB(200)에 등록(S290)한다.Referring back to FIG. 8 and looking at the subsequent process, when a usage pattern candidate from the document data for the registered entity name is extracted (S230), the usage frequency is calculated from the document data from which the usage pattern candidate is calculated for the extracted usage pattern candidate. However, more preferably, it is possible to improve accuracy by calculating the frequency of use in which each usage pattern candidate is used in a plurality of document data belonging to a corresponding category, and thus through the document
상기 정식 사용 패턴 후보를 선택하여 등록하는 과정을 상기 도 9를 계속 참조하여 살펴보면, 사용 패턴 분석부(130)의 정식 사용 패턴 생성부(137)는 추출된 4개의 사용 패턴 후보인 제1 사용 패턴 후보, 제2 사용 패턴 후보, 제3 사용 패턴 후보 및 제4 사용 패턴 후보 각각에 대하여 사용 빈도를 산출하는데, 이때 상기 B1의 문서 데이터만을 근거로 사용 빈도를 산출할 수도 있지만 보다 정확성을 높이기 위해서 사용 패턴 분석부(130)의 정식 사용 패턴 생성부(137)는 문서 데이터 수집부(110)와 연동하여 해당 카테고리의 다양한 문서 데이터에서 각각의 사용 패턴 후보에 대한 사용 빈도를 산출할 수 있다.Looking at the process of selecting and registering the official use pattern candidates with continued reference to FIG. 9, the official use
상기 도 9에서는 각각의 사용 패턴 후보에 대한 사용 빈도 산출 결과, 제1 사용 패턴 후보, 제2 사용 패턴 후보, 제3 사용 패턴 후보 및 제4 사용 패턴 후보가 해당 카테고리의 문서 데이터 상에서 사용된 수가 각각 10회, 3회, 2회 및 1회로 산출되었으며, 사용 패턴 분석부(130)의 정식 사용 패턴 생성부(137)는 각각의 사용 패턴 후보 중 사용 빈도가 최상값을 갖는 제1 사용 패턴 후보를 정식 사용 패턴으로 선택하고 사회 카테고리에서 "인물명+시장"을 정식 사용 패턴으로 카테고리별 사용 패턴 DB(200)에 등록한다. In FIG. 9, the number of usage frequency calculation results for each usage pattern candidate, the first usage pattern candidate, the second usage pattern candidate, the third usage pattern candidate, and the fourth usage pattern candidate are used on document data of a corresponding category, respectively. It was calculated 10 times, 3 times, 2 times and 1 time, and the official use
이상에서 살펴본 본 발명에 따른 과정을 통해 문서 데이터에 포함된 개체명에 대한 카테고리별 정식 사용 패턴을 생성하여 카테고리별 사용 패턴 DB를 구축할 수 있으며, 이와 같은 카테고리별 사용 패턴에 대한 다양한 실시예로서 도 10을 살펴보면, 상기 도 10의 (a)와 (b)에서는 모두 "개체명+시장"으로 구성되는 사용 패턴임에도 불구하고 상기 도 10의 (a)에서는 상기 도 9에서 살펴본 바와 같이 사회(A1) 카테고리 상에서 B1 문장을 통해 "개체명+시장"이 "인물명+시장"의 정식 사용 패턴으로 등록될 수 있으며, 상기 도 10의 (b)에서는 IT(A2) 카테고리 상에서 B2 문장을 통해 "개체명+시장"이 "서비스명+시장"의 정식 사용 패턴으로 등록될 수 있다.Through the process according to the present invention described above, a use pattern DB for each category can be constructed by creating a formal use pattern for each category for the entity name included in the document data, and as various examples of the use pattern for each category, Referring to FIG. 10, despite the usage pattern consisting of "individual name + market" in both (a) and (b) of FIG. 10, in FIG. 10 (a), as shown in FIG. 9, society (A1 ) In the category, "object name + market" can be registered as a formal usage pattern of "person name + market" through sentence B1, and in Fig. 10(b), "object name" through sentence B2 in IT (A2) category +Market" may be registered as a formal usage pattern of "Service Name + Market".
이와 같이 본 발명에서는 카테고리별로 개체명이 사용되는 사용 패턴을 판단함으로써 동음이의 개체명이나 유사한 문장 구조로 존재하는 개체명에 대한 정확한 사용 패턴을 판단할 수 있게 된다.
As described above, in the present invention, by determining the usage pattern in which the entity name is used for each category, it is possible to determine the exact usage pattern for the entity name of the homophone or the entity name existing in a similar sentence structure.
다음으로 개체명 사전 DB(300)를 구축하는 과정을 상기 도 7로 돌아가서 살펴보면, 인터넷(10) 상에서 카테고리가 분류된 문서 데이터를 수집(S110)하는데, 앞서 사용 패턴 DB(200)의 구축을 위해 이미 수집된 문서 데이터를 이용할 수도 있지만 바람직하게는 새롭게 문서 데이터를 다시 수집할 수 있으며, 이때는 미등록 개체명이 존재하는 문서 데이터를 수집하게 된다.Next, referring to the process of building the entity
그리고 미등록 개체명이 존재하는 문서 데이터에서 미등록 개체명이 사용되는 사용 패턴을 분석(S310)하고, 구축된 카테고리별 사용 패턴 DB(200)에서 해당 카테고리에 속하는 정식 사용 패턴을 추출하여 미등록 개체명이 사용되는 사용 패턴에 대응되는 정식 사용 패턴을 적용(S340)함으로써 보다 정확한 미등록 개체명의 의미를 파악할 수 있으며, 이와 같이 파악된 미등록 개체명의 카테고리별 의미를 대응시켜 신규 개체명을 생성(S380)하여 개체명 사전 DB(300)에 등록(S390)한다.In addition, the usage pattern in which the unregistered object name is used in the document data in which the unregistered object name exists is analyzed (S310), and the official usage pattern belonging to the corresponding category is extracted from the constructed
카테고리별 개체명 사전 DB(300)를 구축하는 과정에 대하여 좀더 자세히 살펴보기 위해 본 발명에 따른 비지도 학습을 통한 개체명 사전 구축 방법에서 카테고리별 신규 개체명을 개체명 사전에 등록하는 흐름도인 도 11을 참조한다.In order to examine the process of building the entity
먼저 문서 데이터 수집부(110)가 인터넷(10)에 존재하는 카테고리가 분류된 문서 데이터를 수집(S110b)하는데, 여기서 문서 데이터의 수집 과정은 문서 데이터 수집부(110)가 카테고리별 사용 패턴 DB(200)의 구축을 위해 사전에 수집한 문서 데이터일 수도 있으나 바람직하게는 별개로 수집되는 문서 데이터가 될 수 있으며 특히 문서 데이터 수집부(110)는 개체명 사전 DB(300)에 등록되지 않은 미등록 개체명이 포함되어 있는 문서 데이터를 선택적으로 수집할 수도 있다. 또는 문서 데이터 수집부(110)는 개체명의 등록 여부를 판단하지 않고 개체명 분석부(150)가 문서 데이터 수집부(110)가 수집한 문서 데이터에서 미등록 개체명이 포함된 문서 데이터를 분석 대상 데이터로 분류하여 선택적으로 추출할 수도 있다.First, the document
그리고 수집된 문서 데이터의 카테고리를 추출(S120b)하여 추출한 카테고리와 문서 데이터를 개체명 분석부(150)에 제공(S130b)하는데, 여기서 수집된 문서 데이터는 이미 카테고리가 분류된 상태이므로 문서 데이터 수집부(110)는 카테고리를 추출하는 과정(S120b)을 생략하고 바로 문서 데이터를 개체명 분석부(150)로 제공할 수도 있다. In addition, the category of the collected document data is extracted (S120b), and the extracted category and document data are provided to the entity name analysis unit 150 (S130b), where the collected document data is already classified, so the document data collection unit In
개체명 분석부(150)는 미등록 개체명이 포함된 문서 데이터를 분석 대상 데이터로 분류하고 상기 분석 대상 데이터에 대한 자연어 처리 과정(S320)을 통해 문장 구조를 분석하는데, 보다 상세한 설명을 위하여 도 12에 도시된 카테고리별 신규 개체명을 개체명 사전에 등록하는 실시예를 같이 참조하여 살펴보면, 상기 도 12에서는 미등록 개체명인 "허남식"을 포함하는 사회 카테고리의 뉴스 문서 데이터로서, 개체명 분석부(150)의 미등록 개체명 추출부(151)는 개체명 사전 DB(300)를 근거로 미등록 개체명이 포함된 문서 데이터를 인식하여 이를 분석 대상 데이터로 추출한다. 그리고 개체명 분석부(150)의 자연어 처리부(153)는 미등록 개체명인"허남식"이 포함된 문장(B2)에 대하여 자연어 처리 과정을 통해 형태소를 분석하는데, 이때 형태소 사전(350)을 근거로 형태소를 분석하여 분석된 형태소 중 명사로 분류된 단어만을 추출한다. 상기 B2 문장 분석 결과 허남식, 시장, 3년차, 공약, 이행률, 80이란 명사 단어가 추출된다.The entity
이와 같이 미등록 개체명을 포함하는 문장에 대한 분석을 수행하고, 미등록 개체명의 의미를 파악하는데, 다시 도 11로 회귀하여 자연어 처리 과정을 통해 분석된 문장 구조에서 미등록 개체명이 사용되는 미등록 개체명 사용 패턴을 분석(S330)하여 하나 이상의 미등록 개체명 사용 패턴을 추출하고, 미등록 개체명 사용 패턴에 카테고리별 사용 패턴 DB(200)에 등록된 정식 사용 패턴을 적용(S360)하여 미등록 개체명에 대한 해당 카테고리에서의 의미를 판단(S370)하게 된다. 이 과정을 다시 상기 도 12를 참조하여 계속 살펴보자면, 개체명 분석부(150)의 미등록 개체명 분석부(155)는 미등록 개체명 "허남식"의 사회 카테고리로 분류된 B2 문장에서 미등록개체명을 명사와 결합시켜 미등록 개체명 사용 패턴을 추출하는데, 상기 도 12에서와 같이 제1 미등록 개체명 사용 패턴으로서 2 gram pattern인 "허남식+시장", 제2 미등록 개체명 사용 패턴으로서 3 gram pattern인 "허남식+시장+3년차", 제3 미등록 개체명 사용 패턴으로서 4 gram pattern인 "허남식+시장+3년차+공약", 제4 미등록 개체명 사용 패턴으로서 5 gram pattern인 "허남식+시장+3년차+공약+이행률"등으로 미등록 개체명 사용 패턴이 추출될수 있는데, 상기 도 12에서는 4개의 미등록 개체명 사용 패턴을 추출하는 것으로 설명하도록 한다.In this way, the analysis of the sentence including the unregistered entity name is performed, and the meaning of the unregistered entity name is identified. Returning to FIG. 11 again, the pattern of using the unregistered entity name in which the unregistered entity name is used in the sentence structure analyzed through the natural language processing process Analysis (S330) to extract one or more unregistered entity name usage patterns, and apply the official usage pattern registered in the category-specific usage pattern DB (200) to unregistered entity name usage patterns (S360) to correspond to the unregistered entity name The meaning of in is determined (S370). To continue this process with reference to FIG. 12 again, the non-registered entity
그리고 개체명 분석부(150)의 미등록 개체명 분석부(155)는 카테고리별 사용 패턴 DB(200)에서 해당 카테고리에 속하는 정식 사용 패턴을 추출하여 미등록 개체명 사용 패턴에 적용시키는데, 즉 상기 도 12에 도시된 미등록 개체명 사용 패턴 중 카테고리별 사용 패턴 DB(200) 상에서 매칭될 수 있는 정식 사용 패턴으로는 앞서 도 9의 실시예를 통해 생성된 "인물명+시장"의 정식 사용 패턴이 적용될 수 있으며, "인물명+시장"의 정식 사용 패턴으로는 제1 미등록 개체명 사용 패턴에 적용할 수 있으므로 "인물명+시장"의 정식 사용 패턴을 제1 미등록 개체명 사용 패턴에 적용함으로써 "허남식"이 "인물명"이라는 의미로 판단될 수 있다.In addition, the unregistered entity
이와 같은 과정을 통해 미등록 개체명에 대한 의미가 파악되면, 다시 도 11와 상기 도 12를 같이 참조하여 개체명 분석부(150)의 신규 개체명 등록부(157)는 "허남식" 미등록 개체명을 "인물명" 의미에 대응시켜 신규 개체명을 생성(S380)하고 이를 개체명 사전 DB(300)에 등록(S390)한다.
When the meaning of the unregistered entity name is determined through such a process, the new entity
이와 같이 본 발명에서는 카테고리가 분류된 문서 데이터의 종합적인 분석을 통해 카테고리별로 개체명의 의미를 파악함으로써 새롭게 등장한 개체명에 대한 인식의 신뢰도를 높이고, 나아가서 개체명의 의미 변형을 효과적으로 인식할 수 있다.As described above, in the present invention, the meaning of the entity name for each category is identified through comprehensive analysis of the document data in which the category is classified, thereby increasing the reliability of recognition of the newly emerged entity name, and further, it is possible to effectively recognize the transformation of the meaning of the entity name.
특히 개체명이 카테고리별로 사용되는 사용 패턴을 근거로 신규 개체명이나 의미가 변화된 개체명의 의미를 판단함으로써 동음이의 개체명의 의미나 기존 개체명의 의미 변형에 대해서 정확하게 파악할 수 있게 된다.In particular, by judging the meaning of a new entity name or an entity name whose meaning has changed based on the usage pattern used for each category, it is possible to accurately grasp the meaning of the entity name of the homophone or the meaning of the existing entity name.
나아가서 일반적이지 않은 비정형 데이터에서도 개체명의 의미를 파악하기 위한 사용 패턴 추출이 가능하며, 또한 개체명 인식기를 이용하지 않고 카테고리별로 추출된 사용 패턴을 근거로 개체명의 의미를 판단함으로써 기존의 개체명 인식 엔진의 성능에 의존적이지 않으며 일편적인 분석으로 인해 개체명 인식 엔진에서 발생되는 인식 오류도 극복할 수 있게 된다.
Furthermore, it is possible to extract a usage pattern to grasp the meaning of an entity name even in unstructured data that is not general, and also, the existing entity name recognition engine by determining the meaning of the entity name based on the usage pattern extracted for each category without using an entity name recognizer. It is not dependent on the performance of and can overcome the recognition errors that occur in the entity name recognition engine due to a unilateral analysis.
이상의 설명은 본 발명의기술 사상을 예시적으로 설명한것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서 본 발명에 기재된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상이 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의해서해석되어야하며, 그와 동등한 범위 내에 있는 모든 기술 사상은본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
The above description is only illustrative of the technical idea of the present invention, and those of ordinary skill in the technical field to which the present invention pertains will be able to make various modifications and variations without departing from the essential characteristics of the present invention. Accordingly, the embodiments described in the present invention are not intended to limit the technical spirit of the present invention, but to explain the technical spirit, and the technical spirit of the present invention is not limited by these embodiments. The scope of protection of the present invention should be interpreted by the claims below, and all technical ideas within the scope equivalent thereto should be construed as being included in the scope of the present invention.
10 : 인터넷,
100 : 개체명 사전 구축 시스템,
110 : 문서 데이터 수집부,
111 : 문서 데이터 수집부, 115 : 문서 데이터 분류부,
130 : 사용 패턴 분석부,
131 : 자연어 처리부, 135 : 개체명 사용 패턴 분석부,
137 : 정식 사용 패턴 생성부,
150 : 개체명 분석부,
151 : 미등록 개체명 추출부, 153 : 자연어 처리부,
155 : 미등록 개체명 분석부, 157 : 신규 개체명 등록부,
200 : 사용 패턴 DB,
300 : 개체명 사전 DB,
350 : 형태소 사전.10: Internet,
100: entity name dictionary construction system,
110: document data collection unit,
111: document data collection unit, 115: document data classification unit,
130: usage pattern analysis unit,
131: natural language processing unit, 135: entity name usage pattern analysis unit,
137: formal use pattern generation unit,
150: entity name analysis unit,
151: unregistered entity name extraction unit, 153: natural language processing unit,
155: unregistered entity name analysis unit, 157: new entity name registration unit,
200: use pattern DB,
300: object name dictionary DB,
350: morpheme dictionary.
Claims (13)
문서 데이터에 대한 자연어 처리 과정을 통해 문장 구조를 분석하고, 개체명 사전 DB에 등록된 등록 개체명의 카테고리별 의미를 기초로 상기 문서 데이터 상에서 상기 등록 개체명이 카테고리별로 사용되는 하나 이상의 사용 패턴 후보를 검출하며, 상기 검출된 사용 패턴 후보의 사용 빈도에 기초하여 도출된 정식 사용 패턴을 카테고리별 사용 패턴 DB에 등록하는 개체명 사용 패턴 등록 단계; 및
문서 데이터 중 미등록 개체명이 존재하는 문서 데이터에서 상기 미등록 개체명이 사용되는 하나 이상의 미등록 개체명 사용 패턴을 추출하고, 상기 미등록 개체명 사용 패턴에 해당 카테고리에 따라 상기 카테고리별 사용 패턴 DB에 등록된 정식 사용 패턴을 적용하여 상기 미등록 개체명의 의미를 판단하고, 상기 미등록 개체명을 상기 의미에 대응시켜 신규 개체명으로 상기 개체명 사전 DB에 등록하는 개체명 사전 등록 단계를 포함하는 것을 특징으로 하는 비지도 학습을 통한 개체명 사전 구축 방법.Collecting document data for each category of collecting document data on the Internet and extracting a category of the document data;
Analyzes sentence structure through natural language processing of document data, and detects one or more usage pattern candidates in which the registered entity name is used for each category in the document data based on the meaning of each category of the registered entity name registered in the entity name dictionary DB And registering an official use pattern derived based on the use frequency of the detected use pattern candidate in a use pattern DB for each category; And
Extracts one or more unregistered entity name usage patterns in which the unregistered entity name is used from document data in which the unregistered entity name exists among document data, and officially uses registered in the category-specific usage pattern DB according to the category in the unregistered entity name usage pattern Non-supervised learning comprising the step of registering an entity name dictionary DB as a new entity name by determining the meaning of the unregistered entity name by applying a pattern and matching the unregistered entity name to the meaning Method of building an entity name dictionary through
상기 개체명 사용 패턴 등록 단계는,
상기 문서 데이터에 대한 자연어 처리 과정을 통해 문장 구조를 분석하고, 분석된 문장 구조에 포함된 등록 개체명에 대한 상기 개체명 사전 DB에 등록된 의미를 기초로 상기 문서 데이터 상에서 상기 등록 개체명이 카테고리별로 사용되는 하나 이상의 사용 패턴 후보를 추출하는 단계;
상기 사용 패턴 후보의 카테고리에 해당되는 하나 이상의 문서 데이터 상에서 상기 사용 패턴 후보의 사용 빈도를 산출하는 단계;
상기 사용 빈도를 기초로 하나 이상의 상기 사용 패턴 후보에서 카테고리별 정식 사용 패턴을 선택하는 단계; 및
상기 정식 사용 패턴을 상기 카테고리에 매칭시켜 카테고리별 사용 패턴 DB에 등록하는 단계를 포함하는 것을 특징으로 하는 비지도 학습을 통한 개체명 사전 구축 방법.The method of claim 1,
The entity name usage pattern registration step,
The sentence structure is analyzed through the natural language processing process for the document data, and the registered entity name in the document data by category based on the meaning registered in the entity name dictionary DB for the registered entity name included in the analyzed sentence structure. Extracting one or more usage pattern candidates to be used;
Calculating a usage frequency of the usage pattern candidate on one or more document data corresponding to the category of the usage pattern candidate;
Selecting a formal usage pattern for each category from one or more usage pattern candidates based on the usage frequency; And
And registering the formal usage pattern with the category and registering it in a usage pattern DB for each category.
상기 사용 패턴 후보를 추출하는 단계는,
상기 문서 데이터에 대한 자연어 처리 과정을 통해 형태소를 분석하고, 분석된 형태소 중 명사로 분류된 단어를 추출하는 단계;
추출된 상기 단어 중 등록 개체명에 대한 의미를 상기 개체명 사전 DB에서 추출하는 단계; 및
상기 등록 개체명의 의미를 기초로 하나 이상의 상기 명사와 결합되어 상기 등록 개체명이 카테고리별로 사용되는 하나 이상의 사용 패턴 후보를 추출하는 단계를 포함하는 것을 특징으로 하는 비지도 학습을 통한 개체명 사전 구축 방법.The method of claim 2,
The step of extracting the use pattern candidate,
Analyzing a morpheme through a natural language processing process for the document data, and extracting a word classified as a noun from among the analyzed morphemes;
Extracting a meaning of a registered entity name among the extracted words from the entity name dictionary DB; And
And extracting one or more usage pattern candidates that are combined with one or more of the nouns based on the meaning of the registered entity name and used for each category of the registered entity name.
상기 사용 빈도를 산출하는 단계는,
상기 사용 패턴 후보의 카테고리에 해당되는 하나 이상의 문서 데이터를 대상으로 상기 사용 패턴 후보가 사용된 수를 카운팅하여 사용 빈도를 산출하며,
상기 정식 사용 패턴을 선택하는 단계는,
상기 사용 패턴 후보의 사용 빈도 중 최상값을 갖는 사용 패턴 후보를 카테고리별 정식 사용 패턴으로 선택하는 것을 특징으로 하는 비지도 학습을 통한 개체명 사전 구축 방법.The method of claim 2,
The step of calculating the use frequency,
The usage frequency is calculated by counting the number of usage pattern candidates used for one or more document data corresponding to the category of the usage pattern candidate,
The step of selecting the formal use pattern,
An entity name dictionary construction method through unsupervised learning, characterized in that selecting a usage pattern candidate having the highest value among the usage frequencies of the usage pattern candidates as formal usage patterns for each category.
상기 개체명 사전 등록 단계는,
문서 데이터 중 미등록 개체명이 존재하는 문서 데이터를 분석 대상 데이터로 분류하고 상기 분석 대상 데이터의 카테고리를 추출하는 단계;
상기 분석 대상 데이터에 대한 자연어 처리 과정을 통해 문장 구조를 분석하여 상기 미등록 개체명이 상기 분석 대상 데이터에서 사용되는 하나 이상의 미등록 개체명 사용 패턴을 추출하는 단계;
상기 카테고리별 사용 패턴 DB에서 상기 분석 대상 데이터의 카테고리에 대응되는 정식 사용 패턴 중 상기 미등록 개체명 사용 패턴에 대응되는 정식 사용 패턴을 추출하는 단계;
추출된 상기 정식 사용 패턴을 상기 미등록 개체명 사용 패턴에 적용하여 상기 미등록 개체명의 의미를 판단하는 단계; 및
상기 미등록 개체명을 상기 의미에 대응시켜 신규 개체명으로 상기 개체명 사전 DB에 등록하는 단계를 포함하는 것을 특징으로 하는 비지도 학습을 통한 개체명 사전 구축 방법.The method of claim 1,
The entity name pre-registration step,
Classifying document data in which an unregistered entity name exists among the document data as analysis target data and extracting a category of the analysis target data;
Analyzing a sentence structure through a natural language processing process for the analysis target data to extract one or more unregistered entity name usage patterns used in the analysis target data;
Extracting a formal usage pattern corresponding to the unregistered entity name usage pattern from the formal usage patterns corresponding to the category of the analysis target data from the category-specific usage pattern DB;
Determining the meaning of the unregistered entity name by applying the extracted formal usage pattern to the unregistered entity name usage pattern; And
And registering the entity name dictionary DB as a new entity name by matching the unregistered entity name to the meaning.
상기 미등록 개체명의 사용 패턴을 추출하는 단계는,
상기 분석 대상 데이터에 대한 자연어 처리 과정을 통해 형태소를 분석하고, 분석된 형태소 중 명사로 분류된 단어를 추출하는 단계; 및
하나 이상의 상기 명사와 결합되어 상기 미등록 개체명이 카테고리별로 사용되는 하나 이상의 미등록 개체명 사용 패턴을 추출하는 단계를 포함하는 것을 특징으로 하는 비지도 학습을 통한 개체명 사전 구축 방법.The method of claim 5,
The step of extracting the use pattern of the unregistered entity name,
Analyzing a morpheme through a natural language processing process for the data to be analyzed, and extracting a word classified as a noun from among the analyzed morphemes; And
And extracting one or more unregistered entity name usage patterns combined with one or more of the nouns and used for each category of the unregistered entity name.
상기 카테고리별 문서 데이터 수집 단계는,
개체명 수집 봇(Bot)을 통해 인터넷 상에서 카테고리가 분류된 문서 데이터를 파싱하고, 상기 문서 데이터에서 카테고리를 추출하는 것을 특징으로 하는 비지도 학습을 통한 개체명 사전 구축 방법.The method of claim 1,
The step of collecting document data by category,
A method of constructing an entity name dictionary through unsupervised learning, characterized in that, through an entity name collecting bot (Bot), the document data classified in categories on the Internet is parsed and the category is extracted from the document data.
상기 문서 데이터는,
카테고리가 분류된 뉴스, 학술문헌 또는 특허문헌 중 하나 이상을 포함하는 것을 특징으로 하는 비지도 학습을 통한 개체명 사전 구축 방법.The method of claim 7,
The document data,
A method of constructing an entity name dictionary through unsupervised learning, characterized in that the category includes one or more of classified news, academic literature, or patent literature.
문서 데이터에 대한 자연어 처리 과정을 통해 문장 구조를 분석하고, 개체명 사전 DB에 등록된 등록 개체명의 카테고리별 의미를 기초로 상기 문서 데이터 상에서 상기 등록 개체명이 카테고리별로 사용되는 하나 이상의 사용 패턴 후보를 검출하며, 상기 검출된 사용 패턴 후보의 사용 빈도에 기초하여 도출된 정식 사용 패턴을 카테고리별 사용 패턴 DB에 등록하는 사용 패턴 분석부; 및
문서 데이터 중 미등록 개체명이 존재하는 문서 데이터에서 상기 미등록 개체명이 사용되는 하나 이상의 미등록 개체명 사용 패턴을 추출하고, 상기 미등록 개체명 사용 패턴에 해당 카테고리에 따라 상기 카테고리별 사용 패턴 DB에 등록된 정식 사용 패턴을 적용하여 상기 미등록 개체명의 의미를 판단하고, 상기 미등록 개체명을 상기 의미에 대응시켜 신규 개체명으로 상기 개체명 사전 DB에 등록하는 개체명 분석부를 포함하는 것을 특징으로 하는 비지도 학습을 통한 개체명 사전 구축 시스템.A document data collection unit collecting document data on the Internet and extracting a category of the document data;
Analyzes sentence structure through natural language processing of document data, and detects one or more usage pattern candidates in which the registered entity name is used for each category in the document data based on the meaning of each category of the registered entity name registered in the entity name dictionary DB And a usage pattern analysis unit that registers a formal usage pattern derived based on a usage frequency of the detected usage pattern candidate in a usage pattern DB for each category; And
Extracts one or more unregistered entity name usage patterns in which the unregistered entity name is used from document data in which the unregistered entity name exists among document data, and officially uses registered in the category-specific usage pattern DB according to the category in the unregistered entity name usage pattern Through unsupervised learning, characterized in that it comprises an entity name analysis unit that determines the meaning of the unregistered entity name by applying a pattern, and registers the entity name dictionary DB as a new entity name by matching the unregistered entity name to the meaning. Entity name dictionary construction system.
상기 사용 패턴 분석부는,
문서 데이터에 대한 자연어 처리 과정을 통해 형태소를 분석하는 자연어 처리부;
개체명 사전 DB에 등록된 등록 개체명의 카테고리별 의미를 기초로 문서 데이터에서 개체명이 사용되는 하나 이상의 사용 패턴 후보를 추출하는 개체명 사용 패턴 추출부; 및
상기 사용 패턴 후보의 사용 빈도를 기초로 하나 이상의 상기 사용 패턴 후보에서 카테고리별 정식 사용 패턴을 선택하여 카테고리별 사용 패턴 DB에 등록하는 정식 사용 패턴 생성부를 포함하는 것을 특징으로 하는 비지도 학습을 통한 개체명 사전 구축 시스템.The method of claim 9,
The usage pattern analysis unit,
A natural language processing unit that analyzes a morpheme through a natural language processing process for document data;
An entity name usage pattern extracting unit that extracts one or more usage pattern candidates in which the entity name is used from document data based on the meaning of each category of the registered entity name registered in the entity name dictionary DB; And
An entity through unsupervised learning, comprising: a formal usage pattern generator for selecting a formal usage pattern for each category from one or more usage pattern candidates based on the usage frequency of the usage pattern candidate and registering it in a usage pattern DB for each category People dictionary building system.
상기 개체명 분석부는,
문서 데이터에서 미등록 개체명이 포함된 문서 데이터를 인식하여 분석 대상 데이터로 추출하는 미등록 개체명 추출부;
상기 분석 대상 데이터에 대한 자연어 처리 과정을 통해 형태소를 분석하는 자연어 처리부;
상기 분석 대상 데이터에서 상기 미등록 개체명이 사용되는 미등록 개체명 사용 패턴에 해당 카테고리에 따라 상기 카테고리별 사용 패턴 DB에 등록된 정식 사용 패턴을 적용하여 상기 미등록 개체명의 의미를 판단하는 미등록 개체명 분석부; 및
상기 미등록 개체명을 상기 의미에 대응시켜 신규 개체명으로 상기 개체명 사전 DB에 등록하는 신규 개체명 등록부를 포함하는 것을 특징으로 하는 비지도 학습을 통한 개체명 사전 구축 시스템.The method of claim 9,
The entity name analysis unit,
An unregistered entity name extracting unit for recognizing document data including an unregistered entity name from the document data and extracting it as analysis target data;
A natural language processing unit for analyzing a morpheme through a natural language processing process for the data to be analyzed;
An unregistered entity name analysis unit that determines the meaning of the unregistered entity name by applying a formal usage pattern registered in the category-specific usage pattern DB according to a corresponding category to an unregistered entity name usage pattern in which the unregistered entity name is used in the analysis target data; And
And a new entity name registration unit for registering the unregistered entity name in the entity name dictionary DB as a new entity name by matching the meaning of the unregistered entity name.
상기 문서 데이터 수집부는,
인터넷 상에서 카테고리가 분류된 문서 데이터 중 개체명을 포함하는 문서 데이터를 수집하는 개체명 수집 봇(Bot)이 구비된 문서 데이터 수집부; 및
수집된 문서 데이터의 카테고리를 인식하고 해당 카테고리별로 문서 데이터를 분류하는 문서 데이터 분류부를 포함하는 것을 특징으로 하는 비지도 학습을 통한 개체명 사전 구축 시스템.The method of claim 9,
The document data collection unit,
A document data collection unit equipped with an entity name collecting bot (Bot) for collecting document data including an entity name among document data categorized on the Internet; And
An entity name dictionary construction system through unsupervised learning, comprising: a document data classification unit that recognizes a category of collected document data and classifies document data by corresponding category.
상기 사용 패턴 DB는,
등록 개체명의 정식 사용 패턴이 카테고리별로 분류되어 저장되며,
상기 개체명 사전 DB는,
등록 개체명과 그 의미가 카테고리별로 분류되어 저장된 것을 특징으로 하는 비지도 학습을 통한 개체명 사전 구축 시스템.
The method of claim 9,
The use pattern DB,
Formal usage patterns of registered entity names are classified and saved by category,
The entity name dictionary DB,
An entity name dictionary construction system through unsupervised learning, characterized in that the registered entity name and its meaning are classified and stored by category.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130151365A KR102196508B1 (en) | 2013-12-06 | 2013-12-06 | Method and system for constructing named entity dictionary of using unsupervised learning |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020130151365A KR102196508B1 (en) | 2013-12-06 | 2013-12-06 | Method and system for constructing named entity dictionary of using unsupervised learning |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20150066160A KR20150066160A (en) | 2015-06-16 |
KR102196508B1 true KR102196508B1 (en) | 2020-12-30 |
Family
ID=53514614
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020130151365A KR102196508B1 (en) | 2013-12-06 | 2013-12-06 | Method and system for constructing named entity dictionary of using unsupervised learning |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102196508B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102375572B1 (en) * | 2020-11-17 | 2022-03-17 | 주식회사 한글과컴퓨터 | Electronic terminal device which automatically creates the training sentences to be used for creating the machine translation model and the operating method thereof |
KR102533008B1 (en) | 2022-12-29 | 2023-05-17 | 월드버텍 주식회사 | Method for detecting private information and measuring data exposure possibility from unstructured data |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102004981B1 (en) * | 2018-03-07 | 2019-07-30 | 주식회사 한글과컴퓨터 | Electronic document editing apparatus for automatically inserting a description of a selected word and operating method thereof |
KR102479043B1 (en) * | 2018-11-02 | 2022-12-20 | 한국전자통신연구원 | Apparatus and method for constructing new named entity dictionary with allomorph based on online encyclopedia |
WO2022114327A1 (en) * | 2020-11-30 | 2022-06-02 | 한국과학기술원 | Method and device for recognizing entity name in input sentence |
KR102590576B1 (en) * | 2023-04-19 | 2023-10-24 | 주식회사 에이오디컨설팅 | Dynamic data structure search method using data semantic classification |
KR102590575B1 (en) * | 2023-04-19 | 2023-10-17 | 주식회사 에이오디컨설팅 | Dynamic data classification method through data structure analysis based on column semantic classification |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004152041A (en) * | 2002-10-31 | 2004-05-27 | Ricoh Co Ltd | Program, recording medium and apparatus for extracting key phrase |
KR101255957B1 (en) | 2011-12-09 | 2013-04-24 | 포항공과대학교 산학협력단 | Method and apparatus for tagging named entity |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6539115B2 (en) * | 1997-02-12 | 2003-03-25 | Fujitsu Limited | Pattern recognition device for performing classification using a candidate table and method thereof |
KR100420096B1 (en) * | 2001-03-09 | 2004-02-25 | 주식회사 다이퀘스트 | Automatic Text Categorization Method Based on Unsupervised Learning, Using Keywords of Each Category and Measurement of the Similarity between Sentences |
KR20050032128A (en) * | 2003-07-16 | 2005-04-07 | 이응렬 | System and method for collecting document/transmitting based on network |
KR101302563B1 (en) | 2009-12-15 | 2013-09-02 | 한국전자통신연구원 | System and method for constructing named entity dictionary |
KR20110129713A (en) * | 2010-05-26 | 2011-12-02 | 김철민 | Onoffmix information service agent, system and method using the same |
KR101333485B1 (en) * | 2010-10-25 | 2013-11-28 | 한국전자통신연구원 | Method for constructing named entities using online encyclopedia and apparatus for performing the same |
-
2013
- 2013-12-06 KR KR1020130151365A patent/KR102196508B1/en active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004152041A (en) * | 2002-10-31 | 2004-05-27 | Ricoh Co Ltd | Program, recording medium and apparatus for extracting key phrase |
KR101255957B1 (en) | 2011-12-09 | 2013-04-24 | 포항공과대학교 산학협력단 | Method and apparatus for tagging named entity |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102375572B1 (en) * | 2020-11-17 | 2022-03-17 | 주식회사 한글과컴퓨터 | Electronic terminal device which automatically creates the training sentences to be used for creating the machine translation model and the operating method thereof |
KR102533008B1 (en) | 2022-12-29 | 2023-05-17 | 월드버텍 주식회사 | Method for detecting private information and measuring data exposure possibility from unstructured data |
Also Published As
Publication number | Publication date |
---|---|
KR20150066160A (en) | 2015-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102196508B1 (en) | Method and system for constructing named entity dictionary of using unsupervised learning | |
CN106776544B (en) | Character relation recognition method and device and word segmentation method | |
CN103336766B (en) | Short text garbage identification and modeling method and device | |
Oudah et al. | A pipeline Arabic named entity recognition using a hybrid approach | |
JP6007088B2 (en) | Question answering program, server and method using a large amount of comment text | |
CN106294396A (en) | Keyword expansion method and keyword expansion system | |
US8639496B2 (en) | System and method for identifying phrases in text | |
KR20100031800A (en) | Method and apparatus for detecting errors of machine translation using parallel corpus | |
CN105426354A (en) | Sentence vector fusion method and apparatus | |
CN104169909A (en) | Context analysis device and context analysis method | |
Khasawneh et al. | Sentiment analysis of Arabic social media content: a comparative study | |
CN103294664A (en) | Method and system for discovering new words in open fields | |
CN102081667A (en) | Chinese text classification method based on Base64 coding | |
CN105183717A (en) | OSN user emotion analysis method based on random forest and user relationship | |
Tran et al. | Automated reference resolution in legal texts | |
CN109101518A (en) | Phonetic transcription text quality appraisal procedure, device, terminal and readable storage medium storing program for executing | |
CN103902619A (en) | Internet public opinion monitoring method and system | |
Qiu et al. | ChineseTR: A weakly supervised toponym recognition architecture based on automatic training data generator and deep neural network | |
US20150286628A1 (en) | Information extraction system, information extraction method, and information extraction program | |
CN107341142B (en) | Enterprise relation calculation method and system based on keyword extraction and analysis | |
Xin et al. | An improved graph model for Chinese spell checking | |
JP5462546B2 (en) | Content detection support apparatus, content detection support method, and content detection support program | |
KR102166102B1 (en) | Device and storage medium for protecting privacy information | |
CN111259661B (en) | New emotion word extraction method based on commodity comments | |
Vinitha et al. | Error detection in indic ocrs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |