KR20100073182A - Neologism selection apparatus and its method - Google Patents
Neologism selection apparatus and its method Download PDFInfo
- Publication number
- KR20100073182A KR20100073182A KR1020080131776A KR20080131776A KR20100073182A KR 20100073182 A KR20100073182 A KR 20100073182A KR 1020080131776 A KR1020080131776 A KR 1020080131776A KR 20080131776 A KR20080131776 A KR 20080131776A KR 20100073182 A KR20100073182 A KR 20100073182A
- Authority
- KR
- South Korea
- Prior art keywords
- keyword
- subject
- priority
- tracking
- new
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
본 발명은 신조어를 선정하여 대역 사전에 반영하는 기법에 관한 것으로, 더욱 상세하게는 신조어 후보에 대응하는 주제에 따라 우선 순위를 결정하여 그 우선 순위에 따라 신조어를 선정하는데 적합한 신조어 선정 장치 및 그 방법에 관한 것이다.The present invention relates to a technique for selecting a new word and reflecting it in a band dictionary. More particularly, the present invention selects a new word based on a priority corresponding to a candidate for a new word and selects a new word according to the priority. It is about.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT 성장동력 핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-037-03, 과제명: 응용특화 한중영 자동번역 기술개발].The present invention is derived from the research conducted as part of the core technology development project of IT growth engine of the Ministry of Knowledge Economy and ICT Research Project. Development].
잘 알려진 바와 같이, 최근 인터넷의 발달로 매일 수많은 사건, 이슈, 화제들이 인터넷을 통해 여러 다른 언어 버전으로 전 세계에 빠르게 전달되어 공유되고 있다.As is well known, with the recent development of the Internet, numerous events, issues, and topics are being delivered and shared worldwide in different languages over the Internet.
이런한 사건, 이슈, 화제 등은 크게 특정 주제의 범주에 속하며, 이런 새로운 주제들로 인해 새로운 용어, 즉 신조어(unknown word)가 탄생하게 되는데, 그 예로서, “6자회담”, “오바마”, “서브프라임 모기지”, “멜라민 파동” 등이 있으며, 그 신조어는 해당 주제를 잘 반영하며, 해당 주제의 키워드가 된다.These events, issues, and topics fall into a broad category of topics, and these new themes give rise to new terms, known words, such as the “Six Party Talks” and “Obama”. , “Subprime mortgages” and “melamine waves,” and the new word reflects the topic well and becomes the keyword of the topic.
이와 같이 대부분의 신조어는 새로운 주제와 밀접히 연관되어 있는데, 종래의 신조어 추출 기법을 살펴보면 다음과 같다.In this way, most new words are closely related to new topics.
통상적으로, 신조어는 여러 가지 유형으로 나누는데, “학사모” 등과 같은 단일 용어도 있고, “멜라민 파동” 등과 같은 복합 용어도 있으며, “6자 회담” 등과 같이 “숫자+용어” 형식도 있는가 하면, “아사다 마오” 등과 같이 외래어를 직역한 인명, 지명 등과 같은 고유 명사도 있다.Typically, new terms are divided into several types, including a single term such as "academia", a complex term such as "melamine wave", and a "number + term" form such as "six-party talks", There are also proper nouns such as names and names translated from foreign languages.
이런 다양한 유형의 신조어를 모두 추출하려면 가능한 조합, 패턴, 형태 등을 고려하게 되는데, 예를 들어, “6자 회담”, “911 테러” 등과 같은 “숫자+용어” 형식의 신조어를 추출하게 되면, “10월 첫주”, “다음달 중순” 등 불 필요한 용어들이 포함되는 단점이 있다.To extract all these different types of new words, we consider possible combinations, patterns, and forms. For example, extracting “numbers + terms” such as “six-party talks” and “911 terrorism”, The disadvantages include unnecessary terms such as “first week of October” and “mid-next month”.
그리고, 인명과 같은 고유명사는 정확히 추정된 신조어라 할지라도 자동 번역 시스템에서 그 사용 빈도가 극히 낮고, 발음 표기(Romanize)와 같은 대역어 생성 방식을 사용하였을 경우, 번역된 문장의 이해도에 큰 영향을 미치지 않기 때문에 신조어의 우선순위가 낮아야 한다. 그러나, "오바마" 등과 같은 유명인의 인명은 사용빈도가 높아 우선적으로 선정해야만 된다.And even proper nouns, such as human names, have very low frequency of use in the automatic translation system, and the use of band word generation methods such as romanization does not significantly affect the comprehension of translated sentences. The new word should have a low priority. However, names of celebrities such as "Obama" are frequently used and must be selected first.
또한, 일부 유용한 신조어는 전체 말뭉치를 대상으로 했을 경우 그 빈도수가 주제 문서들을 대상하였을 경우에 비해 상대적으로 낮아 신조어 선별 작업 과정에 어려움이 있었다.In addition, some useful new words have difficulty in selecting new words when the whole corpus is relatively low compared to the case of the subject documents.
이와 같이 상술한 바와 같은 종래의 신조어 선정 기법에서 다양한 유형에 따른 신조어를 모두 추출할 경우 추출된 대량의 신조어 후보들은 언어학자를 통해 번거로운 필터링 작업을 해야 하는 문제점을 갖고 있고, 발음 표기에 따른 대역어 선정의 경우 번역 이해도를 감소시키는 문제점이 있으며, 전체 말뭉치를 이용하는 경우 신조어 선정에서 누락되는 문제점이 있다.As described above, when extracting all the new words according to various types in the conventional new word selection method, the extracted large number of new word candidates have a problem of cumbersome filtering through linguists, If there is a problem in reducing the translation understanding, there is a problem missing from the selection of new words when using the whole corpus.
또한, 종래에는 용어 사전에 없는 단어를 모두 신조어 후보로 선정하여 언어학자가 그에 대응되는 예문을 보면서 신조어 여부를 판단함으로써, 신조어를 선정하여 대역어 사전에 등록할 경우 그 비용 및 시간이 많이 소요되는 문제점이 있다.In addition, conventionally, all the words that are not in the term dictionary are selected as candidates for new words, and the linguist determines whether they are new words by looking at the example sentences corresponding to them. have.
이에 따라, 본 발명은 신조어 후보를 주제에 기반하여 우선 순위를 결정하고, 그 우선 순위에 따라 신조어를 선정할 수 있는 신조어 선정 장치 및 그 방법을 제공하고자 한다.Accordingly, the present invention is to provide a new word selection device and method that can determine the priority based on the candidate candidates based on the theme, and select a new word according to the priority.
일 관점에서 본 발명은, 입력되는 웹 문서에 대한 형태소 분석을 수행하는 형태소 분석부와, 상기 형태소 분석을 수행한 문장에서 신조어 후보에 대응하는 키워드를 추출하는 키워드 추출부와, 상기 추출된 키워드를 이용하여 주제 탐지 및 주제 추적을 수행하는 주제 탐지 추적부와, 상기 주제 탐지 및 주제 추적을 수행한 상기 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정한 후 상기 결정된 우 선 순위에 따라 신조어를 선정하는 우선 순위 결정부를 포함하는 신조어 선정 장치를 제공한다.In one aspect, the present invention, a morpheme analysis unit for performing a morphological analysis of the input web document, a keyword extraction unit for extracting a keyword corresponding to the candidate candidates in the sentence that performed the morphological analysis, and the extracted keyword A subject detection tracking unit that performs subject detection and subject tracking using the subject detection and the subject keyword weights of the keywords for subject detection and subject tracking, and then selects a new word according to the determined priority. Provided is a coined word selection device including a ranking unit.
다른 관점에서 본 발명은, 입력되는 웹 문서에 대한 형태소 분석을 수행하는 단계와, 상기 형태소 분석을 수행한 문장에서 신조어 후보에 대응하는 키워드를 추출하는 단계와, 상기 추출된 키워드를 이용하여 주제 탐지를 수행하는 단계와, 상기 수행된 주제 탐지에 대한 주제 추적을 수행하는 단계와, 상기 주제 추적을 수행한 상기 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정하는 단계와, 상기 결정된 우선 순위에 따라 신조어를 선정하는 단계를 포함하는 신조어 선정 방법을 제공한다.In another aspect, the present invention, the step of performing a morphological analysis of the input web document, extracting a keyword corresponding to the candidate candidate coinword from the sentence for the morphological analysis, and subject detection using the extracted keywords Determining a priority according to the subject keyword weight of the keyword for which the subject tracking is performed, performing subject tracking on the performed subject detection, and forming a coined word according to the determined priority. It provides a new word selection method comprising the step of selecting.
본 발명은, 다양한 유형에 따른 신조어를 모두 추출하거나 전체 말뭉치를 이용하여 신조어를 선정하거나 대량 추출된 신조어 후보 중 사람이 직접 일일 검토하여 신조어를 선정하는 종래 방법과는 달리, 주제와 밀접히 연관되어 있는 신조어 후보에 대응하는 키워드를 이용하여 주제 탐지 및 추적을 수행하고, 그 주제 키워드 가중치에 따라 신조어의 우선 순위를 결정하고, 이에 따른 신조어를 효과적으로 선정할 수 있다.The present invention, unlike the conventional method of extracting all the new words according to various types or selecting new words using the whole corpus, or by selecting a new word by a person daily review of the newly extracted new word candidates, which is closely related to the subject Subject detection and tracking are performed using keywords corresponding to candidates for new words, priorities of new words are determined according to the weight of the subject keywords, and new words are effectively selected accordingly.
또한, 우선 순위 결정을 위해 주제를 탐지 및 추적함으로써, 주제를 반영 못하는 신조어 후보들을 자동으로 필터링함으로써, 언어학자가 신조어를 신조어 후보로부터 선별해야 하는 시간과 노력을 획기적으로 줄일 수 있다.In addition, by detecting and tracking a subject for prioritization, it automatically filters candidate candidates that do not reflect the subject, dramatically reducing the time and effort required for linguists to select new words from candidates.
본 발명은, 입력되는 웹 문서에 대해 형태소 분석을 수행하고, 형태소 분석된 문장에서 신조어 후보에 대한 키워드를 추출하며, 추출된 키워드를 이용하여 주제 탐지 및 추적을 수행한 후에, 신조어 후보에 대응하는 주제 키워드 가중치에 따라 우선 순위를 결정하고, 결정된 우선 순위에 따라 신조어를 선정한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.According to the present invention, after performing a morphological analysis on an input web document, extracting a keyword for a new word candidate from a morphologically analyzed sentence, and performing subject detection and tracking using the extracted keyword, the word corresponding to the new word candidate Priority is determined according to the subject keyword weights, and new words are selected according to the determined priorities, and problems in the related art can be solved through such technical means.
이하 첨부된 도면을 참조하여 본 발명의 실시 예에 대하여 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 본 발명의 실시 예에 따라 신조어 후보의 주제 키워드 가중치에 대한 우선 순위에 따라 신조어를 선정하는데 적합한 신조어 선정 장치의 블록 구성도로서, 형태소 분석부(102), 형태소 사전 데이터베이스(104), 키워드 추출부(106), 주제 탐지 추적부(108), 우선 순위 결정부(110) 등을 포함할 수 있다. 여기에서, 본 발명에서 신조어를 선정하는데 있어 다양한 웹 사이트, 포털 사이트 등에 게시되어 있는 웹 문서를 이용할 수 있는데, 이하에서는 신문사 웹 사이트, 포털 사이트 등에 게시되어 있는 뉴스 기사를 이용하여 신조어를 선정하는 것으로 하여 설명한다.1 is a block diagram of a new word selecting apparatus suitable for selecting a new word according to a priority of a subject keyword weight of a new word candidate according to an embodiment of the present invention, the
도 1을 참조하면, 형태소 분석부(102)는 입력되는 웹 문서, 예를 들어 뉴스 기사 등에 대한 형태소 분석을 수행하는 것으로, 다수의 신문사 웹사이트, 포털 사이트 등에 게시되어 있는 뉴스 기사 등의 분류 체계에 따라 입력되는 분류 체계별 기사에 대한 형태소 분석을 수행한다. 이러한 분류 체계별 기사는 국제, 사회, 정치, 스포츠, 통신 등 분류 체계에 따라 매일 매일 업데이트되어 신문사 웹사이트, 포털 사이트 등에 게시되며, 이러한 기사들이 텍스트 형식으로 입력되면, 형태소 사전 데이터베이스(104)의 형태소 사전을 참조하여 형태소 분석을 수행함으로써, 각 문장 내 단어들의 품사 정보를 알 수 있다.Referring to FIG. 1, the
그리고, 키워드 추출부(106)는 형태소 분석된 문장에서 신조어 후보자에 대응하는 키워드를 추출하는 것으로, 형태소 분석부(102)를 통해 형태소 분석된 문장에서 단일어, 복합어, 숫자+용어 조합 등 다양한 형태의 키워드를 신조어 후보자로 추출한다. 이러한 키워드는 예를 들면, 정보 검색(information retrieval) 분야, 텍스트 마이닝(text mining) 분야 등에서 형태소 분석된 문장 중 불용어(stop word)를 제외한 나머지 용어들뿐만 아니라 대역어 사전에 있는 용어, 사전에 없는 미등록 용어 등을 추출할 수 있다.The
다음에, 주제 탐지 추적부(108)는 추출된 키워드에 대응하는 주제를 탐지 및 추적하는 것으로, 키워드 추출부(106)를 통해 추출된 키워드를 이용하여 주제를 탐지하고 추적한다. 여기에서, 주제 탐지는 다수의 뉴스 기사에서 기술된 새로운 주제(예를 들면, 사건, 이슈, 화제 등), 기존 주제의 진행 과정 등을 검출하여 해당 뉴스 기사와 기존 주제를 비교한 후, 그 비교 결과 서로간의 유사도가 상대적으로 낮으면 새로운 주제를 탐지하는 방식으로 수행되고, 주제 추적은 해당 뉴스 기사와 기존 주제를 비교한 후, 그 비교 결과 서로간의 유사도가 상대적으로 높으면 주제를 추적하는 방식으로 수행될 수 있다. 즉, 주제 탐지는 문서 분류와 유사한 방식 으로 수행되며, 주제 추적은 탐지된 주제를 다루는 기사를 지속적으로 모니터링하는 방식으로 수행될 수 있다.Next, the subject
또한, 키워드에 이용하여 주제 탐지 및 추적을 수행할 경우 같은 주제를 다루는 뉴스 기사들이 클러스터(cluster)를 형성할 수 있고, 이러한 클러스터는 다른 주제 클러스터와 구분될 수 있는 속성(feature)들을 포함할 수 있다.In addition, subject detection and tracking using keywords can form clusters of news articles covering the same subject, and these clusters can contain features that can be distinguished from other subject clusters. have.
한편, 우선 순위 결정부(110)는 탐지 및 추적된 주제를 이용하여 우선 순위를 결정하고, 결정된 우선 순위에 따라 신조어를 선정하는 것으로, 주제 탐지 추적부(108)를 통해 탐지 및 추적된 주제를 이용하여 신조어 후보에 대응하는 키워드의 주제 키워드 가중치를 기반으로 우선 순위를 결정하고, 그 우선 순위에 따라 가장 순위가 높은 신조어 후보를 신조어로 선정한다.Meanwhile, the priority determiner 110 determines a priority by using the detected and tracked subjects, and selects a new word according to the determined priority, and detects the subjects detected and tracked through the
여기에서, 예를 들면, 텍스트 마이닝 분야 등에서 다른 주제 클러스터와 구분되는 속성들은 키워드에 의해 이루어지게 되는데, 한 클러스터에 잘 뭉쳐있는 키워드일수록 클러스터의 중요한 속성으로 사용될 수 있으며, 주제의 관점에서는 주제를 잘 반영한 키워드가 되고, 이런 클러스터의 키워드들은 가중치로 그 중요도를 나타내는데, 그 가중치는 용어 빈도수(term frequency), 역문헌 빈도수(inverse document frequency) 등을 이용하여 산출될 수 있으며, 용어 빈도수는 한 문서에서 해당 키워드가 등장한 총 빈도수를 의미하며, 역문헌 빈도수는 전체 문서 집합에서 해당 키워드가 등장한 문서의 개수에 대한 역수를 의미한다.Here, for example, attributes distinguished from other subject clusters in the field of text mining are made by keywords. Keywords that are well grouped in one cluster may be used as important attributes of the cluster. The keywords of the clusters represent their importance as weights. The weights can be calculated using term frequency, inverse document frequency, and term frequency in one document. The total frequency of the corresponding keyword is displayed, and the reverse document frequency is the inverse of the number of documents in which the keyword appears in the entire document set.
또한, 다른 클러스터와 분별력이 없는 키워드나, 가중치가 상대적으로 매우 낮아 클러스터의 속성으로 사용될 수 없는 키워드를 제외한 키워드 중 신조어 후보 자에 대해 추출함으로써, 신조어 선정을 위한 우선 순위가 결정된다.In addition, the priority for selecting a new word is determined by extracting a new word candidate among keywords except for a keyword that does not have discrimination with other clusters or a keyword whose weight is relatively low and thus cannot be used as an attribute of the cluster.
다음에, 상술한 바와 같은 구성을 갖는 신조어 선정 장치에서 입력되는 뉴스 기사에 대해 형태소 분석을 수행하고, 형태소 분석된 문장에서 신조어 후보에 대한 키워드를 추출하며, 추출된 키워드를 이용하여 주제 탐지 및 추적을 수행한 후에, 신조어 후보에 대응하는 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정하고, 결정된 우선 순위에 따라 신조어를 선정하는 과정에 대해 설명한다.Next, the morphological analysis is performed on the news article inputted by the coinage selection device having the above-described configuration, the keywords for the candidates for the coined words are extracted from the morphologically analyzed sentences, and the subject is detected and tracked using the extracted keywords. After performing the above, the process of determining the priority according to the subject keyword weight of the keyword corresponding to the new word candidate and selecting the new word according to the determined priority will be described.
도 2는 본 발명의 일 실시 예에 따라 신조어 후보의 주제 키워드 가중치에 대한 우선 순위에 따라 신조어를 선정하는 과정을 도시한 플로우차트이다.2 is a flowchart illustrating a process of selecting a new word based on a priority of a subject keyword weight of a new word candidate according to an embodiment of the present invention.
도 2를 참조하면, 신조어 선정 장치의 형태소 분석부(102)에 분류 체계에 따른 뉴스 기사가 입력되면(단계202), 형태소 분석부(102)에서는 입력된 뉴스 기사에 대해 형태소 사전을 참조하여 형태소 분석을 수행한다(단계204). 이러한 형태소 분석을 통해 각 문장 내 단어들의 품사 정보를 알 수 있다.Referring to FIG. 2, when a news article according to a classification scheme is input to the
그리고, 키워드 추출부(106)에서는 형태소 분석부(102)를 통해 형태소 분석된 문장에서 단일어, 복합어, 숫자+용어 조합 등 다양한 형태의 키워드를 신조어 후보자로 추출한다(단계206). 이러한 키워드는 예를 들면, 정보 검색 분야, 텍스트 마이닝 분야 등에서 형태소 분석된 문장 중 불용어를 제외한 나머지 용어들뿐만 아니라 대역어 사전에 있는 용어, 사전에 없는 미등록 용어 등을 추출할 수 있다.In
다음에, 주제 탐지 추적부(108)에서는 키워드 추출부(106)를 통해 추출된 키워드를 이용하여 주제 탐지를 수행한다(단계208). 여기에서, 주제 탐지는 다수의 뉴스 기사에서 기술된 새로운 주제, 기존 주제의 진행 과정 등을 검출하고, 해당 뉴스 기사와 기존 주제를 비교한 후, 그 비교 결과 서로간의 유사도가 상대적으로 낮은 주제를 탐지하는 방식으로 수행될 수 있다.Next, the subject
또한, 주제 탐지 추적부(108)는 다수의 뉴스 기사에서 기술된 새로운 주제, 기존 주제의 진행 과정 등을 검출하여 탐지된 주제에 대해 해당 뉴스 기사와 기존 주제를 비교한 후, 그 비교 결과 서로간의 유사도가 상대적으로 높은 주제를 추적하는 등의 방식으로 주제 추적을 수행한다(단계210). 여기에서, 키워드에 이용하여 주제 탐지 및 추적을 수행할 경우 같은 주제를 다루는 뉴스 기사들이 클러스터를 형성할 수 있고, 이러한 클러스터는 다른 주제 클러스터와 구분될 수 있는 속성들을 포함할 수 있다.In addition, the topic
한편, 우선 순위 결정부(110)에서는 주제 탐지 추적부(108)를 통해 탐지 및 추적된 주제를 이용하여 신조어 후보에 대응하는 키워드의 주제 키워드 가중치를 기반으로 우선 순위를 결정한다(단계212). 여기에서, 주제를 잘 반영한 클러스터의 키워드들은 용어 빈도수, 역문헌 빈도수 등을 이용하여 산출되는 가중치에 따라 우선 순위를 결정할 수 있으며, 다른 클러스터와 분별력이 없는 키워드나, 가중치가 상대적으로 매우 낮아 클러스터의 속성으로 사용될 수 없는 키워드를 제외한 키워드 중 신조어 후보자에 대해 추출함으로써, 신조어 선정을 위한 우선 순위가 결정될 수 있다.Meanwhile, the
이어서, 우선 순위 결정부(110)에서는 우선 순위에 따라 가장 순위가 높은 신조어 후보를 신조어로 선정한다(단계214). 여기에서 선정된 신조어는 예를 들면, 대역어 사전 등에 반영될 수 있다.Subsequently, the
따라서, 형태소 분석된 문장에서 신조어 후보에 대한 키워드를 추출하여 주제 탐지 및 추적을 수행한 후에, 그 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정하고, 결정된 우선 순위에 따라 신조어를 선정함으로써, 신조어를 선정하여 효과적으로 대역어 사전에 반영할 수 있다.Therefore, after extracting a keyword for a candidate for a new word from a stemmed sentence, performing subject detection and tracking, priorities are determined according to the subject keyword weight of the keyword, and new words are selected according to the determined priority. It can be selected and effectively reflected in the bandword dictionary.
이상의 설명에서는 본 발명의 다양한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.In the foregoing description, various embodiments of the present invention have been described and described. However, the present invention is not necessarily limited thereto, and a person having ordinary skill in the art to which the present invention pertains can make various changes without departing from the technical spirit of the present invention. It will be readily appreciated that branch substitutions, modifications and variations are possible.
도 1은 본 발명의 실시 예에 따라 신조어 후보의 출현 빈도수에 대한 우선 순위에 따라 신조어를 선정하는데 적합한 신조어 선정 장치의 블록 구성도,1 is a block diagram of a new word selecting apparatus suitable for selecting a new word according to a priority of a frequency of occurrence of a new word candidate according to an embodiment of the present invention;
도 2는 본 발명의 일 실시 예에 따라 신조어 후보의 출현 빈도수에 대한 우선 순위에 따라 신조어를 선정하는 과정을 도시한 플로우차트.2 is a flowchart illustrating a process of selecting a new word according to a priority of a frequency of occurrence of a new word candidate according to an embodiment of the present invention.
<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>
102 : 형태소 분석부 104 : 형태소 사전 데이터베이스102: morphological analysis unit 104: morphological dictionary database
106 : 키워드 추출부 108 : 주제 탐지 추적부106: keyword extraction unit 108: subject detection tracking unit
110 : 우선 순위 결정부110: priority determination unit
Claims (11)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080131776A KR101120038B1 (en) | 2008-12-22 | 2008-12-22 | Neologism selection apparatus and its method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020080131776A KR101120038B1 (en) | 2008-12-22 | 2008-12-22 | Neologism selection apparatus and its method |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100073182A true KR20100073182A (en) | 2010-07-01 |
KR101120038B1 KR101120038B1 (en) | 2012-03-23 |
Family
ID=42636178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020080131776A KR101120038B1 (en) | 2008-12-22 | 2008-12-22 | Neologism selection apparatus and its method |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101120038B1 (en) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101354611B1 (en) * | 2012-05-15 | 2014-01-23 | 주식회사 다음커뮤니케이션 | Method and apparatus for selecting neologism |
KR20180104899A (en) * | 2017-03-14 | 2018-09-27 | 한국전자통신연구원 | On-line contextual advertisement intelligence apparatus and method based on language analysis for automatically recognizes about coined word |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102422923B1 (en) | 2020-11-13 | 2022-07-20 | 한국방송통신대학교 산학협력단 | Sentiment analysis apparatus and controlling method thereof, and newly-coined word and emotion extraction apparatus |
KR102479955B1 (en) | 2021-02-02 | 2022-12-21 | 한국방송통신대학교 산학협력단 | Apparatus and method for establishing newly-coined word and emotion dictionary |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100420096B1 (en) * | 2001-03-09 | 2004-02-25 | 주식회사 다이퀘스트 | Automatic Text Categorization Method Based on Unsupervised Learning, Using Keywords of Each Category and Measurement of the Similarity between Sentences |
KR100682897B1 (en) * | 2004-11-09 | 2007-02-15 | 삼성전자주식회사 | Method and apparatus for updating dictionary |
-
2008
- 2008-12-22 KR KR1020080131776A patent/KR101120038B1/en not_active IP Right Cessation
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101354611B1 (en) * | 2012-05-15 | 2014-01-23 | 주식회사 다음커뮤니케이션 | Method and apparatus for selecting neologism |
KR20180104899A (en) * | 2017-03-14 | 2018-09-27 | 한국전자통신연구원 | On-line contextual advertisement intelligence apparatus and method based on language analysis for automatically recognizes about coined word |
US10691892B2 (en) | 2017-03-14 | 2020-06-23 | Electronics And Telecommunications Research Institute | Online contextual advertisement intellectualization apparatus and method based on language analysis for automatically recognizing coined word |
Also Published As
Publication number | Publication date |
---|---|
KR101120038B1 (en) | 2012-03-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hoffart et al. | Discovering emerging entities with ambiguous names | |
Zhang et al. | Entity linking leveraging automatically generated annotation | |
US11531818B2 (en) | Device and method for machine reading comprehension question and answer | |
US7424421B2 (en) | Word collection method and system for use in word-breaking | |
Bowden et al. | Slugnerds: A named entity recognition tool for open domain dialogue systems | |
Al-Taani et al. | An extractive graph-based Arabic text summarization approach | |
Cagliero et al. | ELSA: A multilingual document summarization algorithm based on frequent itemsets and latent semantic analysis | |
Palakodety et al. | Mining insights from large-scale corpora using fine-tuned language models | |
Dahab et al. | A comparative study on Arabic stemmers | |
WO2015080558A1 (en) | A method and system for automated entity recognition | |
KR101541306B1 (en) | Computer enabled method of important keyword extraction, server performing the same and storage media storing the same | |
KR101651780B1 (en) | Method and system for extracting association words exploiting big data processing technologies | |
KR101120038B1 (en) | Neologism selection apparatus and its method | |
KR101092354B1 (en) | Compound noun recognition apparatus and its method | |
Salah et al. | Arabic rule-based named entity recognition systems progress and challenges | |
Rasheed et al. | Query expansion in information retrieval for Urdu language | |
US10318565B2 (en) | Method and system for searching phrase concepts in documents | |
Chaibi et al. | Topic segmentation for textual document written in arabic language | |
CN110532551A (en) | Method, equipment and the storage medium that text key word automatically extracts | |
Muhammad et al. | EUTS: extractive Urdu text summarizer | |
Rocha et al. | PAMPO: using pattern matching and pos-tagging for effective Named Entities recognition in Portuguese | |
Rofiq | Indonesian news extractive text summarization using latent semantic analysis | |
Lindemann et al. | Building corpus-based frequency lemma lists | |
Fareed et al. | Syntactic open domain Arabic question/answering system for factoid questions | |
Boos et al. | Identification of Multiword Expressions in the brWaC. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |