KR20100073182A - Neologism selection apparatus and its method - Google Patents

Neologism selection apparatus and its method Download PDF

Info

Publication number
KR20100073182A
KR20100073182A KR1020080131776A KR20080131776A KR20100073182A KR 20100073182 A KR20100073182 A KR 20100073182A KR 1020080131776 A KR1020080131776 A KR 1020080131776A KR 20080131776 A KR20080131776 A KR 20080131776A KR 20100073182 A KR20100073182 A KR 20100073182A
Authority
KR
South Korea
Prior art keywords
keyword
subject
priority
tracking
new
Prior art date
Application number
KR1020080131776A
Other languages
Korean (ko)
Other versions
KR101120038B1 (en
Inventor
김운
최승권
김창현
권오욱
이기영
황금하
양성일
노윤형
서영애
윤창호
오영순
박은진
김영길
박상규
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080131776A priority Critical patent/KR101120038B1/en
Publication of KR20100073182A publication Critical patent/KR20100073182A/en
Application granted granted Critical
Publication of KR101120038B1 publication Critical patent/KR101120038B1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

PURPOSE: A neologism selection device and a method thereof are provided to determine priority of neologism candidate based on a theme and select neologism according to the priority. CONSTITUTION: A morpheme analyzer(102) performs morphological analysis about input web document. A keyword extractor(106) extracts a keyword corresponding to neologism candidate from analyzed sentence. A subject detecting and tracking unit(108) performs theme detection and theme tracking through the extracted keyword. According to a subject keyword weight of the keyword, a priority determination unit(110) selects neologism according to the priority after determination of priority.

Description

신조어 선정 장치 및 그 방법{NEOLOGISM SELECTION APPARATUS AND ITS METHOD}New word selector and its method {NEOLOGISM SELECTION APPARATUS AND ITS METHOD}

본 발명은 신조어를 선정하여 대역 사전에 반영하는 기법에 관한 것으로, 더욱 상세하게는 신조어 후보에 대응하는 주제에 따라 우선 순위를 결정하여 그 우선 순위에 따라 신조어를 선정하는데 적합한 신조어 선정 장치 및 그 방법에 관한 것이다.The present invention relates to a technique for selecting a new word and reflecting it in a band dictionary. More particularly, the present invention selects a new word based on a priority corresponding to a candidate for a new word and selects a new word according to the priority. It is about.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT 성장동력 핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-037-03, 과제명: 응용특화 한중영 자동번역 기술개발].The present invention is derived from the research conducted as part of the core technology development project of IT growth engine of the Ministry of Knowledge Economy and ICT Research Project. Development].

잘 알려진 바와 같이, 최근 인터넷의 발달로 매일 수많은 사건, 이슈, 화제들이 인터넷을 통해 여러 다른 언어 버전으로 전 세계에 빠르게 전달되어 공유되고 있다.As is well known, with the recent development of the Internet, numerous events, issues, and topics are being delivered and shared worldwide in different languages over the Internet.

이런한 사건, 이슈, 화제 등은 크게 특정 주제의 범주에 속하며, 이런 새로운 주제들로 인해 새로운 용어, 즉 신조어(unknown word)가 탄생하게 되는데, 그 예로서, “6자회담”, “오바마”, “서브프라임 모기지”, “멜라민 파동” 등이 있으며, 그 신조어는 해당 주제를 잘 반영하며, 해당 주제의 키워드가 된다.These events, issues, and topics fall into a broad category of topics, and these new themes give rise to new terms, known words, such as the “Six Party Talks” and “Obama”. , “Subprime mortgages” and “melamine waves,” and the new word reflects the topic well and becomes the keyword of the topic.

이와 같이 대부분의 신조어는 새로운 주제와 밀접히 연관되어 있는데, 종래의 신조어 추출 기법을 살펴보면 다음과 같다.In this way, most new words are closely related to new topics.

통상적으로, 신조어는 여러 가지 유형으로 나누는데, “학사모” 등과 같은 단일 용어도 있고, “멜라민 파동” 등과 같은 복합 용어도 있으며, “6자 회담” 등과 같이 “숫자+용어” 형식도 있는가 하면, “아사다 마오” 등과 같이 외래어를 직역한 인명, 지명 등과 같은 고유 명사도 있다.Typically, new terms are divided into several types, including a single term such as "academia", a complex term such as "melamine wave", and a "number + term" form such as "six-party talks", There are also proper nouns such as names and names translated from foreign languages.

이런 다양한 유형의 신조어를 모두 추출하려면 가능한 조합, 패턴, 형태 등을 고려하게 되는데, 예를 들어, “6자 회담”, “911 테러” 등과 같은 “숫자+용어” 형식의 신조어를 추출하게 되면, “10월 첫주”, “다음달 중순” 등 불 필요한 용어들이 포함되는 단점이 있다.To extract all these different types of new words, we consider possible combinations, patterns, and forms. For example, extracting “numbers + terms” such as “six-party talks” and “911 terrorism”, The disadvantages include unnecessary terms such as “first week of October” and “mid-next month”.

그리고, 인명과 같은 고유명사는 정확히 추정된 신조어라 할지라도 자동 번역 시스템에서 그 사용 빈도가 극히 낮고, 발음 표기(Romanize)와 같은 대역어 생성 방식을 사용하였을 경우, 번역된 문장의 이해도에 큰 영향을 미치지 않기 때문에 신조어의 우선순위가 낮아야 한다. 그러나, "오바마" 등과 같은 유명인의 인명은 사용빈도가 높아 우선적으로 선정해야만 된다.And even proper nouns, such as human names, have very low frequency of use in the automatic translation system, and the use of band word generation methods such as romanization does not significantly affect the comprehension of translated sentences. The new word should have a low priority. However, names of celebrities such as "Obama" are frequently used and must be selected first.

또한, 일부 유용한 신조어는 전체 말뭉치를 대상으로 했을 경우 그 빈도수가 주제 문서들을 대상하였을 경우에 비해 상대적으로 낮아 신조어 선별 작업 과정에 어려움이 있었다.In addition, some useful new words have difficulty in selecting new words when the whole corpus is relatively low compared to the case of the subject documents.

이와 같이 상술한 바와 같은 종래의 신조어 선정 기법에서 다양한 유형에 따른 신조어를 모두 추출할 경우 추출된 대량의 신조어 후보들은 언어학자를 통해 번거로운 필터링 작업을 해야 하는 문제점을 갖고 있고, 발음 표기에 따른 대역어 선정의 경우 번역 이해도를 감소시키는 문제점이 있으며, 전체 말뭉치를 이용하는 경우 신조어 선정에서 누락되는 문제점이 있다.As described above, when extracting all the new words according to various types in the conventional new word selection method, the extracted large number of new word candidates have a problem of cumbersome filtering through linguists, If there is a problem in reducing the translation understanding, there is a problem missing from the selection of new words when using the whole corpus.

또한, 종래에는 용어 사전에 없는 단어를 모두 신조어 후보로 선정하여 언어학자가 그에 대응되는 예문을 보면서 신조어 여부를 판단함으로써, 신조어를 선정하여 대역어 사전에 등록할 경우 그 비용 및 시간이 많이 소요되는 문제점이 있다.In addition, conventionally, all the words that are not in the term dictionary are selected as candidates for new words, and the linguist determines whether they are new words by looking at the example sentences corresponding to them. have.

이에 따라, 본 발명은 신조어 후보를 주제에 기반하여 우선 순위를 결정하고, 그 우선 순위에 따라 신조어를 선정할 수 있는 신조어 선정 장치 및 그 방법을 제공하고자 한다.Accordingly, the present invention is to provide a new word selection device and method that can determine the priority based on the candidate candidates based on the theme, and select a new word according to the priority.

일 관점에서 본 발명은, 입력되는 웹 문서에 대한 형태소 분석을 수행하는 형태소 분석부와, 상기 형태소 분석을 수행한 문장에서 신조어 후보에 대응하는 키워드를 추출하는 키워드 추출부와, 상기 추출된 키워드를 이용하여 주제 탐지 및 주제 추적을 수행하는 주제 탐지 추적부와, 상기 주제 탐지 및 주제 추적을 수행한 상기 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정한 후 상기 결정된 우 선 순위에 따라 신조어를 선정하는 우선 순위 결정부를 포함하는 신조어 선정 장치를 제공한다.In one aspect, the present invention, a morpheme analysis unit for performing a morphological analysis of the input web document, a keyword extraction unit for extracting a keyword corresponding to the candidate candidates in the sentence that performed the morphological analysis, and the extracted keyword A subject detection tracking unit that performs subject detection and subject tracking using the subject detection and the subject keyword weights of the keywords for subject detection and subject tracking, and then selects a new word according to the determined priority. Provided is a coined word selection device including a ranking unit.

다른 관점에서 본 발명은, 입력되는 웹 문서에 대한 형태소 분석을 수행하는 단계와, 상기 형태소 분석을 수행한 문장에서 신조어 후보에 대응하는 키워드를 추출하는 단계와, 상기 추출된 키워드를 이용하여 주제 탐지를 수행하는 단계와, 상기 수행된 주제 탐지에 대한 주제 추적을 수행하는 단계와, 상기 주제 추적을 수행한 상기 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정하는 단계와, 상기 결정된 우선 순위에 따라 신조어를 선정하는 단계를 포함하는 신조어 선정 방법을 제공한다.In another aspect, the present invention, the step of performing a morphological analysis of the input web document, extracting a keyword corresponding to the candidate candidate coinword from the sentence for the morphological analysis, and subject detection using the extracted keywords Determining a priority according to the subject keyword weight of the keyword for which the subject tracking is performed, performing subject tracking on the performed subject detection, and forming a coined word according to the determined priority. It provides a new word selection method comprising the step of selecting.

본 발명은, 다양한 유형에 따른 신조어를 모두 추출하거나 전체 말뭉치를 이용하여 신조어를 선정하거나 대량 추출된 신조어 후보 중 사람이 직접 일일 검토하여 신조어를 선정하는 종래 방법과는 달리, 주제와 밀접히 연관되어 있는 신조어 후보에 대응하는 키워드를 이용하여 주제 탐지 및 추적을 수행하고, 그 주제 키워드 가중치에 따라 신조어의 우선 순위를 결정하고, 이에 따른 신조어를 효과적으로 선정할 수 있다.The present invention, unlike the conventional method of extracting all the new words according to various types or selecting new words using the whole corpus, or by selecting a new word by a person daily review of the newly extracted new word candidates, which is closely related to the subject Subject detection and tracking are performed using keywords corresponding to candidates for new words, priorities of new words are determined according to the weight of the subject keywords, and new words are effectively selected accordingly.

또한, 우선 순위 결정을 위해 주제를 탐지 및 추적함으로써, 주제를 반영 못하는 신조어 후보들을 자동으로 필터링함으로써, 언어학자가 신조어를 신조어 후보로부터 선별해야 하는 시간과 노력을 획기적으로 줄일 수 있다.In addition, by detecting and tracking a subject for prioritization, it automatically filters candidate candidates that do not reflect the subject, dramatically reducing the time and effort required for linguists to select new words from candidates.

본 발명은, 입력되는 웹 문서에 대해 형태소 분석을 수행하고, 형태소 분석된 문장에서 신조어 후보에 대한 키워드를 추출하며, 추출된 키워드를 이용하여 주제 탐지 및 추적을 수행한 후에, 신조어 후보에 대응하는 주제 키워드 가중치에 따라 우선 순위를 결정하고, 결정된 우선 순위에 따라 신조어를 선정한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.According to the present invention, after performing a morphological analysis on an input web document, extracting a keyword for a new word candidate from a morphologically analyzed sentence, and performing subject detection and tracking using the extracted keyword, the word corresponding to the new word candidate Priority is determined according to the subject keyword weights, and new words are selected according to the determined priorities, and problems in the related art can be solved through such technical means.

이하 첨부된 도면을 참조하여 본 발명의 실시 예에 대하여 상세하게 설명한다.Hereinafter, embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 본 발명의 실시 예에 따라 신조어 후보의 주제 키워드 가중치에 대한 우선 순위에 따라 신조어를 선정하는데 적합한 신조어 선정 장치의 블록 구성도로서, 형태소 분석부(102), 형태소 사전 데이터베이스(104), 키워드 추출부(106), 주제 탐지 추적부(108), 우선 순위 결정부(110) 등을 포함할 수 있다. 여기에서, 본 발명에서 신조어를 선정하는데 있어 다양한 웹 사이트, 포털 사이트 등에 게시되어 있는 웹 문서를 이용할 수 있는데, 이하에서는 신문사 웹 사이트, 포털 사이트 등에 게시되어 있는 뉴스 기사를 이용하여 신조어를 선정하는 것으로 하여 설명한다.1 is a block diagram of a new word selecting apparatus suitable for selecting a new word according to a priority of a subject keyword weight of a new word candidate according to an embodiment of the present invention, the morpheme analysis unit 102, the morpheme dictionary database 104, The keyword extractor 106, the subject detection tracker 108, and the priority determiner 110 may be included. Here, in selecting a new word in the present invention, a web document posted on various websites, portal sites, and the like can be used. Hereinafter, a new word is selected using a news article posted on a newspaper web site or a portal site. Will be explained.

도 1을 참조하면, 형태소 분석부(102)는 입력되는 웹 문서, 예를 들어 뉴스 기사 등에 대한 형태소 분석을 수행하는 것으로, 다수의 신문사 웹사이트, 포털 사이트 등에 게시되어 있는 뉴스 기사 등의 분류 체계에 따라 입력되는 분류 체계별 기사에 대한 형태소 분석을 수행한다. 이러한 분류 체계별 기사는 국제, 사회, 정치, 스포츠, 통신 등 분류 체계에 따라 매일 매일 업데이트되어 신문사 웹사이트, 포털 사이트 등에 게시되며, 이러한 기사들이 텍스트 형식으로 입력되면, 형태소 사전 데이터베이스(104)의 형태소 사전을 참조하여 형태소 분석을 수행함으로써, 각 문장 내 단어들의 품사 정보를 알 수 있다.Referring to FIG. 1, the morpheme analysis unit 102 performs morphological analysis on an input web document, for example, a news article, and includes a classification system of news articles posted on a plurality of newspaper websites, portal sites, and the like. Morphological analysis is performed on articles by classification system. The articles according to the classification system are updated every day according to the classification system such as international, social, political, sports, and communication, and are posted on newspaper websites, portal sites, and the like. By performing the morpheme analysis with reference to the morpheme dictionary, the parts of speech information of the words in each sentence can be known.

그리고, 키워드 추출부(106)는 형태소 분석된 문장에서 신조어 후보자에 대응하는 키워드를 추출하는 것으로, 형태소 분석부(102)를 통해 형태소 분석된 문장에서 단일어, 복합어, 숫자+용어 조합 등 다양한 형태의 키워드를 신조어 후보자로 추출한다. 이러한 키워드는 예를 들면, 정보 검색(information retrieval) 분야, 텍스트 마이닝(text mining) 분야 등에서 형태소 분석된 문장 중 불용어(stop word)를 제외한 나머지 용어들뿐만 아니라 대역어 사전에 있는 용어, 사전에 없는 미등록 용어 등을 추출할 수 있다.The keyword extractor 106 extracts a keyword corresponding to a new word candidate from the morphologically analyzed sentence. The keyword extractor 106 extracts a keyword corresponding to a new word candidate from the morphologically analyzed sentence. Extract keywords as new word candidates. These keywords may include, for example, terms in the verbal dictionary, unregistered words in the dictionary as well as other terms except for stop words in stemmed sentences in the fields of information retrieval, text mining, etc. Terms and the like can be extracted.

다음에, 주제 탐지 추적부(108)는 추출된 키워드에 대응하는 주제를 탐지 및 추적하는 것으로, 키워드 추출부(106)를 통해 추출된 키워드를 이용하여 주제를 탐지하고 추적한다. 여기에서, 주제 탐지는 다수의 뉴스 기사에서 기술된 새로운 주제(예를 들면, 사건, 이슈, 화제 등), 기존 주제의 진행 과정 등을 검출하여 해당 뉴스 기사와 기존 주제를 비교한 후, 그 비교 결과 서로간의 유사도가 상대적으로 낮으면 새로운 주제를 탐지하는 방식으로 수행되고, 주제 추적은 해당 뉴스 기사와 기존 주제를 비교한 후, 그 비교 결과 서로간의 유사도가 상대적으로 높으면 주제를 추적하는 방식으로 수행될 수 있다. 즉, 주제 탐지는 문서 분류와 유사한 방식 으로 수행되며, 주제 추적은 탐지된 주제를 다루는 기사를 지속적으로 모니터링하는 방식으로 수행될 수 있다.Next, the subject detection tracking unit 108 detects and tracks a subject corresponding to the extracted keyword, and detects and tracks a subject using the extracted keyword through the keyword extracting unit 106. Here, subject detection detects a new topic (eg, an event, an issue, a topic, etc.) or a progress of an existing topic described in a plurality of news articles, compares the news article with an existing topic, and then compares the news article. If the similarity between the results is relatively low, a new topic is detected. The topic tracking is performed by comparing the news article with an existing topic. If the comparison is relatively high, the topic is tracked. Can be. In other words, subject detection is performed in a similar way to document classification, and subject tracking can be performed by continuously monitoring articles that cover the detected subject.

또한, 키워드에 이용하여 주제 탐지 및 추적을 수행할 경우 같은 주제를 다루는 뉴스 기사들이 클러스터(cluster)를 형성할 수 있고, 이러한 클러스터는 다른 주제 클러스터와 구분될 수 있는 속성(feature)들을 포함할 수 있다.In addition, subject detection and tracking using keywords can form clusters of news articles covering the same subject, and these clusters can contain features that can be distinguished from other subject clusters. have.

한편, 우선 순위 결정부(110)는 탐지 및 추적된 주제를 이용하여 우선 순위를 결정하고, 결정된 우선 순위에 따라 신조어를 선정하는 것으로, 주제 탐지 추적부(108)를 통해 탐지 및 추적된 주제를 이용하여 신조어 후보에 대응하는 키워드의 주제 키워드 가중치를 기반으로 우선 순위를 결정하고, 그 우선 순위에 따라 가장 순위가 높은 신조어 후보를 신조어로 선정한다.Meanwhile, the priority determiner 110 determines a priority by using the detected and tracked subjects, and selects a new word according to the determined priority, and detects the subjects detected and tracked through the subject detection tracker 108. The priority is determined based on the subject keyword weight of the keyword corresponding to the new word candidate, and the new word candidate having the highest rank is selected as the new word according to the priority.

여기에서, 예를 들면, 텍스트 마이닝 분야 등에서 다른 주제 클러스터와 구분되는 속성들은 키워드에 의해 이루어지게 되는데, 한 클러스터에 잘 뭉쳐있는 키워드일수록 클러스터의 중요한 속성으로 사용될 수 있으며, 주제의 관점에서는 주제를 잘 반영한 키워드가 되고, 이런 클러스터의 키워드들은 가중치로 그 중요도를 나타내는데, 그 가중치는 용어 빈도수(term frequency), 역문헌 빈도수(inverse document frequency) 등을 이용하여 산출될 수 있으며, 용어 빈도수는 한 문서에서 해당 키워드가 등장한 총 빈도수를 의미하며, 역문헌 빈도수는 전체 문서 집합에서 해당 키워드가 등장한 문서의 개수에 대한 역수를 의미한다.Here, for example, attributes distinguished from other subject clusters in the field of text mining are made by keywords. Keywords that are well grouped in one cluster may be used as important attributes of the cluster. The keywords of the clusters represent their importance as weights. The weights can be calculated using term frequency, inverse document frequency, and term frequency in one document. The total frequency of the corresponding keyword is displayed, and the reverse document frequency is the inverse of the number of documents in which the keyword appears in the entire document set.

또한, 다른 클러스터와 분별력이 없는 키워드나, 가중치가 상대적으로 매우 낮아 클러스터의 속성으로 사용될 수 없는 키워드를 제외한 키워드 중 신조어 후보 자에 대해 추출함으로써, 신조어 선정을 위한 우선 순위가 결정된다.In addition, the priority for selecting a new word is determined by extracting a new word candidate among keywords except for a keyword that does not have discrimination with other clusters or a keyword whose weight is relatively low and thus cannot be used as an attribute of the cluster.

다음에, 상술한 바와 같은 구성을 갖는 신조어 선정 장치에서 입력되는 뉴스 기사에 대해 형태소 분석을 수행하고, 형태소 분석된 문장에서 신조어 후보에 대한 키워드를 추출하며, 추출된 키워드를 이용하여 주제 탐지 및 추적을 수행한 후에, 신조어 후보에 대응하는 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정하고, 결정된 우선 순위에 따라 신조어를 선정하는 과정에 대해 설명한다.Next, the morphological analysis is performed on the news article inputted by the coinage selection device having the above-described configuration, the keywords for the candidates for the coined words are extracted from the morphologically analyzed sentences, and the subject is detected and tracked using the extracted keywords. After performing the above, the process of determining the priority according to the subject keyword weight of the keyword corresponding to the new word candidate and selecting the new word according to the determined priority will be described.

도 2는 본 발명의 일 실시 예에 따라 신조어 후보의 주제 키워드 가중치에 대한 우선 순위에 따라 신조어를 선정하는 과정을 도시한 플로우차트이다.2 is a flowchart illustrating a process of selecting a new word based on a priority of a subject keyword weight of a new word candidate according to an embodiment of the present invention.

도 2를 참조하면, 신조어 선정 장치의 형태소 분석부(102)에 분류 체계에 따른 뉴스 기사가 입력되면(단계202), 형태소 분석부(102)에서는 입력된 뉴스 기사에 대해 형태소 사전을 참조하여 형태소 분석을 수행한다(단계204). 이러한 형태소 분석을 통해 각 문장 내 단어들의 품사 정보를 알 수 있다.Referring to FIG. 2, when a news article according to a classification scheme is input to the morpheme analysis unit 102 of the coinword selecting apparatus (step 202), the morpheme analysis unit 102 refers to a morpheme dictionary with respect to the input news article. The analysis is performed (step 204). Through this morphological analysis, the parts of speech information of the words in each sentence can be known.

그리고, 키워드 추출부(106)에서는 형태소 분석부(102)를 통해 형태소 분석된 문장에서 단일어, 복합어, 숫자+용어 조합 등 다양한 형태의 키워드를 신조어 후보자로 추출한다(단계206). 이러한 키워드는 예를 들면, 정보 검색 분야, 텍스트 마이닝 분야 등에서 형태소 분석된 문장 중 불용어를 제외한 나머지 용어들뿐만 아니라 대역어 사전에 있는 용어, 사전에 없는 미등록 용어 등을 추출할 수 있다.In operation 206, the keyword extractor 106 extracts keywords of various forms, such as a single word, a compound word, and a combination of numbers and terms, from the sentence morphologically analyzed by the morpheme analyzer 102 (step 206). Such a keyword may extract, for example, terms in a bandword dictionary, unregistered terms not found in a dictionary, as well as remaining terms except for stopwords among sentences stemmed from information search fields and text mining fields.

다음에, 주제 탐지 추적부(108)에서는 키워드 추출부(106)를 통해 추출된 키워드를 이용하여 주제 탐지를 수행한다(단계208). 여기에서, 주제 탐지는 다수의 뉴스 기사에서 기술된 새로운 주제, 기존 주제의 진행 과정 등을 검출하고, 해당 뉴스 기사와 기존 주제를 비교한 후, 그 비교 결과 서로간의 유사도가 상대적으로 낮은 주제를 탐지하는 방식으로 수행될 수 있다.Next, the subject detection tracking unit 108 performs subject detection using the keywords extracted through the keyword extraction unit 106 (step 208). Here, the subject detection detects a new topic described in a plurality of news articles, a progress of an existing topic, etc., compares the news article with an existing topic, and detects a topic having a relatively low similarity between the results. It can be done in a way.

또한, 주제 탐지 추적부(108)는 다수의 뉴스 기사에서 기술된 새로운 주제, 기존 주제의 진행 과정 등을 검출하여 탐지된 주제에 대해 해당 뉴스 기사와 기존 주제를 비교한 후, 그 비교 결과 서로간의 유사도가 상대적으로 높은 주제를 추적하는 등의 방식으로 주제 추적을 수행한다(단계210). 여기에서, 키워드에 이용하여 주제 탐지 및 추적을 수행할 경우 같은 주제를 다루는 뉴스 기사들이 클러스터를 형성할 수 있고, 이러한 클러스터는 다른 주제 클러스터와 구분될 수 있는 속성들을 포함할 수 있다.In addition, the topic detection tracking unit 108 detects a new topic described in a plurality of news articles, a progress of an existing topic, etc., compares the news article and the existing topic with respect to the detected subject, and compares the results with each other. Subject tracking is performed in such a manner as to track a subject having a relatively high similarity level (step 210). Here, when subject detection and tracking using keywords, news articles covering the same subject may form a cluster, and the cluster may include attributes that can be distinguished from other subject clusters.

한편, 우선 순위 결정부(110)에서는 주제 탐지 추적부(108)를 통해 탐지 및 추적된 주제를 이용하여 신조어 후보에 대응하는 키워드의 주제 키워드 가중치를 기반으로 우선 순위를 결정한다(단계212). 여기에서, 주제를 잘 반영한 클러스터의 키워드들은 용어 빈도수, 역문헌 빈도수 등을 이용하여 산출되는 가중치에 따라 우선 순위를 결정할 수 있으며, 다른 클러스터와 분별력이 없는 키워드나, 가중치가 상대적으로 매우 낮아 클러스터의 속성으로 사용될 수 없는 키워드를 제외한 키워드 중 신조어 후보자에 대해 추출함으로써, 신조어 선정을 위한 우선 순위가 결정될 수 있다.Meanwhile, the priority determining unit 110 determines the priority based on the subject keyword weight of the keyword corresponding to the candidate candidate using the subject detected and tracked by the subject detecting tracker 108 (step 212). Here, the keywords of the clusters that reflect the subject well can be prioritized according to the weights calculated using the term frequency, the inverse literature frequency, etc., and the keywords without discrimination with other clusters or the weight of the clusters are relatively low. By extracting new word candidates among keywords except for keywords that cannot be used as attributes, a priority for selecting new words may be determined.

이어서, 우선 순위 결정부(110)에서는 우선 순위에 따라 가장 순위가 높은 신조어 후보를 신조어로 선정한다(단계214). 여기에서 선정된 신조어는 예를 들면, 대역어 사전 등에 반영될 수 있다.Subsequently, the priority determining unit 110 selects a new word candidate having the highest rank according to the priority (step 214). The new word selected here may be reflected in, for example, a bandword dictionary.

따라서, 형태소 분석된 문장에서 신조어 후보에 대한 키워드를 추출하여 주제 탐지 및 추적을 수행한 후에, 그 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정하고, 결정된 우선 순위에 따라 신조어를 선정함으로써, 신조어를 선정하여 효과적으로 대역어 사전에 반영할 수 있다.Therefore, after extracting a keyword for a candidate for a new word from a stemmed sentence, performing subject detection and tracking, priorities are determined according to the subject keyword weight of the keyword, and new words are selected according to the determined priority. It can be selected and effectively reflected in the bandword dictionary.

이상의 설명에서는 본 발명의 다양한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.In the foregoing description, various embodiments of the present invention have been described and described. However, the present invention is not necessarily limited thereto, and a person having ordinary skill in the art to which the present invention pertains can make various changes without departing from the technical spirit of the present invention. It will be readily appreciated that branch substitutions, modifications and variations are possible.

도 1은 본 발명의 실시 예에 따라 신조어 후보의 출현 빈도수에 대한 우선 순위에 따라 신조어를 선정하는데 적합한 신조어 선정 장치의 블록 구성도,1 is a block diagram of a new word selecting apparatus suitable for selecting a new word according to a priority of a frequency of occurrence of a new word candidate according to an embodiment of the present invention;

도 2는 본 발명의 일 실시 예에 따라 신조어 후보의 출현 빈도수에 대한 우선 순위에 따라 신조어를 선정하는 과정을 도시한 플로우차트.2 is a flowchart illustrating a process of selecting a new word according to a priority of a frequency of occurrence of a new word candidate according to an embodiment of the present invention.

<도면의 주요부분에 대한 부호의 설명><Description of the symbols for the main parts of the drawings>

102 : 형태소 분석부 104 : 형태소 사전 데이터베이스102: morphological analysis unit 104: morphological dictionary database

106 : 키워드 추출부 108 : 주제 탐지 추적부106: keyword extraction unit 108: subject detection tracking unit

110 : 우선 순위 결정부110: priority determination unit

Claims (11)

입력되는 웹 문서에 대한 형태소 분석을 수행하는 형태소 분석부와,A morphological analysis unit for performing a morphological analysis on the input web document; 상기 형태소 분석을 수행한 문장에서 신조어 후보에 대응하는 키워드를 추출하는 키워드 추출부와,A keyword extraction unit for extracting a keyword corresponding to a new word candidate from the sentence in which the morphological analysis is performed; 상기 추출된 키워드를 이용하여 주제 탐지 및 주제 추적을 수행하는 주제 탐지 추적부와,A subject detection tracking unit which performs subject detection and subject tracking using the extracted keywords; 상기 주제 탐지 및 주제 추적을 수행한 상기 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정한 후 상기 결정된 우선 순위에 따라 신조어를 선정하는 우선 순위 결정부Priority determining unit for determining the priority according to the weight of the subject keyword of the keyword to perform the subject detection and subject tracking, and then select a new word according to the determined priority 를 포함하는 신조어 선정 장치.Word selection device comprising a. 제 1 항에 있어서,The method of claim 1, 상기 주제 탐지 추적부는, 다수의 웹 문서에서 상기 키워드가 기술된 새로운 주제 및 기존 주제의 진행 과정을 검출하고, 상기 키워드에 대응하는 웹 문서와 기존 주제를 비교하는 신조어 선정 장치.The subject detection tracking unit, a new word selection device for detecting the progress of the new topic and the existing topic described the keyword in a plurality of web documents, and compares the web document corresponding to the keyword and the existing theme. 제 2 항에 있어서,The method of claim 2, 상기 주제 탐지 추적부는, 상기 비교 결과 서로간의 유사도가 상대적으로 낮은 주제를 탐지하는 방식으로 상기 주제 탐지를 수행하는 신조어 선정 장치.And the subject detecting tracker detects the subject in a manner that detects subjects having similar relatively low similarities as a result of the comparison. 제 2 항에 있어서,The method of claim 2, 상기 주제 탐지 추적부는, 상기 비교 결과 서로간의 유사도가 상대적으로 높은 주제를 추적하는 방식으로 상기 주제 추적을 수행하는 신조어 선정 장치.And the subject detecting tracking unit performs the subject tracking in a manner of tracking a subject having a relatively high similarity with each other as a result of the comparison. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,The method according to any one of claims 1 to 4, 상기 키워드 추출부는, 상기 형태소 분석을 수행한 문장 중 불용어를 제외한 나머지 용어, 대역어 사전에 있는 용어 및 사전에 없는 미등록 용어를 포함하는 상기 키워드를 추출하는 신조어 선정 장치.And the keyword extracting unit extracts the keyword including remaining terms other than stop words, terms in a bandword dictionary, and unregistered terms not found in a sentence in which the morphological analysis is performed. 제 1 항 내지 제 4 항 중 어느 한 항에 있어서,The method according to any one of claims 1 to 4, 상기 우선 순위 결정부는, 상기 출현 빈도수에 따른 용어 빈도수 및 역문헌 빈도수를 산출한 가중치를 부여하여 상기 우선 순위를 결정하는 신조어 선정 장치.And the priority determiner is configured to determine the priority by assigning weights calculated from the term frequency and the reverse document frequency according to the appearance frequency. 입력되는 웹 문서에 대한 형태소 분석을 수행하는 단계와,Performing stemming on the input web document, 상기 형태소 분석을 수행한 문장에서 신조어 후보에 대응하는 키워드를 추출하는 단계와,Extracting a keyword corresponding to a new word candidate from a sentence in which the morphological analysis is performed; 상기 추출된 키워드를 이용하여 주제 탐지를 수행하는 단계와,Performing subject detection using the extracted keywords; 상기 수행된 주제 탐지에 대한 주제 추적을 수행하는 단계와,Performing subject tracking on the performed subject detection; 상기 주제 추적을 수행한 상기 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정하는 단계와,Determining priority according to subject keyword weights of the keywords for which subject tracking is performed; 상기 결정된 우선 순위에 따라 신조어를 선정하는 단계Selecting new words according to the determined priorities; 를 포함하는 신조어 선정 방법.New word selection method comprising a. 제 7 항에 있어서,The method of claim 7, wherein 상기 키워드를 추출하는 단계는, 상기 형태소 분석을 수행한 문장 중 불용어를 제외한 나머지 용어, 대역어 사전에 있는 용어 및 사전에 없는 미등록 용어를 포함하는 상기 키워드를 추출하는 신조어 선정 방법.The extracting of the keyword may include extracting the keyword including remaining terms other than stopwords, terms in a bandword dictionary, and unregistered terms not found in a sentence in which the morphological analysis is performed. 제 7 항에 있어서,The method of claim 7, wherein 상기 주제 탐지를 수행하는 단계는, 다수의 웹 문서에서 상기 키워드가 기술된 새로운 주제 및 기존 주제의 진행 과정을 검출하고, 상기 키워드에 대응하는 웹 문서와 기존 주제를 비교하며, 그 비교 결과 서로간의 유사도가 상대적으로 낮은 주제를 탐지하는 방식으로 수행되는 신조어 선정 방법.The subject detecting may include detecting a progression of a new topic and an existing topic in which a keyword is described in a plurality of web documents, comparing a web document corresponding to the keyword with an existing topic, and comparing the results with each other. A new word selection method performed by detecting subjects with relatively low similarity. 제 7 항에 있어서,The method of claim 7, wherein 상기 주제 추적을 수행하는 단계는, 다수의 웹 문서에서 상기 키워드가 기술된 새로운 주제 및 기존 주제의 진행 과정을 검출하고, 상기 키워드에 대응하는 웹 문서와 기존 주제를 비교하며, 그 비교 결과 서로간의 유사도가 상대적으로 높은 주제를 추적하는 방식으로 수행되는 신조어 선정 방법.The subject tracking may include detecting a progression of a new topic and an existing topic in which the keyword is described in a plurality of web documents, comparing a web document corresponding to the keyword with an existing topic, and comparing the results with each other. A new word selection method performed by tracking subjects with relatively high similarity. 제 7 항 내지 제 10 항 중 어느 한 항에 있어서,The method according to any one of claims 7 to 10, 상기 우선 순위를 결정하는 단계는, 상기 출현 빈도수에 따른 용어 빈도수 및 역문헌 빈도수를 산출한 가중치를 부여하여 상기 우선 순위가 결정되는 신조어 선정 방법.In the determining of the priority, the priority is determined by assigning weights obtained by calculating the term frequency and the inverse literature frequency according to the appearance frequency.
KR1020080131776A 2008-12-22 2008-12-22 Neologism selection apparatus and its method KR101120038B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020080131776A KR101120038B1 (en) 2008-12-22 2008-12-22 Neologism selection apparatus and its method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080131776A KR101120038B1 (en) 2008-12-22 2008-12-22 Neologism selection apparatus and its method

Publications (2)

Publication Number Publication Date
KR20100073182A true KR20100073182A (en) 2010-07-01
KR101120038B1 KR101120038B1 (en) 2012-03-23

Family

ID=42636178

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080131776A KR101120038B1 (en) 2008-12-22 2008-12-22 Neologism selection apparatus and its method

Country Status (1)

Country Link
KR (1) KR101120038B1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101354611B1 (en) * 2012-05-15 2014-01-23 주식회사 다음커뮤니케이션 Method and apparatus for selecting neologism
KR20180104899A (en) * 2017-03-14 2018-09-27 한국전자통신연구원 On-line contextual advertisement intelligence apparatus and method based on language analysis for automatically recognizes about coined word

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102422923B1 (en) 2020-11-13 2022-07-20 한국방송통신대학교 산학협력단 Sentiment analysis apparatus and controlling method thereof, and newly-coined word and emotion extraction apparatus
KR102479955B1 (en) 2021-02-02 2022-12-21 한국방송통신대학교 산학협력단 Apparatus and method for establishing newly-coined word and emotion dictionary

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100420096B1 (en) * 2001-03-09 2004-02-25 주식회사 다이퀘스트 Automatic Text Categorization Method Based on Unsupervised Learning, Using Keywords of Each Category and Measurement of the Similarity between Sentences
KR100682897B1 (en) * 2004-11-09 2007-02-15 삼성전자주식회사 Method and apparatus for updating dictionary

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101354611B1 (en) * 2012-05-15 2014-01-23 주식회사 다음커뮤니케이션 Method and apparatus for selecting neologism
KR20180104899A (en) * 2017-03-14 2018-09-27 한국전자통신연구원 On-line contextual advertisement intelligence apparatus and method based on language analysis for automatically recognizes about coined word
US10691892B2 (en) 2017-03-14 2020-06-23 Electronics And Telecommunications Research Institute Online contextual advertisement intellectualization apparatus and method based on language analysis for automatically recognizing coined word

Also Published As

Publication number Publication date
KR101120038B1 (en) 2012-03-23

Similar Documents

Publication Publication Date Title
Hoffart et al. Discovering emerging entities with ambiguous names
Zhang et al. Entity linking leveraging automatically generated annotation
US11531818B2 (en) Device and method for machine reading comprehension question and answer
US7424421B2 (en) Word collection method and system for use in word-breaking
Bowden et al. Slugnerds: A named entity recognition tool for open domain dialogue systems
Al-Taani et al. An extractive graph-based Arabic text summarization approach
Cagliero et al. ELSA: A multilingual document summarization algorithm based on frequent itemsets and latent semantic analysis
Palakodety et al. Mining insights from large-scale corpora using fine-tuned language models
Dahab et al. A comparative study on Arabic stemmers
WO2015080558A1 (en) A method and system for automated entity recognition
KR101541306B1 (en) Computer enabled method of important keyword extraction, server performing the same and storage media storing the same
KR101651780B1 (en) Method and system for extracting association words exploiting big data processing technologies
KR101120038B1 (en) Neologism selection apparatus and its method
KR101092354B1 (en) Compound noun recognition apparatus and its method
Salah et al. Arabic rule-based named entity recognition systems progress and challenges
Rasheed et al. Query expansion in information retrieval for Urdu language
US10318565B2 (en) Method and system for searching phrase concepts in documents
Chaibi et al. Topic segmentation for textual document written in arabic language
CN110532551A (en) Method, equipment and the storage medium that text key word automatically extracts
Muhammad et al. EUTS: extractive Urdu text summarizer
Rocha et al. PAMPO: using pattern matching and pos-tagging for effective Named Entities recognition in Portuguese
Rofiq Indonesian news extractive text summarization using latent semantic analysis
Lindemann et al. Building corpus-based frequency lemma lists
Fareed et al. Syntactic open domain Arabic question/answering system for factoid questions
Boos et al. Identification of Multiword Expressions in the brWaC.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee