KR101120038B1

KR101120038B1 - 신조어 선정 장치 및 그 방법

Info

Publication number: KR101120038B1
Application number: KR1020080131776A
Authority: KR
Inventors: 김운; 최승권; 김창현; 권오욱; 이기영; 황금하; 양성일; 노윤형; 서영애; 윤창호; 오영순; 박은진; 김영길; 박상규
Original assignee: 한국전자통신연구원
Priority date: 2008-12-22
Filing date: 2008-12-22
Publication date: 2012-03-23
Also published as: KR20100073182A

Abstract

본 발명은 주제를 대표할 수 있는 신조어인지 여부에 따라 우선순위를 결정하여 신조어를 선정한다는 것으로, 이를 위하여 본 발명은, 다양한 유형에 따른 신조어를 모두 추출하거나 전체 말뭉치를 이용하여 신조어를 선정하거나 선정된 신조어 후보를 사람이 직접 일일이 검토하여 신조어를 선정하는 종래 방법과는 달리, 신조어 후보에 대한 키워드를 추출하고, 추출된 키워드에 대한 주제를 탐지 및 추적한 후 그 주제의 대표어가 될 수 있는지 여부에 따라 우선 순위를 결정한 후에, 결정된 우선 순위에 따라 신조어를 선정함으로써, 신조어 선정을 효과적으로 수행할 수 있는 것이다.

자동 번역 시스템, 신조어(neologism)

Description

신조어 선정 장치 및 그 방법{NEOLOGISM SELECTION APPARATUS AND ITS METHOD}

본 발명은 신조어를 선정하여 대역 사전에 반영하는 기법에 관한 것으로, 더욱 상세하게는 신조어 후보에 대응하는 주제에 따라 우선 순위를 결정하여 그 우선 순위에 따라 신조어를 선정하는데 적합한 신조어 선정 장치 및 그 방법에 관한 것이다.

본 발명은 지식경제부 및 정보통신연구진흥원의 IT 성장동력 핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-037-03, 과제명: 응용특화 한중영 자동번역 기술개발].

잘 알려진 바와 같이, 최근 인터넷의 발달로 매일 수많은 사건, 이슈, 화제들이 인터넷을 통해 여러 다른 언어 버전으로 전 세계에 빠르게 전달되어 공유되고 있다.

이런한 사건, 이슈, 화제 등은 크게 특정 주제의 범주에 속하며, 이런 새로운 주제들로 인해 새로운 용어, 즉 신조어(unknown word)가 탄생하게 되는데, 그 예로서, “6자회담”, “오바마”, “서브프라임 모기지”, “멜라민 파동” 등이 있으며, 그 신조어는 해당 주제를 잘 반영하며, 해당 주제의 키워드가 된다.

이와 같이 대부분의 신조어는 새로운 주제와 밀접히 연관되어 있는데, 종래의 신조어 추출 기법을 살펴보면 다음과 같다.

통상적으로, 신조어는 여러 가지 유형으로 나누는데, “학사모” 등과 같은 단일 용어도 있고, “멜라민 파동” 등과 같은 복합 용어도 있으며, “6자 회담” 등과 같이 “숫자+용어” 형식도 있는가 하면, “아사다 마오” 등과 같이 외래어를 직역한 인명, 지명 등과 같은 고유 명사도 있다.

이런 다양한 유형의 신조어를 모두 추출하려면 가능한 조합, 패턴, 형태 등을 고려하게 되는데, 예를 들어, “6자 회담”, “911 테러” 등과 같은 “숫자+용어” 형식의 신조어를 추출하게 되면, “10월 첫주”, “다음달 중순” 등 불 필요한 용어들이 포함되는 단점이 있다.

그리고, 인명과 같은 고유명사는 정확히 추정된 신조어라 할지라도 자동 번역 시스템에서 그 사용 빈도가 극히 낮고, 발음 표기(Romanize)와 같은 대역어 생성 방식을 사용하였을 경우, 번역된 문장의 이해도에 큰 영향을 미치지 않기 때문에 신조어의 우선순위가 낮아야 한다. 그러나, "오바마" 등과 같은 유명인의 인명은 사용빈도가 높아 우선적으로 선정해야만 된다.

또한, 일부 유용한 신조어는 전체 말뭉치를 대상으로 했을 경우 그 빈도수가 주제 문서들을 대상하였을 경우에 비해 상대적으로 낮아 신조어 선별 작업 과정에 어려움이 있었다.

이와 같이 상술한 바와 같은 종래의 신조어 선정 기법에서 다양한 유형에 따른 신조어를 모두 추출할 경우 추출된 대량의 신조어 후보들은 언어학자를 통해 번거로운 필터링 작업을 해야 하는 문제점을 갖고 있고, 발음 표기에 따른 대역어 선정의 경우 번역 이해도를 감소시키는 문제점이 있으며, 전체 말뭉치를 이용하는 경우 신조어 선정에서 누락되는 문제점이 있다.

또한, 종래에는 용어 사전에 없는 단어를 모두 신조어 후보로 선정하여 언어학자가 그에 대응되는 예문을 보면서 신조어 여부를 판단함으로써, 신조어를 선정하여 대역어 사전에 등록할 경우 그 비용 및 시간이 많이 소요되는 문제점이 있다.

이에 따라, 본 발명은 신조어 후보를 주제에 기반하여 우선 순위를 결정하고, 그 우선 순위에 따라 신조어를 선정할 수 있는 신조어 선정 장치 및 그 방법을 제공하고자 한다.

일 관점에서 본 발명은, 입력되는 웹 문서에 대한 형태소 분석을 수행하는 형태소 분석부와, 상기 형태소 분석을 수행한 문장에서 신조어 후보에 대응하는 키워드를 추출하는 키워드 추출부와, 상기 추출된 키워드를 이용하여 주제 탐지 및 주제 추적을 수행하는 주제 탐지 추적부와, 상기 주제 탐지 및 주제 추적을 수행한 상기 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정한 후 상기 결정된 우 선 순위에 따라 신조어를 선정하는 우선 순위 결정부를 포함하는 신조어 선정 장치를 제공한다.

다른 관점에서 본 발명은, 입력되는 웹 문서에 대한 형태소 분석을 수행하는 단계와, 상기 형태소 분석을 수행한 문장에서 신조어 후보에 대응하는 키워드를 추출하는 단계와, 상기 추출된 키워드를 이용하여 주제 탐지를 수행하는 단계와, 상기 수행된 주제 탐지에 대한 주제 추적을 수행하는 단계와, 상기 주제 추적을 수행한 상기 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정하는 단계와, 상기 결정된 우선 순위에 따라 신조어를 선정하는 단계를 포함하는 신조어 선정 방법을 제공한다.

본 발명은, 다양한 유형에 따른 신조어를 모두 추출하거나 전체 말뭉치를 이용하여 신조어를 선정하거나 대량 추출된 신조어 후보 중 사람이 직접 일일 검토하여 신조어를 선정하는 종래 방법과는 달리, 주제와 밀접히 연관되어 있는 신조어 후보에 대응하는 키워드를 이용하여 주제 탐지 및 추적을 수행하고, 그 주제 키워드 가중치에 따라 신조어의 우선 순위를 결정하고, 이에 따른 신조어를 효과적으로 선정할 수 있다.

또한, 우선 순위 결정을 위해 주제를 탐지 및 추적함으로써, 주제를 반영 못하는 신조어 후보들을 자동으로 필터링함으로써, 언어학자가 신조어를 신조어 후보로부터 선별해야 하는 시간과 노력을 획기적으로 줄일 수 있다.

본 발명은, 입력되는 웹 문서에 대해 형태소 분석을 수행하고, 형태소 분석된 문장에서 신조어 후보에 대한 키워드를 추출하며, 추출된 키워드를 이용하여 주제 탐지 및 추적을 수행한 후에, 신조어 후보에 대응하는 주제 키워드 가중치에 따라 우선 순위를 결정하고, 결정된 우선 순위에 따라 신조어를 선정한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.

이하 첨부된 도면을 참조하여 본 발명의 실시 예에 대하여 상세하게 설명한다.

도 1은 본 발명의 실시 예에 따라 신조어 후보의 주제 키워드 가중치에 대한 우선 순위에 따라 신조어를 선정하는데 적합한 신조어 선정 장치의 블록 구성도로서, 형태소 분석부(102), 형태소 사전 데이터베이스(104), 키워드 추출부(106), 주제 탐지 추적부(108), 우선 순위 결정부(110) 등을 포함할 수 있다. 여기에서, 본 발명에서 신조어를 선정하는데 있어 다양한 웹 사이트, 포털 사이트 등에 게시되어 있는 웹 문서를 이용할 수 있는데, 이하에서는 신문사 웹 사이트, 포털 사이트 등에 게시되어 있는 뉴스 기사를 이용하여 신조어를 선정하는 것으로 하여 설명한다.

도 1을 참조하면, 형태소 분석부(102)는 입력되는 웹 문서, 예를 들어 뉴스 기사 등에 대한 형태소 분석을 수행하는 것으로, 다수의 신문사 웹사이트, 포털 사이트 등에 게시되어 있는 뉴스 기사 등의 분류 체계에 따라 입력되는 분류 체계별 기사에 대한 형태소 분석을 수행한다. 이러한 분류 체계별 기사는 국제, 사회, 정치, 스포츠, 통신 등 분류 체계에 따라 매일 매일 업데이트되어 신문사 웹사이트, 포털 사이트 등에 게시되며, 이러한 기사들이 텍스트 형식으로 입력되면, 형태소 사전 데이터베이스(104)의 형태소 사전을 참조하여 형태소 분석을 수행함으로써, 각 문장 내 단어들의 품사 정보를 알 수 있다.

그리고, 키워드 추출부(106)는 형태소 분석된 문장에서 신조어 후보자에 대응하는 키워드를 추출하는 것으로, 형태소 분석부(102)를 통해 형태소 분석된 문장에서 단일어, 복합어, 숫자+용어 조합 등 다양한 형태의 키워드를 신조어 후보자로 추출한다. 이러한 키워드는 예를 들면, 정보 검색(information retrieval) 분야, 텍스트 마이닝(text mining) 분야 등에서 형태소 분석된 문장 중 불용어(stop word)를 제외한 나머지 용어들뿐만 아니라 대역어 사전에 있는 용어, 사전에 없는 미등록 용어 등을 추출할 수 있다.

다음에, 주제 탐지 추적부(108)는 추출된 키워드에 대응하는 주제를 탐지 및 추적하는 것으로, 키워드 추출부(106)를 통해 추출된 키워드를 이용하여 주제를 탐지하고 추적한다. 여기에서, 주제 탐지는 다수의 뉴스 기사에서 기술된 새로운 주제(예를 들면, 사건, 이슈, 화제 등), 기존 주제의 진행 과정 등을 검출하여 해당 뉴스 기사와 기존 주제를 비교한 후, 그 비교 결과 서로간의 유사도가 상대적으로 낮으면 새로운 주제를 탐지하는 방식으로 수행되고, 주제 추적은 해당 뉴스 기사와 기존 주제를 비교한 후, 그 비교 결과 서로간의 유사도가 상대적으로 높으면 주제를 추적하는 방식으로 수행될 수 있다. 즉, 주제 탐지는 문서 분류와 유사한 방식 으로 수행되며, 주제 추적은 탐지된 주제를 다루는 기사를 지속적으로 모니터링하는 방식으로 수행될 수 있다.

또한, 키워드에 이용하여 주제 탐지 및 추적을 수행할 경우 같은 주제를 다루는 뉴스 기사들이 클러스터(cluster)를 형성할 수 있고, 이러한 클러스터는 다른 주제 클러스터와 구분될 수 있는 속성(feature)들을 포함할 수 있다.

한편, 우선 순위 결정부(110)는 탐지 및 추적된 주제를 이용하여 우선 순위를 결정하고, 결정된 우선 순위에 따라 신조어를 선정하는 것으로, 주제 탐지 추적부(108)를 통해 탐지 및 추적된 주제를 이용하여 신조어 후보에 대응하는 키워드의 주제 키워드 가중치를 기반으로 우선 순위를 결정하고, 그 우선 순위에 따라 가장 순위가 높은 신조어 후보를 신조어로 선정한다.

여기에서, 예를 들면, 텍스트 마이닝 분야 등에서 다른 주제 클러스터와 구분되는 속성들은 키워드에 의해 이루어지게 되는데, 한 클러스터에 잘 뭉쳐있는 키워드일수록 클러스터의 중요한 속성으로 사용될 수 있으며, 주제의 관점에서는 주제를 잘 반영한 키워드가 되고, 이런 클러스터의 키워드들은 가중치로 그 중요도를 나타내는데, 그 가중치는 용어 빈도수(term frequency), 역문헌 빈도수(inverse document frequency) 등을 이용하여 산출될 수 있으며, 용어 빈도수는 한 문서에서 해당 키워드가 등장한 총 빈도수를 의미하며, 역문헌 빈도수는 전체 문서 집합에서 해당 키워드가 등장한 문서의 개수에 대한 역수를 의미한다.

또한, 다른 클러스터와 분별력이 없는 키워드나, 가중치가 상대적으로 매우 낮아 클러스터의 속성으로 사용될 수 없는 키워드를 제외한 키워드 중 신조어 후보 자에 대해 추출함으로써, 신조어 선정을 위한 우선 순위가 결정된다.

다음에, 상술한 바와 같은 구성을 갖는 신조어 선정 장치에서 입력되는 뉴스 기사에 대해 형태소 분석을 수행하고, 형태소 분석된 문장에서 신조어 후보에 대한 키워드를 추출하며, 추출된 키워드를 이용하여 주제 탐지 및 추적을 수행한 후에, 신조어 후보에 대응하는 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정하고, 결정된 우선 순위에 따라 신조어를 선정하는 과정에 대해 설명한다.

도 2는 본 발명의 일 실시 예에 따라 신조어 후보의 주제 키워드 가중치에 대한 우선 순위에 따라 신조어를 선정하는 과정을 도시한 플로우차트이다.

도 2를 참조하면, 신조어 선정 장치의 형태소 분석부(102)에 분류 체계에 따른 뉴스 기사가 입력되면(단계202), 형태소 분석부(102)에서는 입력된 뉴스 기사에 대해 형태소 사전을 참조하여 형태소 분석을 수행한다(단계204). 이러한 형태소 분석을 통해 각 문장 내 단어들의 품사 정보를 알 수 있다.

그리고, 키워드 추출부(106)에서는 형태소 분석부(102)를 통해 형태소 분석된 문장에서 단일어, 복합어, 숫자+용어 조합 등 다양한 형태의 키워드를 신조어 후보자로 추출한다(단계206). 이러한 키워드는 예를 들면, 정보 검색 분야, 텍스트 마이닝 분야 등에서 형태소 분석된 문장 중 불용어를 제외한 나머지 용어들뿐만 아니라 대역어 사전에 있는 용어, 사전에 없는 미등록 용어 등을 추출할 수 있다.

다음에, 주제 탐지 추적부(108)에서는 키워드 추출부(106)를 통해 추출된 키워드를 이용하여 주제 탐지를 수행한다(단계208). 여기에서, 주제 탐지는 다수의 뉴스 기사에서 기술된 새로운 주제, 기존 주제의 진행 과정 등을 검출하고, 해당 뉴스 기사와 기존 주제를 비교한 후, 그 비교 결과 서로간의 유사도가 상대적으로 낮은 주제를 탐지하는 방식으로 수행될 수 있다.

또한, 주제 탐지 추적부(108)는 다수의 뉴스 기사에서 기술된 새로운 주제, 기존 주제의 진행 과정 등을 검출하여 탐지된 주제에 대해 해당 뉴스 기사와 기존 주제를 비교한 후, 그 비교 결과 서로간의 유사도가 상대적으로 높은 주제를 추적하는 등의 방식으로 주제 추적을 수행한다(단계210). 여기에서, 키워드에 이용하여 주제 탐지 및 추적을 수행할 경우 같은 주제를 다루는 뉴스 기사들이 클러스터를 형성할 수 있고, 이러한 클러스터는 다른 주제 클러스터와 구분될 수 있는 속성들을 포함할 수 있다.

한편, 우선 순위 결정부(110)에서는 주제 탐지 추적부(108)를 통해 탐지 및 추적된 주제를 이용하여 신조어 후보에 대응하는 키워드의 주제 키워드 가중치를 기반으로 우선 순위를 결정한다(단계212). 여기에서, 주제를 잘 반영한 클러스터의 키워드들은 용어 빈도수, 역문헌 빈도수 등을 이용하여 산출되는 가중치에 따라 우선 순위를 결정할 수 있으며, 다른 클러스터와 분별력이 없는 키워드나, 가중치가 상대적으로 매우 낮아 클러스터의 속성으로 사용될 수 없는 키워드를 제외한 키워드 중 신조어 후보자에 대해 추출함으로써, 신조어 선정을 위한 우선 순위가 결정될 수 있다.

이어서, 우선 순위 결정부(110)에서는 우선 순위에 따라 가장 순위가 높은 신조어 후보를 신조어로 선정한다(단계214). 여기에서 선정된 신조어는 예를 들면, 대역어 사전 등에 반영될 수 있다.

따라서, 형태소 분석된 문장에서 신조어 후보에 대한 키워드를 추출하여 주제 탐지 및 추적을 수행한 후에, 그 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정하고, 결정된 우선 순위에 따라 신조어를 선정함으로써, 신조어를 선정하여 효과적으로 대역어 사전에 반영할 수 있다.

이상의 설명에서는 본 발명의 다양한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.

도 1은 본 발명의 실시 예에 따라 신조어 후보의 출현 빈도수에 대한 우선 순위에 따라 신조어를 선정하는데 적합한 신조어 선정 장치의 블록 구성도,

도 2는 본 발명의 일 실시 예에 따라 신조어 후보의 출현 빈도수에 대한 우선 순위에 따라 신조어를 선정하는 과정을 도시한 플로우차트.

<도면의 주요부분에 대한 부호의 설명>

102 : 형태소 분석부 104 : 형태소 사전 데이터베이스

106 : 키워드 추출부 108 : 주제 탐지 추적부

110 : 우선 순위 결정부

Claims

입력되는 웹 문서에 대한 형태소 분석을 수행하는 형태소 분석부와,

상기 형태소 분석을 수행한 문장에서 신조어 후보에 대응하는 키워드를 추출하는 키워드 추출부와,

상기 추출된 키워드를 이용하여 주제 탐지 및 주제 추적을 수행하는 주제 탐지 추적부와,

상기 주제 탐지 및 주제 추적을 수행한 상기 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정한 후 상기 결정된 우선 순위에 따라 신조어를 선정하는 우선 순위 결정부

를 포함하는 신조어 선정 장치.
제 1 항에 있어서,

상기 주제 탐지 추적부는, 다수의 웹 문서에서 상기 키워드가 기술된 새로운 주제 및 기존 주제의 진행 과정을 검출하고, 상기 키워드에 대응하는 웹 문서와 기존 주제를 비교하는 신조어 선정 장치.
제 2 항에 있어서,

상기 주제 탐지 추적부는, 상기 키워드에 대응하는 웹 문서와 상기 기존 주제를 비교한 결과, 서로간의 유사도가 상대적으로 낮으면 상기 새로운 주제를 탐지하는 신조어 선정 장치.
제 2 항에 있어서,

상기 주제 탐지 추적부는, 상기 비교 결과 서로간의 유사도가 상대적으로 높은 주제를 추적하는 방식으로 상기 주제 추적을 수행하는 신조어 선정 장치.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,

상기 키워드 추출부는, 상기 형태소 분석을 수행한 문장 중 불용어를 제외한 나머지 용어, 대역어 사전에 있는 용어 및 사전에 없는 미등록 용어를 포함하는 상기 키워드를 추출하는 신조어 선정 장치.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,

상기 우선 순위 결정부는, 출현 빈도수에 따른 용어 빈도수 및 역문헌 빈도수를 산출한 가중치를 부여하여 상기 우선 순위를 결정하는 신조어 선정 장치.
입력되는 웹 문서에 대한 형태소 분석을 수행하는 단계와,

상기 형태소 분석을 수행한 문장에서 신조어 후보에 대응하는 키워드를 추출하는 단계와,

상기 추출된 키워드를 이용하여 주제 탐지를 수행하는 단계와,

상기 수행된 주제 탐지에 대한 주제 추적을 수행하는 단계와,

상기 주제 추적을 수행한 상기 키워드의 주제 키워드 가중치에 따라 우선 순위를 결정하는 단계와,

상기 결정된 우선 순위에 따라 신조어를 선정하는 단계

를 포함하는 신조어 선정 방법.
제 7 항에 있어서,

상기 키워드를 추출하는 단계는, 상기 형태소 분석을 수행한 문장 중 불용어를 제외한 나머지 용어, 대역어 사전에 있는 용어 및 사전에 없는 미등록 용어를 포함하는 상기 키워드를 추출하는 신조어 선정 방법.
제 7 항에 있어서,

상기 주제 탐지를 수행하는 단계는,

다수의 웹 문서에서 상기 키워드가 기술된 새로운 주제 및 기존 주제의 진행 과정을 검출하는 단계와,

상기 키워드에 대응하는 웹문서와 기존 주제를 비교하는 단계와,

상기 키워드에 대응하는 웹문서와 상기 기존 주제를 비교한 결과 서로간의 유사도가 낮으면 상기 새로운 주제를 탐지하는 단계

를 포함하는 신조어 선정 방법.
제 7 항에 있어서,

상기 주제 추적을 수행하는 단계는, 다수의 웹 문서에서 상기 키워드가 기술된 새로운 주제 및 기존 주제의 진행 과정을 검출하고, 상기 키워드에 대응하는 웹 문서와 기존 주제를 비교하며, 그 비교 결과 서로간의 유사도가 상대적으로 높은 주제를 추적하는 방식으로 수행되는 신조어 선정 방법.
제 7 항 내지 제 10 항 중 어느 한 항에 있어서,

상기 우선 순위를 결정하는 단계는, 출현 빈도수에 따른 용어 빈도수 및 역문헌 빈도수를 산출한 가중치를 부여하여 상기 우선 순위가 결정되는 신조어 선정 방법.