KR20130029696A

KR20130029696A - 복합명사 분석장치 및 복합명사 분석 방법

Info

Publication number: KR20130029696A
Application number: KR1020110093126A
Authority: KR
Inventors: 옥철영; 이용훈
Original assignee: 울산대학교 산학협력단
Priority date: 2011-09-15
Filing date: 2011-09-15
Publication date: 2013-03-25
Also published as: KR101359039B1

Abstract

복합명사 분석장치가 개시된다. 본 복합명사 분석장치는, 복합명사를 입력받는 입력부, 입력받은 복합명사를 분해하여 복수의 구성 명사로 구성된 의미분석 후보를 추출하는 추출부, 추출된 복수의 의미분석 후보마다 의미분석 후보의 구성 명사 각각의 표제어를 검색하고, 원어 정보 사전을 이용하여 인접한 구성 명사 간의 표제어별 유사도를 분석하는 의미 검색부, 및, 분석된 표제어별 유사도에 따라, 복합명사를 구성하는 구성 명사를 결정하는 결정부를 포함한다.

Description

복합명사 분석장치 및 복합명사 분석 방법{ANALYSIS DEVICE AND METHOD FOR ANALYSIS OF COMPOUND NOUNS}

본 발명은 복합명사 분석장치 및 복합명사 분석 방법에 관한 것으로, 사용자 어휘 지능망을 기반으로 얻은 구성 명사 간의 유사도를 측정해 복합명사를 분석할 수 있는 복합명사 분석장치 및 복합명사 분석 방법에 관한 것이다.

복합명사의 구조 분해 방법에는 많은 연구들이 선행되어 왔으며 그 정확도 또한, 높다. 하지만, 정보의 의미가 중요해짐에 따라 더욱 정확한 정보와 지식을 처리하기 위해서는 구조적인 분해 이외에도 의미 기반 분석의 필요성이 증가하고 있다.

복합명상의 의미 분석 방법에는 주요 자원의 사용에 따라 사전·어휘망을 사용하는 지식기반(knowledge-driven) 방식, 원시·태깅 말뭉치를 사용하는 데이터 기반(data-driven) 방식이 있다. 그 중, 지식 기반 방식은 개념의 의미적 정의나 관계에 대한 정보를 참조할 수 있으므로 자주 사용되는 명사들이 의미상으로 유사하거나 한 개념의 의미 서술에 특정 개념이 사용되는 등의 특성을 이용하여 유사도를 얻을 수 있었다.

그러나 종래에는 복합명사를 구성하는 구성 명사들 간의 유사도를 이용하여 의미분석을 수행하는 방법이 없었다.

따라서, 본 발명은 상술한 바와 같은 문제점을 해결하기 위하여, 사용자 어휘 지능망을 기반으로 얻은 구성 명사 간의 유사도를 측정해 복합명사를 분석할 수 있는 복합명사 분석장치 및 복합명사 분석 방법을 제공하는 데 있다.

이상과 같은 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 복합명사 분석장치는, 복합명사를 입력받는 입력부, 상기 입력받은 복합명사를 분해하여 복수의 구성 명사로 구성된 의미분석 후보를 추출하는 추출부, 상기 추출된 복수의 의미분석 후보마다 의미분석 후보의 구성 명사 각각의 표제어를 검색하고, 원어 정보 사전을 이용하여 인접한 구성 명사 간의 표제어별 유사도를 분석하는 의미 검색부, 및, 상기 분석된 표제어별 유사도에 따라, 상기 복합명사를 구성하는 구성 명사를 결정하는 결정부를 포함한다.

이 경우, 상기 추출부는, 상기 복합명사를 음절단위로 분해하고, 분해된 음절을 인접하게 조합하여 복수의 분해 후보를 생성하고, 생성된 분해 후보 각각의 조합된 음절들에 대한 어절의 수, 미등록의 수 및 등록어의 수 중 적어도 하나의 수를 이용하여 복수의 분해 후보 중 하나를 의미분석 후보로 결정하는 것이 바람직하다.

이 경우, 상기 추출부는, 기저장된 4음절 이상의 고유명사 리스트에 존재하지 않는 4음절 이상으로 이루어진 조합된 음절을 갖는 분해 후보는 상기 생성된 복수의 분해 후보에서 제외하는 것이 바람직하다.

한편, 상기 의미 검색부는, 상기 구성 명사를 인접하게 조합하고, 상기 조합된 구성 명사에 대한 원어 정보가 상기 원어 정보 사전에 존재하는지를 판단하고, 상기 원어 정보에 대응하는 표제어 이외의 '원어 정보가 존재하는 조합된 구성 명사 각각의 표제어'는 제외하여 표제어별 유사도 분석을 수행하는 것이 바람직하다.

한편, 상기 의미 검색부는, 상기 표제어의 원어 정보 사전의 뜻풀이 내의 명사의 공유 개수를 이용하여 인접한 구성 명사 간의 표제어별 유사도를 분석하는 것이 바람직하다.

한편, 본 복합명사 분석장치는, 상기 결정된 구성 명사를 표시하는 사용자 인터페이스부를 더 포함할 수 있다.

한편, 본 실시 예에 따른 복합명사 분석 방법은, 복합명사를 입력받는 단계, 상기 입력받은 복합명사를 분해하여 복수의 구성 명사로 구성된 의미분석 후보를 추출하는 단계, 상기 추출된 복수의 의미분석 후보마다 의미분석 후보의 구성 명사 각각의 표제어를 검색하는 단계, 원어 정보 사전을 이용하여 인접한 구성 명사 간의 표제어별 유사도를 분석하는 단계, 상기 분석된 표제어별 유사도에 따라, 상기 복합명사를 구성하는 구성 명사를 결정하는 단계를 포함한다.

이 경우, 상기 추출부하는 단계는, 상기 복합명사를 음절단위로 분해하는 단계, 상기 분해된 음절을 인접하게 조합하여 복수의 분해 후보를 생성하는 단계, 상기 생성된 분해 후보 각각의 조합된 음절들에 대한 어절의 수, 미등록의 수 및 등록어의 수 중 적어도 하나의 수를 이용하여 복수의 분해 후보 중 하나를 의미분석 후보로 결정하는 단계를 포함할 수 있다.

이 경우, 상기 의미분석 후보로 결정하는 단계는, 기저장된 4음절 이상의 고유명사 리스트에 존재하지 않는 4음절 이상으로 이루어진 조합된 음절을 갖는 분해 후보는 상기 생성된 복수의 분해 후보에서 제외하는 것이 바람직하다.

한편, 상기 유사도를 분석하는 단계는, 상기 구성 명사를 인접하게 조합하고, 상기 조합된 구성 명사에 대한 원어 정보가 상기 원어 정보 사전에 존재하는지를 판단하고, 상기 원어 정보에 대응하는 표제어 이외의 '원어 정보가 존재하는 조합된 구성 명사 각각의 표제어'는 제외하여 표제어별 유사도 분석을 수행하는 것이 바람직하다.

한편, 상기 유사도를 분석하는 단계는, 상기 표제어의 원어 정보 사전의 뜻풀이 내의 명사의 공유 개수를 이용하여 인접한 구성 명사 간의 표제어별 유사도를 분석하는 것이 바람직하다.

한편, 본 복합명사 분석 방법은, 상기 결정된 구성 명사를 표시하는 단계를 더 포함할 수 있다.

도 1은 본 발명의 일 실시 예에 의한 복합명사 분석장치의 구성을 도시한 블록도,
도 2는 추출부(140)의 동작을 설명하기 위한 도면,
도 3은 의미범위 축소를 위한 원어 정보 사용의 예를 도시한 도면,
도 4는 본 실시 예에 따른 정답 명상의 계층 관계도를 도시한 도면,
도 5는 자카드 유사도 계수를 나타내는 도면,
도 6 내지 도 7은 원어 정보 사전의 뜻풀이의 내용을 설명하기 위한 도면,
도 8은 의미 태깅 알고리즘을 나태는 도면,
도 9 내지 도 11은 본 실시 예에 따른 복합명사 분석장치의 실험 결과를 나타내는 도면, 그리고,
도 12는 본 실시 예에 따른 복합명사 분석 방법을 설명하기 위한 흐름도이다.

이하 첨부된 도면들을 참조하여 본 발명에 대하여 보다 상세하게 설명한다.

도 1은 본 발명의 일 실시 예에 의한 복합명사 분석장치의 구성을 도시한 블록도이다.

도 1을 참고하면, 복합명사 분석장치(100)는 입력부(110), 사용자 인터페이스부(120), 저장부(130), 추출부(140), 의미 검색부(150), 결정부(160) 및 제어부(170)를 포함한다.

입력부(110)는 복합명사를 입력받는다. 구체적으로, 입력부(110)는 마우스, 키보드 등과 같은 입력 장치로 구현될 수 있으며, 사용자로부터 복합명사를 입력받을 수 있다. 본 실시 예에서는 입력장치를 통하여 복합명사를 수신하는 예만을 설명하였지만, 구현시에는 외부 장치로부터 유/무선 통신방식을 이용하여 복합명사를 입력받을 수도 있다.

사용자 인터페이스부(120)는 복합명사 분석장치(100)에서 지원하는 각종 기능을 사용자가 설정 또는 선택할 수 있는 다수의 기능키를 구비하며, 복합명사 분석장치(100)에서 제공되는 각종 정보를 표시할 수 있다. 사용자 인터페이스부(120)는 터치패드 등과 같이 입력과 출력이 동시에 구현되는 장치로 구현될 수 있고, 마우스, 키보드 등과 같은 입력 장치와 CRT 모니터, LCD 모니터, LED 등과 같은 표시 장치를 결합하여 구현될 수도 있다.

그리고 사용자 인터페이스부(120)는 결정된 구성 명사를 표시할 수 있다. 구체적으로, 사용자 인터페이스부(120)는 후술할 결정부(160)에서 결정된 복합명사에 대한 결정된 구성 명사를 표시할 수 있다. 본 실시 예에서는 결정된 구성 명사를 표시하는 실시 예만을 설명하였으나, 인쇄 장치를 이용하여 결정된 구성 명사를 출력할 수도 있으며, 결정된 구성 명사를 외부장치로 전송하는 형태로도 구현될 수 있다.

저장부(130)는 복합명사를 저장한다. 구체적으로, 저장부(130)는 입력부(110)를 통하여 입력받은 복합명사를 저장할 수 있다. 그리고 저장부(130)는 복합명사에 대한 구성 명사를 저장한다. 구체적으로, 저장부(130)는 후술할 결정부(160)에서 결정된 복합명사에 대한 결정된 구성 명사를 저장할 수 있다.

그리고 저장부(130)는 원어 정보 사전을 저장한다. 여기서 원어 정보 사전은 한국어 명사 및 각 명사의 뜻풀이를 갖는 사전이다. 원어 정보 사전의 구체적인 내용은 도 6 및 도 7과 관련하여 후술한다. 그리고 저장부(130)는 4음절 이상의 고유명사 리스트를 저장한다. 구체적으로, 저장부(130)는 고유 명사 중 4음절 이상의 명사의 리스트를 저장할 수 있다.

한편, 저장부(130)는 복합명사 분석장치(100) 내의 저장매체 및 외부 저장매체, 예를 들어 USB 메모리를 포함한 Removable Disk, 외부 장치에 연결된 저장매체, 네트워크를 통한 웹 서버(Web server) 등으로 구현될 수 있다. 구체적으로, 상술한 바와 같은 원어 정보 사전 및 고유 명사 리스트는 사용자 어휘 지능망(U-WIN)으로 구현되어 있을 수 있다.

추출부(140)는 입력받은 복합명사를 분해하여 복수의 구성 명사로 구성된 의미분석 후보를 추출한다. 구체적으로, 추출부(140)는 복합명사를 음절단위로 분해하고, 분해된 음절을 인접하게 조합하여 복수의 분해 후보를 생성하고, 생성된 분해 후보 각각의 조합된 음절들에 대한 어절의 수, 미등록의 수 및 등록어의 수 중 적어도 하나의 수를 이용하여 복수의 분해 후보 중 하나를 의미분석 후보로 결정할 수 있다. 이때, 추출부(140)는 저장부(130)에 저장된 4음절 이상의 고유명사 리스트에 존재하지 않는 4음절 이상으로 이루어진 조합된 음절을 갖는 분해 후보는 생성된 복수의 분해 후보에서 제외할 수 있다.

의미 검색부(150)는 추출된 복수의 의미분석 후보마다 의미분석 후보의 구성 명사 각각의 표제어를 검색한다. 이때, 의미 검색부(150)는 구성 명사를 인접하게 조합하고, 조합된 구성 명사에 대한 원어 정보가 저장부(130)에 저장된 원어 정보 사전에 존재하는지를 판단하고, 원어 정보에 대응하는 표제어 이외의 '원어 정보가 존재하는 조합된 구성 명사 각각의 표제어'는 제외하여 구성 명사 각각의 표제어를 검색할 수 있다.

그리고 의미 검색부(150)는 원어 정보 사전을 이용하여 인접한 구성 명사 간의 표제어별 유사도를 분석한다. 구체적으로, 의미 검색부(150) 표제어의 원어 정보 사전의 뜻풀이 내의 명사의 공유 개수를 이용하여 인접한 구성 명사 간의 표제어별 유사도를 분석할 수 있다. 구체적인 유사도 분석 방법에 대해서는 도 4, 도 8, 도 9를 참고하여 후술한다.

결정부(160)는 분석된 표제어별 유사도에 따라, 복합명사를 구성하는 구성 명사를 결정한다. 구체적으로, 결정부(160)는 복수의 의미분석 후보 중 유사도의 값이 가장 높은 의미분석 후보를 입력부(110)를 통해 입력받은 복합명사의 구성 명사를 결정할 수 있다.

제어부(170)는 복합명사 분석장치(100)에 포함된 각 구성을 제어할 수 있다. 구체적으로, 제어부(170)는 입력부(110)를 통하여 복합명사가 입력되면, 입력된 복합명사를 구성하는 구성 명사가 결정될 수 있도록 추출부(140), 의미 검색부(150) 및 결정부(160)를 제어할 수 있다.

이상과 같이 본 실시 예에 따른 복합명사 분석장치(100)는 모든 분해 가능한 경우를 대상으로 삼고 사전과 말뭉치에서 추출한 위치별 명사 빈도 정보를 이용해 음절 및 분해 패턴의 제약을 없앨 수 있다. 그리고 사전의 원어 정보를 사용하여 1음절만 사전에 존재하더라도 유사도 분석 대상의 크기를 크게 줄일 수 있으며 구성 명상의 의미를 제약해 의미 결합의 정확도를 높일 수 있다. 또한, 유사도 분석시 문제가 되는 데이터 부족현상을 7가지 대상으로부터 해결할 수 있게 된다.

도 2는 추출부(140)의 동작을 설명하기 위한 도면이다.

n음절의 복합명사가 분해될 수 있는 후보는 모두 1음절로 나누어지는 경우와 분해되지 않는 경우를 제외한 총 2^n-1-2가지이다. 각 후보에 말뭉치(또는, 분해된 음절들의 조합, 이하에서는 말뭉치라고 한다)로부터 얻은 위치별 명사 빈도를 부여해 확률에 따른 순위를 매기고 이를 분해 리스트(또는 분해 후보 리스트)로 사용할 수 있다. 가장 높은 확률의 후보는 추출한 빈도가 나타내는 정답이지만 태깅을 위한 유사도 분석은 U-WIN 사전에 기반으로 항상 정답이 될 수 없다. 따라서, 복합명사의 분해된 말뭉치는 그 의미를 비교하기 위해 사전에 존재하는 형태로 분해되어야 한다.

이러한 점에서, 추출부(140)는 의미분석 후보 중 분해 후보들의 어절, 미등록어, 등록어의 수를 비교하며 도 2와 같은 확률 순으로 어절 및 미등록어 수가 최소, 등록어 수가 최대인 경우를 가장 만족하는 후보를 최적 후보로 선택한다. 한편, 1음절의 경우 대부분이 동형이의어로 사전에 등재되어 있으므로 의미 분석시 오 분석의 확률이 높다는 점에서, 미등록어로 처리할 수 있다.

도 3은 의미범위 축소를 위한 원어 정보 사용의 예를 도시한 도면이다.

의미분석에 사용될 후보에 4음절 이상으로 이루어진 1어절이 구성 명사로 존재할 수 있다. 이는 말뭉치에서 추출한 구성 명사(1-gram) 명사 리스트와 사전에 표제어로 존재하기 때문인데 재분해가 필요없는 고유명사나 외래어를 제외하고 단위 명사별 의미와 유사도 비교를 위해서는 재분해가 필요하다. 따라서, 추출부(140)는 재분해 대상을 판별하기 위해 각각 태깅된 말뭉치에서 4음절 이상의 고유명사를 추출하여 만든 고유명사 리스트와 U-WIN 사전에 존재하는 원어 정보를 이용하며 확률 순으로 분해된 재분해 대상이 존재하는 가장 높은 확률의 형태로 분해할 수 있다.

한편, 분석 후보 선택 후 2-gram(또는 인접하게 조합된 구성 명사, 이하에서는 2-gram이라고 함) 유사도를 측정하는데 U-WIN의 개념 노드는 다의어 수준으로 구축되어 있어 관계정보를 이용한 명사 추출 범위, 유사도 측정 대상, 의미 체인 결합수가 방대해진다. 특정 2-gram은 실제 정답과 상이한 의미의 높은 유사도로 그 의미가 변질되어 정확도가 낮아질 수 있다. 이를 위해 의미 검색부(150)는 원어 정보를 이용하여, 인접하게 조합된 구성 명사가 표제어로 존재하고 원어 정보가 일부분에 존재할 경우 유사도 분석 대상을 이 원어를 포함하는 표제어로 한정할 수 있다.

예를 들어, 복합명사 ‘한국정당정치연구’의 경우 최적의 분해 패턴으로 ‘2+2+2+2‘가 선택되며 각 구성 명사는 8, 13, 7, 9개의 표제어를 가질 수 있다. 여기서 인접한 2-gram중 정당정치(政黨政治)‘가 사전에 등재되어 있고 원어 정보도 존재하므로 도 3과 같이 그 뜻을 ’정당_07‘(政黨), ’정치_03‘(政治)으로 한정하면 아래의 표 1과 같이 과 같이 복잡도를 줄일 수 있다.

	2-gram 유사도 비교	의미 결합
범위 축소 전	503	6652
범위 축소 후	107	72

한편, 도 3의 단말 노드들은 최적 분해 결과의 의미인‘ 한국_05’, ‘정치_03’, ‘정당_07‘, ’연구_03‘과 분해 후보에서 자주 등장했던 ’당정_01‘이다.

도 4에 도시된 바와 같이, ’당정_01‘의 경우 U-WIN 계층상 의미적으로도 ’정당_07‘과 관련이 높은 형제(sibling)관계인데 ’정치_03‘의 개념이 포함된 ’정당_07‘의 상위어보다 그 유사도가 낮은바, 의미 검색부(140)는 정답 의미 태깅을 위한 구성 명사로서 최적이 아닌 것으로 판단할 수 있다.

이처럼 거리가 가깝고 유사할수록 비슷한 개념을 이용해 뜻풀이를 표현하는 것에 따라 사전 뜻풀이와 관계정보를 기반으로 문서 유사도 측정방법 중 하나인 자카드 유사도 계수(Jaccard similarity coefficient)를 이용해 구성 명사 간 유사도를 분석한다. 구체적으로, 도 5에 본 실시 예에 따른 자카드 유사도 계수를 산출하는 공식이 도시되어 있다. 구체적으로, 각 개념의 뜻풀이를 구성하는 명사들의 존재 유무를 비대칭 이진 속성(Asymmetric binary attributes)으로 객체를 구성하고 이를 비교해 유사도를 구할 수 있다. 유사도의 비교 단위인 개념의 의미집단을 나타내는 벡터를 구성하기 위해 다음과 같은 범위에서 관계정보와 뜻풀이 패턴을 이용해 명사류(일반, 고유)를 추출할 수 있다.

1. 표제어의 뜻풀이.

2. 1차 하위어들의 뜻풀이

3. 최상위 어까지 존재하는 모든 상위어들의 뜻풀이

4. 표제어의 동의어 관계인 표제어의 뜻풀이

5. 표제어의 뜻풀이에서 추출된 명사류의 뜻풀이

6. 표제어의 뜻풀이가 [표 2]의 ‘~이르는(던) 말’ 류인 경우 그 대상 명사(들)의 뜻풀이

7. 표제어의 뜻풀이가 ‘~의 방언’, ‘~의 잘못’, ‘~의 옛말’,‘~을(를) 우리 한자음으로 읽은 이름’, ‘~(으)로 순화’,‘~의 음역어’ 인 경우 이 대상 명사의 뜻풀이

위와 같이 7종류의 대상으로부터 명사를 추출하는 이유는 표제어의 의미를 정의하는 뜻풀이가 한국어의 경우 매우 짧게 나타나는 경우가 많아 의미 관계 정보의 추출에 한계가 있기 때문이다.

구체적으로, 1차 하위어는 표제어에서 나타나지 않거나 추상적인 경우를 위함이며, 1차로 한정한 이유는 2차 이상 적용시 개수가 많으면 의미가 변질될 수 있기 때문이다. 그리고 상위어들은 표제어와 1차 하위어에서 공유하는 개념이 없거나 하위어가 없는 경우 체인 합성시 실제 정답인 낮은 확률의 체인도 미량의 확률을 부여해 후보로 사용하기 위함이다. 도 7과 같은 표제어는 뜻풀이에 동의어를 명시하는 경우가 있어 추출 범위가 더 한정적이다.

한편, 유사도를 얻기 위해 태깅된 공유 명사 개수를 세는데 비슷한 의미이지만 다른 표제어를 사용해 유사도가 낮은 경우가 있다. 이를 위해 동의어 관계 존재시 그 뜻풀이도 포함할 수 있다. 구체적으로, 도 6과 같은 패턴이 뜻풀이에 있는 경우 동의어와 같이 대상 명사에 관련 뜻풀이가 있으므로 대상 명사의 뜻풀이에서 명사류를 추출할 수 있다.

아래의 표 2는 ‘～이르는 말’의 한 패턴인 ‘～아울러 이르는 말’의 예와 대상 명사인 ‘정당_07’, ‘정부_08’의 뜻풀이이다.

표제어	뜻풀이
당정_01	정당과 정부를 아울러 이르는 말. 흔히 정당 중에서도 여당과 정부를 이르는 말이다.
정당_07	정치적인 주의나 주장이 같은 사람들이 정권을 잡고 정치적 이상을 실현하기 위하여 조직한
정부_08	행정부

‘당정_01’의 뜻풀이에서 ‘정당’, ‘정부’, ‘여당’ 등의 명사가 나타나나 개수와 그 빈도가 유사도 측정에 불충분해 대상 명사의 뜻풀이에서도 명사류를 추출할 수 있다. 이러한 패턴들을 적용함으로써 데이터 부족 현상을 해결할 수 있다. 이 밖에도 방언, 비표준어, 옛말, 외래어, 순화어, 음역어 등에 대해서도 같은 형식으로 추출할 수 있다. 이렇게 계산된 구성 명사 벡터 A, B의 2-gram 유사도는 추가로 2가지의 가중치를 더한다.

(예1) 벡터 A의 속성으로 구성 명사 B, 벡터 B의 속성으로 구성 명사 A가 쓰인 빈도.

(예2) 벡터 A의 속성으로 구성 명사 A, 벡터 B의 속성으로 구성 명사 B가 쓰인 빈도

(예1)의 경우, 직접적으로 관계가 깊다는 뜻이므로 가중치를 부여하며 두 번째 경우, 뜻풀이로 자신의 표제어가 많이 쓰였으므로 다른 동형이의어 및 다의어보다 대표성을 지닌다고 볼 수 있어 가중치를 부여할 수 있다. 반드시 첫 번째 가중치는 관계에 관한 것이므로 두 번째 가중치보다 높아야 한다.

도 8은 의미 태깅 알고리즘을 나태는 도면이다. 여기서, 의미 태깅 알고리즘은 의미 태깅을 위해 입력된 문자열에 앞서 측정한 분석 리스트를 이용하여 의미 체인을 완성하는 알고리즘이다.

도 8을 참고하면, 먼저, 유사도 분석 결과의 존재인데 결과가 없을 경우 태깅이 불가능하므로 최적 분해 후보를 반환한다. 그렇지 않을 경우 유사도를 순위별로 이용하며, 이는 가장 의미 관계가 깊은 2-gram을 주축으로 전체의 의미적 방향을 잡고 연쇄적인 체인을 구성해 각 구성 명사의 의미를 얻기 위함이다. 도 9에는 ‘한국정당정치연구’의 유사도 분석 결과를 이용한 태깅을 도식화한 것으로 가장 높은 유사도는 의미의 기준이며 최초 태깅이므로 조건 없이 태깅을 수행할 수 있다. 두 번째 후보인 ‘한국_05 / 정치_03’의 경우 태깅된 ‘정치_03’이 도 9와 같이 체인으로 연결되어 앞 명사 태깅을 수행하며 이미 태깅된 후보는 건너뛸 수 있다. 이 과정은 모든 구성 명사에 태그 부착이 완료되거나 분석 리스트를 모두 참조할 때까지 수행된다. 한편, 이러한 의미 태깅 알고리즘은 상술한 의미 검색부(150)에서 수행될 수 있다.

도 9 내지 도 11은 본 실시 예에 따른 복합명사 분석장치의 실험 결과를 나타내는 도면이다.

구체적으로, 성능 평가를 위해 사전에서 추출한 3음절 이상의 복합명사 40,872개를 수집하여 실험에 임하였으며 그 결과 도 10과 같이 90.49%의 정확도를 보였다. 하지만, 정확한 의미 분별이 필요한 테스트 셋의 특성상 프로그램으로 얻은 테스트 셋이 잘못되고 본 시스템의 분석결과가 옳은 경우도 많이 있었으므로 이를 보정한다면 정확도는 더욱 향상될 것이다.

그리고 오 분석된 복합명사는 아래의 표 3과 같이 대부분이 분해는 잘되었으나 의미분석이 틀린 어절의 수가 같은 경우와 분해 자체가 잘못된 어절의 수가 다른 경우로 나뉠 수 있다.

	같은 어절 분해	다른 어절 분해
오 분석 개수	2,369	1,516

전자의 경우, 즉, 같은 어절 분해의 오 분석은 테스트 셋의 잘못된 태그나 테스트 셋과 분석된 구성 명사의 의미가 사전적으로 비슷해 정답이 될 수 있는 경우에 의한 경우이다. 그리고 후자의 경우, 즉 다른 어절 분해의 오 분석은 외래어와 의미 분석을 위한 분석단위가 잘못 정해진 경우가 대부분인데 이 중, 테스트 셋의 구성 명사가 최소 단위로 분해되지 않아 이러한 어절을 포함한 복합명사는 도 11과 같이 옳은 분석에도 오판한 경우가 많았다. 테스트 셋의 옳은 태그 부착, 미등록어와 분해교정에 대한 처리를 강화한다면 성능이 더욱 개선될 수 있다.

도 12는 본 실시 예에 따른 복합명사 분석 방법을 설명하기 위한 흐름도이다.

도 12를 참고하면, 먼저, 복합명사를 입력받는다(S1210). 그리고 입력받은 복합명사를 분해하여 복수의 구성 명사로 구성된 의미분석 후보를 추출한다(S1220). 구체적으로, 복합명사를 음절단위로 분해하고, 분해된 음절을 인접하게 조합하여 복수의 분해 후보를 생성하고, 생성된 분해 후보 각각의 조합된 음절들에 대한 어절의 수, 미등록의 수 및 등록어의 수 중 적어도 하나의 수를 이용하여 복수의 분해 후보 중 하나를 의미분석 후보로 결정할 수 있다. 이때, 기저장된 4음절 이상의 고유명사 리스트에 존재하지 않는 4음절 이상으로 이루어진 조합된 음절을 갖는 분해 후보는 생성된 복수의 분해 후보에서 제외할 수 있다.

그리고 추출된 복수의 의미분석 후보마다 의미분석 후보의 구성 명사 각각의 표제어를 검색한다. 이때, 구성 명사를 인접하게 조합하고, 조합된 구성 명사에 대한 원어 정보가 기저장된 원어 정보 사전에 존재하는지를 판단하고, 원어 정보에 대응하는 표제어 이외의 '원어 정보가 존재하는 조합된 구성 명사 각각의 표제어'는 제외하여 구성 명사 각각의 표제어를 검색할 수 있다.

원어 정보 사전을 이용하여 인접한 구성 명사 간의 표제어별 유사도를 분석하고, 분석된 표제어별 유사도에 따라, 복합명사를 구성하는 구성 명사를 결정한다(S1240). 구체적으로, 표제어의 원어 정보 사전의 뜻풀이 내의 명사의 공유 개수를 이용하여 인접한 구성 명사 간의 표제어별 유사도를 분석할 수 있다.

그리고 결정된 구성 명사를 표시한다(S1250).

따라서, 본 실시 예에 따른 복합명사 분석 방법은 모든 분해 가능한 경우를 대상으로 삼고 사전과 말뭉치에서 추출한 위치별 명사 빈도 정보를 이용해 음절 및 분해 패턴의 제약을 없앨 수 있다. 그리고 사전의 원어 정보를 사용하여 1음절만 사전에 존재하더라도 유사도 분석 대상의 크기를 크게 줄일 수 있으며 구성 명상의 의미를 제약해 의미 결합의 정확도를 높일 수 있다. 또한, 유사도 분석시 문제가 되는 데이터 부족현상을 7가지 대상으로부터 해결할 수 있게 된다. 도 12와 같은 복합명사 분석 방법은 도 1의 구성을 가지는 복합명사 분석장치상에서 실시될 수 있으며, 그 밖의 구성을 가지는 복합명사 분석장치상에서도 실행될 수 있다.

또한, 상술한 바와 같은 복합명사 분석 방법은, 상술한 바와 같은 복합명사 분석 방법을 실행하기 위한 적어도 하나의 실행 프로그램으로 구현될 수 있으며, 이러한 실행 프로그램은 컴퓨터 판독 기록매체에 저장될 수 있다.

따라서, 본 발명의 각 블록들은 컴퓨터 판독가능한 기록매체 상의 컴퓨터 기록 가능한 코드로써 실시될 수 있다. 컴퓨터 판독가능한 기록매체는 컴퓨터시스템에 의해 판독될 수 있는 데이터를 저장할 수 있는 디바이스가 될 수 있다.

이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형 실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어 져서는 안 될 것이다.

100: 복합명사 분석장치 110: 입력부
120: 사용자 인터페이스부 130: 저장부
140: 추출부 150: 의미 검색부
160: 결정부 170: 제어부

Claims

복합명사 분석장치에 있어서,
복합명사를 입력받는 입력부;
상기 입력받은 복합명사를 분해하여 복수의 구성 명사로 구성된 의미분석 후보를 추출하는 추출부;
상기 추출된 복수의 의미분석 후보마다 의미분석 후보의 구성 명사 각각의 표제어를 검색하고, 원어 정보 사전을 이용하여 인접한 구성 명사 간의 표제어별 유사도를 분석하는 의미 검색부; 및
상기 분석된 표제어별 유사도에 따라, 상기 복합명사를 구성하는 구성 명사를 결정하는 결정부;를 포함하는 복합명사 분석장치.
제1항에 있어서,
상기 추출부는,
상기 복합명사를 음절단위로 분해하고, 분해된 음절을 인접하게 조합하여 복수의 분해 후보를 생성하고, 생성된 분해 후보 각각의 조합된 음절들에 대한 어절의 수, 미등록의 수 및 등록어의 수 중 적어도 하나의 수를 이용하여 복수의 분해 후보 중 하나를 의미분석 후보로 결정하는 것을 특징으로 하는 복합명사 분석장치.
제2항에 있어서,
상기 추출부는,
기저장된 4음절 이상의 고유명사 리스트에 존재하지 않는 4음절 이상으로 이루어진 조합된 음절을 갖는 분해 후보는 상기 생성된 복수의 분해 후보에서 제외하는 것을 특징으로 하는 복합명사 분석장치.
제1항에 있어서,
상기 의미 검색부는,
상기 구성 명사를 인접하게 조합하고, 상기 조합된 구성 명사에 대한 원어 정보가 상기 원어 정보 사전에 존재하는지를 판단하고, 상기 원어 정보에 대응하는 표제어 이외의 '원어 정보가 존재하는 조합된 구성 명사 각각의 표제어'는 제외하여 표제어별 유사도 분석을 수행하는 것을 특징으로 하는 복합명사 분석장치.
제1항에 있어서,
상기 의미 검색부는,
상기 표제어의 원어 정보 사전의 뜻풀이 내의 명사의 공유 개수를 이용하여 인접한 구성 명사 간의 표제어별 유사도를 분석하는 것을 특징으로 하는 복합명사 분석장치.
제1항에 있어서,
상기 결정된 구성 명사를 표시하는 사용자 인터페이스부;를 더 포함하는 것을 특징으로 하는 복합명사 분석장치.
복합명사 분석 방법에 있어서,
복합명사를 입력받는 단계;
상기 입력받은 복합명사를 분해하여 복수의 구성 명사로 구성된 의미분석 후보를 추출하는 단계;
상기 추출된 복수의 의미분석 후보마다 의미분석 후보의 구성 명사 각각의 표제어를 검색하는 단계;
원어 정보 사전을 이용하여 인접한 구성 명사 간의 표제어별 유사도를 분석하는 단계; 및
상기 분석된 표제어별 유사도에 따라, 상기 복합명사를 구성하는 구성 명사를 결정하는 단계;를 포함하는 복합명사 분석 방법.
제7항에 있어서,
상기 추출부하는 단계는,
상기 복합명사를 음절단위로 분해하는 단계; 및
상기 분해된 음절을 인접하게 조합하여 복수의 분해 후보를 생성하는 단계;
상기 생성된 분해 후보 각각의 조합된 음절들에 대한 어절의 수, 미등록의 수 및 등록어의 수 중 적어도 하나의 수를 이용하여 복수의 분해 후보 중 하나를 의미분석 후보로 결정하는 단계;를 포함하는 것을 특징으로 하는 복합명사 분석 방법.
제8항에 있어서,
상기 의미분석 후보로 결정하는 단계는,
기저장된 4음절 이상의 고유명사 리스트에 존재하지 않는 4음절 이상으로 이루어진 조합된 음절을 갖는 분해 후보는 상기 생성된 복수의 분해 후보에서 제외하는 것을 특징으로 하는 복합명사 분석 방법.
제7항에 있어서,
상기 유사도를 분석하는 단계는,
상기 구성 명사를 인접하게 조합하고, 상기 조합된 구성 명사에 대한 원어 정보가 상기 원어 정보 사전에 존재하는지를 판단하고, 상기 원어 정보에 대응하는 표제어 이외의 '원어 정보가 존재하는 조합된 구성 명사 각각의 표제어'는 제외하여 표제어별 유사도 분석을 수행하는 것을 특징으로 하는 복합명사 분석 방법.
제7항에 있어서,
상기 유사도를 분석하는 단계는,
상기 표제어의 원어 정보 사전의 뜻풀이 내의 명사의 공유 개수를 이용하여 인접한 구성 명사 간의 표제어별 유사도를 분석하는 것을 특징으로 하는 복합명사 분석 방법.
제7항에 있어서,
상기 결정된 구성 명사를 표시하는 단계;를 더 포함하는 것을 특징으로 하는 복합명사 분석 방법.