KR20150043065A

KR20150043065A - 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치 및 방법

Info

Publication number: KR20150043065A
Application number: KR20130122054A
Authority: KR
Inventors: 김창현; 김영길; 권오욱; 나승훈; 노윤형; 서영애; 이기영; 정상근; 최승권; 김운; 박은진; 신종훈; 황금하
Original assignee: 한국전자통신연구원
Priority date: 2013-10-14
Filing date: 2013-10-14
Publication date: 2015-04-22
Also published as: KR101740330B1

Abstract

단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치 및 방법이 개시된다. 본 발명에 따른 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 방법은 중의성이 발생하는 단어에 대한 중의성 후보 사전을 구축하는 단계, 중의성이 발생하는 단어를 대상으로 대규모 원시 코퍼스에서 공기정보를 추출하는 단계, 입력된 문장에 대해 형태소 분석 결과를 생성하는 단계 및 공기 정보를 기반으로 상기 형태소 분석 결과를 수정하는 단계를 포함한다.

Description

단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치 및 방법{APPARATUS AND METHOD FOR CORRECTING MULTILANGUAGE MORPHOLOGICAL ERROR BASED ON CO-OCCURRENCE INFORMATION}

본 발명은 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치 및 방법에 관한 것이다. 특히, 본 발명은 공기정보 기반의 형태소 분석 방법을 도입함으로써 특정 언어에 의존적이지 않는 단어 공기정보에 기반한 다국어 형태소 분석 오류 정정 장치 및 방법에 관한 것이다.

현재 가장 많이 활용되는 형태소 분석 방법은 통계와 사전에 기반한 접근법으로, 품사 태깅된 코퍼스로부터 학습된 확률 정보와 이와 별도로 수동으로 기 구축된 어휘 사전으로 구성된다.

이러한 종래의 형태소분석 방법은 대부분 단어 기반(word-based) 접근법인데, 개별 단어(word) 또는 형태소(morpheme)마다 품사를 부착할 수 있게 된다.

그러나, 이러한 단어 기반 방식에서는 단어 단위로 태깅이 이루어지기 때문에, 단어의 중의성이 높은 경우, 해당 단어의 품사 결정 시의 중의성을 크게 높여, 결과적으로 품사 부착 성능을 크게 저하시킬 수 있게 된다.

특히, 한국어와 같이 두 개 이상의 형태소가 결합해 하나의 어절을 이루는 언어의 경우에는 단어의 중의성이 상당히 높아지고, 이로 인해 형태소 분할 및 태깅 과정에서의 복잡도가 올라감으로써 형태소 분석 성능이 저하될 수 있다.

이러한 문제를 해소하기 위해, 기존 형태소 분석 방법론에서는 단어보다 긴 어절이나 부분어절에 대해 기분석 사전을 구축하여, 입력문이 주어질 때 각 어절별로 기분석 사전의 분석 후보 결과를 조합하는 방식으로 품사 태깅을 수행하는 방식을 제안했다.

그러나, 이러한 어절 또는 부분어절 기반 방식들은, 기분석 사전의 분석 후보가 2개 이상일 경우에는, 기분석 결과를 조합하여 최적의 분석 결과를 찾는 과정에서, 통계 기반 방법에서 활용되는 디코더와 같은 통합된 확률적 프레임워크를 정의하지 못하여, 최적 분석 결과를 탐색하는 과정이 수학적으로 간결하지 않고 휴리스틱적이며, 다양한 자질을 효과적으로 통합하지 못하는 단점이 있다.

게다가, 이러한 방법론을 적용하더라도, 분석 과정에서 고려할 수 있는 문맥정보의 크기가 제한됨으로써 여전히 올바른 분석 결과를 생성해내기 어려운 현상들이 존재한다.

예를 들어, "산에 가느니 집에서 쉬자" 같은 단어의 중의성이 높은 문장을 살펴보도록 한다.

위 문장에서 "가느니" 라는 어절은 "가늘+니", "갈+느니", "가+느니" 와 같은 3가지 분석이 가능하다.

그러나, 이러한 3가지 분석 후보 가운데 어느 것이 정확한 분석인지는 문장의 의미를 정확하게 알지 않고서는 결정하기가 쉽지 않으며, 기존의 기분석 사전이나 확률적 방법을 통해서는 이러한 문제를 해결하기 어렵다.

이러한 문제 이외에도, 기존의 형태소 분석 과정상에서 새로운 처리 방법론과의 결합방식은 다국어 확장성에도 문제가 된다.

아울러, 한국등록특허 0474823호에서는 자연어의 품사 태깅 장치 및 그 방법에 관하여 기술하고 있으나, 이는 오류 보정 데이터가 미리 수작업에 의해 준비되어 있어야 하는 제약이 있다는 점에서 한계가 있다.

따라서, 품사 태깅의 효율성 측면과 다국어 확장성 측면에서의 상기 기술한 기존 방식의 기술적 한계를 극복하는 기술이 필요한 실정이다.

본 발명의 목적은, 공기정보 기반의 형태소 분석 방법을 도입함으로써, 다국어적 확장성의 한계를 해결하여 기존의 형태소 분석에 비해 성능을 향상시키는 것이다.

또한, 본 발명의 목적은 형태소를 분석하는 과정 이후에 형태소 분석 결과의 수정 형태를 취함에 따라, 특정 형태소 분석 방법론이나 특정 언어에 의존적이지 않는 기술을 제공하는 것이다.

상기한 목적을 달성하기 위한 본 발명에 따른 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 방법은, 중의성이 발생하는 단어에 대한 중의성 후보 사전을 구축하는 단계, 상기 중의성이 발생하는 단어를 대상으로 대규모 원시 코퍼스에서 공기 정보를 추출하는 단계, 입력된 문장에 대해 형태소 분석 결과를 생성하는 단계 및 상기 공기 정보를 기반으로 상기 형태소 분석 결과를 수정하는 단계를 포함한다.

본 발명에 따르면, 공기정보 기반의 형태소 분석 방법을 도입함으로써, 다국어적 확장성의 한계를 해결하여 기존의 형태소 분석에 비해 성능을 향상시킬 수 있다.

또한, 본 발명에 따르면, 형태소를 분석하는 과정 이후에 형태소 분석 결과의 수정 형태를 취함에 따라, 특정 형태소 분석 방법론이나 특정 언어에 의존적이지 않는 기술을 제공할 수 있다.

도 1은 본 발명에 따른 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 방법의 흐름도이다.
도 2는 본 발명에 따른 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치의 블록도이다.
도 3은 본 발명에 따른 형태소 분석 오류가 발생한 경우의 오류 정정의 일 실시예이다.

본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다.

본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다.

따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

도 1은 본 발명에 따른 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 방법의 흐름도이다.

도 1을 참조하면, 본 발명에 따른 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 방법은 중의성이 발생하는 단어에 대한 중의성 후보 사전을 구축하는 단계(S10), 중의성이 발생하는 단어를 대상으로 대규모 원시 코퍼스에서 공기정보를 추출하는 단계(S20), 입력된 문장에 대해 형태소 분석 결과를 생성하는 단계(S30) 및 공기 정보를 기반으로 상기 형태소 분석 결과를 수정하는 단계(S40)를 포함한다.

도 2는 본 발명에 따른 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치의 블록도이다. 도 3은 본 발명에 따른 형태소 분석 오류가 발생한 경우의 오류 정정의 일 실시예이다.

도 2를 참조하면, 본 발명에 따른 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치(100)는, 형태소 분석 후보 생성 모듈(110), 최적해 선택 모듈(120) 및 공기 정보 기반 수정 모듈(130)을 포함한다.

여기서, 형태소 분석 후보 생성 모듈(110)은 입력 문장 가운데에 중의적 분석이 가능한 경우, 가능한 모든 분석 후보를 생성하는 기능을 수행한다.

또한, 최적해 선택 모듈(120)은 모든 가능한 분석 후보들 가운데 가장 가능성이 높은 하나의 분석 결과만을 선택하는 기능을 수행한다.

또한, 공기 정보 기반 수정 모듈(130)은 최적해 선택 모듈(120)에서 생성한 형태소 분석 결과에 대해, 공기정보기반의 결과 검증을 수행하고, 이를 통해 형태소 분석 결과에 오류가 존재한다고 판단될 경우 해당 오류를 수정하는 기능을 수행한다.

도 2 및 3을 참조하여, 본 발명에 따른 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 방법의 전체적인 동작을 설명하도록 한다.

S10 단계에서는 중의성이 발생하는 단어에 대한 중의성 후보 사전을 구축한다.

구체적으로, 도 2를 참조하면, 웹이나 블로그, 각종 신문 기사 등으로 구성된 대용량 원시코퍼스에 대해, 최적해 선택 모듈 이전까지의 형태소 분석 결과인 형태소 분석 후보 생성모듈을 수행하여 중의적 단어들을 대상으로 하는 중의적 단어사전을 구축한다. 형태소 분석 후보 생성 모듈은 입력 문장 가운데에 중의적 분석이 가능한 경우, 가능한 모든 분석 후보를 생성하며, 이렇게 생성된 일 예는 아래의 표 1 같다.

입력어절: 가는지 분석후보: 가/V+는지/E 갈/V+는지/E 가늘/A+ㄴ지/E	입력어절: 가느니 분석후보: 가늘/A+니/E 갈/V+느니/E 가/V+느니/E
입력어절: 사는 분석후보: 사/N+는/J 사/V+는/E 살/V+는/E	입력어절: 주는 분석후보: 주/N+는/J 주/V+는/E 줄/V+는/E
V:동사, E:어미, N:명사, J:조사

즉, 입력어절 '가는지'에 대해서는, '가/V+는지/E', '갈/V+는지/E', '가늘/A+ㄴ지/E' 로 3개의 중의적 분석이 가능하다.

또한, 입력어절 '가느니'에 대해서는, '가늘/A+니/E', '갈/V+느니/E','가/V+느니/E'로 3개의 중의적 분석이 가능하다.

또한, 입력어절 '사는'에 대해서는, '사/N+는/J', '사/V+는/E', '살/V+는/E'로 3개의 중의적 분석이 가능하며, 입력어절 '주는'에 대해서는, '주/N+는/J', '주/V+는/E', '줄/V+는/E'로 3개의 중의적 분석이 가능하다.

위와 같이 생성된 어절별 분석부호가 중의적 단어 사전에는 아래의 예와 같이 저장된다.

예: Key : 가는지, Value : 가/V+는지/E, 갈/V+는지/E, 가늘/A+ㄴ지/E

S20 단계에서는 중의성이 발생하는 단어를 대상으로 대규모 원시 코퍼스에서 공기 정보를 추출한다.

구체적으로, 후술할 S40단계에서 형태소 분석 결과에 대해 공기 정보 기반의 형태소 분석 결과를 수정하기 위해 활용할 공기정보사전 및 공기 정보를 추출하는 사례를 살펴보도록 한다.

여기서, 공기정보사전이란, '명사+격조사 용언' 형태로 구성되는 사전을 말한다. 예를 들면, '사과/N+를/J 사/V+다/E' 와 같은 형태의 엔트리가 공기정보사전을 구성한다.

공기정보사전은 중의적 단어사전을 구성하는 것과는 달리 수행된다. 즉, 공기정보사전은 형태적, 구조적 중의성이 없는 분석 결과만을 이용하여 구축된다. 아래의 표 2를 참조하여 구체적인 예를 보도록 한다.

문장 : 산에 가느니 집에 가자.
산에	가느니	집에	가자
산/N+에	가늘/A+니/E 갈/V+느니/E 가/V+느니/E	집/N+에/J	가/V+자/E

표 2를 참조하면,'산+에 가늘/갈/가' 의 경우 형태적 중의성이 있으므로 공기정보대상에서 제외되고, '집+에 가' 의 경우만이 공기정보대상으로 선정된다.

공기정보 선정 시 구조적 중의성의 유무를 판단하는 방법은 다양한 휴리스틱을 적용할 수 있으며, 해당 휴리스틱의 일례는 '명사+격조사 연결어미', '명사+격조사 부사 연결어미', '명사+격조사 종결어미', '명사+격조사 부사 종결어미'와 같다.

공기정보를 추출하는 다른 사례를 보면 아래의 표3과 같다.

문장 : 화가 나더라도 화를 참자.
화가	나더라도	화를	참자
화/N+가/J 화가/N	나/V+더라도/E	화/N+를/J	참/V+자

표 3을 참조하면,'화가'의 경우 '화+'와 '화가' 라는 2가지 분석 중의성이 존재하므로 1차적으로 공기정보대상에서 제외된다. 즉,'화/N+를/J 참/V' 만이 공기정보로 추출된다.

그러나, 이렇게 중의성이 없는 경우만을 공기정보로 추출할 경우,'화+가 나다'와 같은 공기정보는 구축될 수가 없는 문제점이 발생한다.

이러한 경우에는 다음과 같이 2가지 방법을 적용하여 공기정보를 추출할 수 있다.

1. 문맥을 통해 중의성 해소가 가능한 경우에 있어서, 공기정보를 추출하는 방법

위의 '화가 나더라도 화를 참자' 문장의 경우, '화가'의 경우에는 '화+가'와 '화가' 라는 중의성이 발생하고 있지만, 문장 내에 '화'라는 명사가 확실히 존재함으로 인해, '화가'의 가능성보다는 '화+가'의 가능성이 크다고 판단할 수 있으므로 '화+가 나다'를 공기정보로 추출할 수 있다.

이러한 중의성 해소 판단 근거는 다양한 휴리스틱을 도입할 수 있으며, 예를 들어 1) 현재의 문장 내에 중의성 해소 근거가 있는 경우, 공기정보 추출, 2) 현재의 문장 이전에 중의성 해소 근거가 있는 경우, 공기정보 추출, 3)현재의 문장 이후에 중의성 해소 근거가 있는 경우, 공기정보 추출과 같은 휴리스틱을 적용할 수도 있다.

2. 보조사를 포함하여 공기정보를 추출하는 방법

앞서 기술한 공기정보 기술 방법은 격조사만을 대상으로 하였으나, 보조사를 포함하여 공기정보를 추출할 경우, '화+가 나다' 와 같이 중의성으로 인해 추출하기 어려운 공기정보를 추출할 수 있다.

예를 들어, '화만 났다'와 같은 문장을 통해 '화+만 나다' 형태의 공기정보를 추출할 수 있고, 이를 통해 '화+가'와 '화가' 형태의 중의성을 해결할 수 있는 정보를 확보할 수 있게 된다.

이러한 보조사를 포함한 공기정보 추출 휴리스틱의 다양한 형태 중 일례를 들면 1) 명사+보조사(도/만) 연결어미, 2) 명사+보조사 종결어미, 3) 명사+보조사 부사 종결어미와 같다.

이렇게 추출된 공기정보들은 공기정보사전은 저장되며, 이때 공기정보 사전에 저장되는 형태는 다음과 같다.

어휘공기정보1 : 명사+조사 용언

집/N+에/J 가/V 100

어휘공기정보2 : 명사 용언

집/N 가/V 150

의미공기정보1 : 명사의미+조사 용언

$장소+에 가/V 200

의미공기정보2 : 명사의미 용언

$장소 가/V 300

여기서 의미공기정보는, 어휘공기정보와, 해당 어휘공기정보의 명사의미를 참조하여 생성하며, 이때 명사의미가 중의성을 가지는 경우에는 제외하고, 명사의미가 중의성이 없는 경우에 대해서만 의미공기정보를 생성한다.

도 2를 참조하면, S30단계에서는 최적해 선택 모듈(120)을 통하여 입력된 문장에 대해 형태소 분석 결과를 생성한다.

이 때, 최적해 선택 모듈(120)은 모든 가능한 분석 후보들 가운데 가장 가능성이 높은 하나의 분석 결과만을 선택하는 모듈이다. 아래의 표 4는 최적해 선택 결과에 대한 예이다.

입력문장	산에 가느니 집에 가자.
어절단위	산에	가느니	집에	가자
형태소분석 후보 생성 모듈	산/N+에	가늘/A+니/E 갈/V+느니/E 가/V+느니/E	집/N+에/J	가/V+자/E
최적해 선택 모듈	산/N+에	갈/V+느니/E	집/N+에/J	가/V+자/E

구체적으로, 최적해 선택 모듈(120)은 형태소 분석 후보 생성 모듈(110)을 통한 단일 분석 결과인 '산/N+에', ' 집/N+에/J ' 및 ' 가/V+자/E '를 최적해로 선택하고, 형태소 분석 후보 생성 모듈(100)을 통한 3개의 분석 결과인 '가늘/A+니/E', '갈/V+느니/E' 및 '가/V+느니/E' 중에서 '갈/V+느니/E' 를 최적해로 선택한다.

*이러한 최적해 선택 모듈(120)은 최적의 해를 선택함에 있어서 이미 앞서 기술한 대로 다양한 방법론이 존재한다. 기본적으로 다양한 기계학습 방법론을 활용할 수 있으며, 품사부착말뭉치를 통해 최적해 선택에 사용할 다양한 파라미터를 학습하고 이를 실시간으로 적용하게 된다.

도 2를 계속하여 참조하면, S40단계에서는 공기정보 기반 수정모듈(130)을 통하여 공기 정보를 기반으로 형태소 분석 결과를 수정한다.

공기 정보 기반 수정 모듈(130)은, 최적해 선택 모듈(120)에서 생성한 형태소 분석 결과에 대해, 공기정보기반의 결과 검증을 수행하고, 이를 통해 형태소 분석 결과에 오류가 존재한다고 판단될 경우 해당 오류를 수정하게 된다. 다음은 공기정보기반 수정모듈을 통해 용언의 형태소 분석 오류를 수정하는 일례를 보여주고 있다.

공기 정보 기반 수정 모듈(130)에서는 1) 중의적 단어사전에 존재하는 어절을 탐색한 후, 2) 해당 어절에 대해 공기정보사전을 참조해 형태소분석 오류가 발생했을 경우 수정한다.

공기 정보 사전 정보는, '명사+조사 용언' > '명사 용언' > '$명사의미+조사 용언'의 순서대로 높은 가중치를 가진다.

도 3은 본 발명에 따른 형태소 분석 오류가 발생한 경우의 오류 정정의 일 실시예이다.

도 2 및 3을 참조하여, 명사 형태소 분석에 오류가 발생한 경우에 있어서, 오류를 수정하는 예를 살펴보도록 한다.

입력된 문장이 형태소 분석 후보 생성 모듈(110) 및 최적해 선택 모듈만(120)을 거친 결과를 수정전 결과(220)라 하며, 공기정보기반 수정 모듈을 거친 결과를 수정후 결과(240)라 한다.

예를 들어, 수정 전 결과가 '화가/N 나/V+더라도/E 화/N + 를/J 참/V + 자/E'인 경우, 공기 정보 기반 수정모듈에서는 중의성 후보사전(111)에 존재하는 '화가'를 검색하여 중의성 후보인 ' 화가/N' 및 '화/N+가/J'를 추출하고, 해당 어절에 대하여 공기정보사전(112)에 존재하는 '화/N+도/J 나/V' 및 화/N 나/V'를 참조하여 형태소 분석의 오류의 발생을 탐지하여 수정한다.

따라서, 수정된 결과(240)는 '화/N +가/J 나/V+더라도/E 화/N+를/J 참/V+자/E'가 된다.

이상에서와 같이 본 발명에 따른 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치 및 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.

100: 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치
110: 형태소 분석 후보 생성 모듈
120: 최적해 선택 모듈
130,230: 공기정보 기반 수정 모듈
220: 수정 전 결과
240: 수정 후 결과
111: 중의성 후보 사전
112: 공기 정보 사전

Claims

중의성이 발생하는 단어에 대한 중의성 후보 사전을 구축하는 단계;
상기 중의성이 발생하는 단어를 대상으로 대규모 원시 코퍼스에서 공기정보를 추출하는 단계;
입력된 문장에 대해 형태소 분석 결과를 생성하는 단계; 및
상기 공기 정보를 기반으로 상기 형태소 분석 결과를 수정하는 단계를 포함하는 것을 특징으로 하는 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 방법.