KR101813683B1

KR101813683B1 - 커널 ｒｄｒ을 이용한 태깅 말뭉치 오류 자동수정방법

Info

Publication number: KR101813683B1
Application number: KR1020160104123A
Authority: KR
Inventors: 차정원; 박태호; 신창욱; 박다솔; 박성재
Original assignee: 창원대학교 산학협력단
Priority date: 2016-08-17
Filing date: 2016-08-17
Publication date: 2017-12-29
Also published as: WO2018034426A1

Abstract

본 발명은 자연어 처리에서 기계학습을 위한 학습 말뭉치 내의 오류를 자동으로 수정하는 방법에 관한 것으로, 본 발명에 따르면, 자연어처리에서 인식 및 분류기 모델을 생성하기 위해 필요한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류의 패턴이 불규칙하여 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위해, RDR(Ripple-Down Rule)을 이용하여 오류 말뭉치와 정답 말뭉치에서 태깅된 문서의 특성을 반영한 수정규칙을 자동으로 생성하고, 기계학습을 위한 학습 말뭉치 내의 오류를 인식하여 형태소 분석 말뭉치와 개체명 말뭉치의 오류를 수정하여 대량의 말뭉치 제작시 오류를 최소화할 수 있으며, 또한, 형태소 단위로 동작하여 한국어 말뭉치의 특성을 적용 가능한 동시에, RDR 시스템에 커널이 동작하도록 구성됨으로써 커널 교체만으로 다양한 태그 말뭉치에 적용할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법이 제공된다.

Description

커널 ＲＤＲ을 이용한 태깅 말뭉치 오류 자동수정방법{Method for automatic correction of errors in annotated corpus using kernel Ripple-Down Rules}

본 발명은 자연어 처리에서 기계학습을 위한 학습 말뭉치 내의 오류를 자동으로 수정하는 방법에 관한 것으로, 더 상세하게는, 종래, 자연어처리에서 인식 및 분류기 모델을 생성하기 위해 필요한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류가 발생하게 되나, 이러한 오류의 패턴이 불규칙하여 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위해, RDR(Ripple-Down Rule) 시스템에 커널이 동작하도록 하여 커널 교체만으로 다양한 태그 말뭉치에 동작할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법에 관한 것이다.

또한, 본 발명은, 상기한 바와 같이 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위해, RDR을 이용하여 오류 말뭉치와 정답 말뭉치에서 태깅된 문서의 특성을 반영한 수정규칙을 자동으로 생성하고, 자연어 처리시스템에 직접적인 영향을 미치는 정제된 대량의 기계학습을 위한 학습 말뭉치 내의 오류를 인식하여 형태소 분석 말뭉치와 개체명 말뭉치의 오류를 수정하며, 이때, 형태소 단위로 동작하여 한국어 말뭉치의 특성을 적용 가능한 동시에, 커널을 사용하여 다양한 형태의 말뭉치에 적용할 수 있도록 구성됨으로써, 대량의 말뭉치 제작시 오류를 최소화할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법에 관한 것이다.

최근, 컴퓨터와 모바일 기기가 각 개인에게까지 널리 보급되고, 또한, 기계학습을 이용한 문제해결이 점점 더 많은 분야로 확대됨에 따라, 입력된 말뭉치에서 문맥이나 구문의 오류를 분석하고 수정하는 방법에 대하여 여러 가지 연구가 활발히 진행되고 있다.

더 상세하게는, 상기한 바와 같이 문맥이나 구문의 오류를 분석하고 수정하는 방법에 관한 종래기술의 예로는, 예를 들면, 한국 등록특허공보 제10-1500617호에 따르면, 사용자가 입력한 한국어 문장에서 나타나는 여러 맞춤법 문법 오류 중에서 사전(事典) 검색을 통해 해결할 수 없는 문맥 철자오류(context-sensitive spelling error)를 검색하고, 이를 교정할 대치어를 제시하는 것에 의해 한국어 문서 교정 과정에서 가장 난도가 높은 문맥 철자오류를 교정함으로써, 한국어 문서 교정기의 성능을 높일 수 있도록 구성되는 한국어 어휘 의미망을 이용한 문맥 철자오류 교정 장치 및 방법에 관한 기술내용이 제시된 바 있다.

또한, 상기한 바와 같이 문맥이나 구문의 오류를 분석하고 수정하는 방법에 관한 종래기술의 다른 예로는, 예를 들면, 한국 등록특허공보 제10-1491581호에 따르면, 철자오류 보정사전을 트라이(TRIE) 형태로 구성하는 것에 의해 메모리 사용량과 탐색 시간을 최소화하고, 등록되어 있는 문자열이 나타나면 문맥통계를 이용하여 해당 문자열을 보정 문자열로 교체할 것인지를 효율적으로 판단하는 것에 의해 작은 용량의 메모리와 단순 연산만을 이용하면서도 높은 철자오류 보정효과를 얻을 수 있도록 구성됨으로써, 휴대 단말기에서 입력된 문장의 철자 오류를 자동으로 인식하여 보정할 수 있는 철자 오류 보정 시스템 및 방법에 관한 기술내용이 제시된 바 있다.

아울러, 상기한 바와 같이 문맥이나 구문의 오류를 분석하고 수정하는 방법에 관한 종래기술의 또 다른 예로는, 예를 들면, 한국 등록특허공보 제10-1431339호에 따르면, 구문을 구성하는 각 단어가 코퍼스 내에서 출현할 출현확률을 구하고, 구문이 코퍼스 내에서 출현할 추정확률(Pe), 예상 출현빈도확률(Po) 및 실제 출현확률(Pa)을 구하여, 구문의 오류 여부를 판단하도록 구성됨으로써, 빈도수가 낮은 특수한 표현이나 반복적인 실수가 많이 행해지는 표현에 대해서도 오류검출을 정확히 할 수 있도록 구성되는 확률적 구문오류 검출방법 및 장치에 관한 기술내용이 제시된 바 있다.

더욱이, 상기한 바와 같이 문맥이나 구문의 오류를 분석하고 수정하는 방법에 관한 종래기술의 또 다른 예로는, 예를 들면, 한국 등록특허공보 제10-1358614호에 따르면, 말뭉치를 분석하여 부분어절의 기분석 사전을 구축하는 것에 의해 간단하게 PWD(Partial Word morpheme madd Dictionary)와 형태소 위치 적합성을 구축하는 학습데이터 구축기 및 학습데이터 구축기에 의해 구축된 사전에 대하여 어절 전체를 둘 이상으로 나눈 뒤 검색하여 분석하는 형태소 분석기를 포함하여, 어절을 분석하는 속도 및 재현율을 높이고 태깅(Tagging)에서의 정확도를 높일 수 있도록 구성되는 말뭉치 기반의 한국어 형태소 분석장치 및 그 분석방법에 관한 기술내용이 제시된 바 있다.

상기한 바와 같이, 종래, 문맥이나 구문의 오류를 분석하고 수정하는 방법에 대하여 여러 가지 기술내용들이 제시된 바 있으나, 상기한 바와 같은 종래기술의 방법들은 다음과 같은 문제점이 있는 것이었다.

더 상세하게는, 종래, 자연어 처리에 있어서, 통계정보에 기반하는 방법과 기계학습을 이용하는 두 가지 방법이 주류를 이루고 있고, 이들 방법에서는 학습을 위한 말뭉치가 중요한 역할을 담당하게 되나, 학습 말뭉치는 작성하는데 시간과 비용이 많이 요구된다.

이러한 이유로, 종래, 지도학습(supervised learning)을 대체하는 비지도학습(unsupervised learning)이나, 반지도학습(semi-supervised learning)에 대한 성공적인 연구결과에도 불구하고, 정보부착 말뭉치를 가공하여 활용할 수 있는 분야가 점점 증가하고 있음으로 인해 학습을 위한 정보부착 말뭉치의 중요성은 줄어들지 않고 있다.

그러나 대량의 말뭉치를 제작하기 위하여는 다수의 사람들이 작업을 해야 하므로 일관성 있는 말뭉치를 제작하기가 매우 어려우며, 기계학습에서 학습 데이터의 오류는, 크게 나누어, 속성오류(attribute noise)와 범주오류(class noise)의 두 가지로 분류된다.

먼저, 속성오류는 속성값을 입력하는 도중에 발생하는 오류로서, 여기에는 속성이 없거나 중복된 값이 있는 경우가 포함되고, 범주오류는 다시 같은 데이터가 다른 범주로 분류된 경우에 해당하는 일관성 오류와 범주가 잘못 할당된 경우에 해당하는 분류오류로 나누어진다.

이러한 오류를 해결하기 위해, 종래, 최대치(majority)와 일치(non-objection) 전략을 사용하는 방법, 최대 정보량 기준을 사용하는 방법, 포화필터(saturation filter) 방법, 인공신경망을 사용하는 방법 등이 제시된 바 있으나, 이들은 모두 현재 학습 데이터에서 오류로 인식된 부분을 제거하여 학습 데이터의 일관성을 유지하는 것에 초점이 맞춰져 있고, 오류들을 수정하는 방법에 대하여는 고려된 바 없었다.

즉, 자연어처리 분야에 있어서, 인식 및 분류기 모델을 생성하기 위해서는 학습을 위한 말뭉치가 필요하며, 이러한 학습 말뭉치는 결과적으로 해당 모델의 성능을 결정하기 때문에 오류가 있어서는 안된다.

그러나 말뭉치는 사람이 직접 작성함으로 인해 필연적으로 오류가 발생하게 되며, 더욱이, 그러한 오류들에 어떠한 일관성이나 규칙성 있는 것도 아니므로, 이와 같이 불규칙적으로 발생하는 오류를 적절하게 수정할 수 있는 규칙을 정의하는 것 또한 용이하지 못한 문제가 있었으며, 이에, 종래에는, 학습시 오류를 제외하고 학습하는 방법 등으로 오류를 제거 또는 회피하는 방법이 주로 연구되었고, 학습 말뭉치의 오류를 직접 수정하는 방법에 대하여는 연구가 부족한 실정이다.

따라서 상기한 바와 같이, 자연어처리에서 인식 및 분류기 모델을 생성하기 위해 필요한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류가 발생하게 되나, 이러한 오류의 패턴이 불규칙하여 오류수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류 수정방법들의 문제점을 해결하기 위하여는, 학습 말뭉치의 오류를 판단할 수 있는 기준이 되는 규칙(Rule)을 생성하고, 이러한 규칙을 이용하여 학습 말뭉치 내의 오류를 자동으로 인식하고 수정할 수 있는 동시에, 커널을 통해 다양한 형태의 말뭉치에 적용 가능하도록 구성되는 새로운 구성의 말뭉치 오류 자동수정방법을 제공하는 것이 바람직하나, 아직까지 그러한 요구를 모두 만족시키는 장치나 방법은 제시되지 못하고 있는 실정이다.

[선행기술문헌]

1. 한국 등록특허공보 제10-1500617호 (2015.03.03.)

2. 한국 등록특허공보 제10-1491581호 (2015.02.03.)

3. 한국 등록특허공보 제10-1431339호 (2014.08.11.)

4. 한국 등록특허공보 제10-1358614호 (2014.01.27.)

본 발명은 상기한 바와 같은 종래기술의 문제점을 해결하고자 하는 것으로, 따라서 본 발명의 목적은, 자연어처리에서 인식 및 분류기 모델을 생성하기 위해 필요한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류가 발생하게 되나, 이러한 오류의 패턴이 불규칙하여 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위해, RDR(Ripple-Down Rule) 시스템에 커널이 동작하도록 하여 커널 교체만으로 다양한 태그 말뭉치에 동작할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 제공하고자 하는 것이다.

아울러, 본 발명의 또 다른 목적은, 상기한 바와 같이 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위해, RDR을 이용하여 오류 말뭉치와 정답 말뭉치에서 태깅된 문서의 특성을 반영한 수정규칙을 자동으로 생성하고, 자연어 처리시스템에 직접적인 영향을 미치는 정제된 대량의 기계학습을 위한 학습 말뭉치 내의 오류를 인식하여 형태소 분석 말뭉치와 개체명 말뭉치의 오류를 수정하며, 이때, 형태소 단위로 동작하여 한국어 말뭉치의 특성을 적용 가능한 동시에, 커널을 사용하여 다양한 형태의 말뭉치에 적용할 수 있도록 구성됨으로써, 대량의 말뭉치 제작시 오류를 최소화할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 제공하고자 하는 것이다.

상기한 바와 같은 목적을 달성하기 위해, 본 발명에 따르면, 자연어처리를 위한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류의 패턴이 불규칙하여 오류수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결할 수 있도록 구성되는 커널(kernel) RDR(Ripple-Down Rules)을 이용한 태깅 말뭉치 오류 자동수정방법에 있어서, 학습대상이 되는 문장 또는 문서가 입력되는 입력단계; 상기 입력단계에서 입력된 문장이나 문서 전체에 대한 오류 및 정답을 각각 학습하는 학습단계; 상기 학습단계의 학습결과에 근거하여, 미리 정해진 임계값과 커널에 따라 오류 패턴을 분석하고 오류 수정을 위한 규칙(Rules)을 생성하는 규칙생성단계; 및 상기 규칙생성단계에서 생성된 규칙을 이용하여 오류수정 대상이 되는 문장이나 문서의 오류를 수정하는 오류수정단계를 포함하는 일련의 처리과정이 컴퓨터나 또는 전용의 하드웨어에 의해 자동으로 수행되도록 구성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법이 제공된다.

여기서, 상기 학습단계는, SCRDR(Single Classification Ripple Down Rules)을 이용하여, 사용자에 의해 입력된 임계값에 따라 상기 입력단계에서 입력된 문장이나 문서 전체에 대하여 초벌 코퍼스(Initial Corpus)와 정답 코퍼스(Gold Corpus)를 각각 학습하는 처리가 수행되도록 구성되는 것을 특징으로 한다.

또한, 상기 학습단계는, 한국어 형태소 품사 태깅과 개체명 태깅에서 나타나는 특징을 학습할 수 있도록 잘못 분석된 형태소로 인해 오류 문장과 정답 문장간의 형태소가 다를 경우 해당 문장의 형태소를 정답 문장의 형태로 변형하여 학습하고, 생성된 규칙이 단어에 상관없이 같은 유형의 오류에 적용될 수 있도록 의미형태소를 삭제하고 품사태그만을 이용하여 학습을 수행하는 처리가 수행되도록 구성되는 것을 특징으로 한다.

아울러, 상기 방법은, 동일한 형태소에 다른 품사가 부착된 개체명 태깅 오류 유형에 대하여, 개체명 의미인식 오류와 개체명 인식범위 오류는 제외하고, 잘못된 개체명 태그를 부착한 오류와 개체명이 아닌 단어를 개체명으로 인식한 오류만을 학습하고 오류를 수정하는 처리가 수행되도록 구성되는 것을 특징으로 한다.

더욱이, 상기 규칙생성단계는, 사용자에 의해 입력되는 상기 임계값과 미리 생성된 상기 커널을 바탕으로 하여 상기 SCRDR로 학습된 정보를 'Rule' 파일로 생성하는 처리가 수행되도록 구성되는 것을 특징으로 한다.

여기서, 상기 커널은, 학습 말뭉치에 따라 변경이 가능하도록 형태소 단위와 어절 단위 모두를 기준으로 하여 각각의 유형별로 구성되는 형태소 품사 태그 커널 및 개체명 태크 커널을 포함하여 구성되고, 상기 형태소 품사 태그 커널은, 형태소는 이전 어절의 첫 형태소와 품사 및 마지막 형태소와 다음 어절의 첫 형태소 및 마지막 형태소를 사용하며, 어절을 무시하고 이전의 3개 형태소와 다음의 3개 형태소를 사용하고, 품사는 상기 형태소와 동일하게 사용하여 생성되며, 상기 개체명 태그 커널은, 이전 어절의 형태소와 다음 어절의 형태소를 사용하고, 어절을 무시하고 이전의 2개의 형태소와 다음의 2개의 형태소를 사용하여 생성되는 것을 특징으로 한다.

또한, 상기 오류수정단계는, 상기 규칙생성단계에서 생성된 상기 'Rule' 파일을 읽어들여 오류수정 대상이 되는 문서에 적용하고, 오류로 판단된 태그를 학습된 정답 태그로 변경하는 처리가 수행되도록 구성되는 것을 특징으로 한다.

아울러, 본 발명에 따르면, 상기에 기재된 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 컴퓨터에 실행시키도록 구성되는 프로그램이 기록된 컴퓨터에서 판독 가능한 기록매체가 제공된다.

더욱이, 본 발명에 따르면, 입력된 문장이나 문서의 오류를 자동으로 수정하도록 구성되는 자동 말뭉치 오류 수정시스템에 있어서, 사용자가 각종 정보를 입력하기 위한 입력부; 상기 입력부를 통해 입력된 문서의 오류를 수정하는 처리부; 및 상기 처리부의 처리 결과를 사용자에게 표시하는 출력부를 포함하여 구성되고, 상기 처리부는, 상기에 기재된 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 이용하여 입력된 문서의 오류를 수정하는 처리가 수행되도록 구성되는 것을 특징으로 하는 자동 말뭉치 오류 수정시스템이 제공된다.

상기한 바와 같이, 본 발명에 따르면, RDR 시스템에 커널이 동작하도록 하여 커널 교체만으로 다양한 태그 말뭉치에 동작할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법이 제공됨으로써, 자연어처리에서 인식 및 분류기 모델을 생성하기 위해 필요한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류가 발생하게 되나, 이러한 오류의 패턴이 불규칙하여 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결할 수 있다.

또한, 본 발명에 따르면, 상기한 바와 같이 RDR을 이용하여 오류 말뭉치와 정답 말뭉치에서 태깅된 문서의 특성을 반영한 수정규칙을 자동으로 생성하고, 자연어 처리시스템에 직접적인 영향을 미치는 정제된 대량의 기계학습을 위한 학습 말뭉치 내의 오류를 인식하여 형태소 분석 말뭉치와 개체명 말뭉치의 오류를 수정하도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 제공됨으로써, 형태소 단위로 동작하여 한국어 말뭉치의 특성을 적용 가능하고, 커널을 사용하여 다양한 형태의 말뭉치에 적용할 수 있는 동시에, 대량의 말뭉치 제작시 오류를 최소화할 수 있다.

도 1은 오류 문장과 정답 문장의 형태소 수가 다를 때의 학습방법을 표로 정리하여 나타낸 도면이다.
도 2는 개체명 태그 오류의 유형을 표로 분류하여 나타낸 도면이다.
도 3은 형태소 품사 태그 커널과 개체명 태그 커널의 구성을 표로 정리하여 나타낸 도면이다.
도 4는 본 발명의 타당성 및 성능을 검증하기 위한 비교실험을 위해 적용된 작업그룹과 말뭉치를 표로 정리하여 나타낸 도면이다.
도 5는 평가 말뭉치로 사용된 위키피디아 문장과 블로그 문장의 오류 수와 형태소 품사 태그 평가 코퍼스의 성능을 표로 정리하여 나타낸 도면이다.
도 6은 평가 말뭉치로 사용된 블로그 문장에 대한 개체명 평가 코퍼스의 성능을 표로 정리하여 나타낸 도면이다.
도 7은 평가 말뭉치에서 나타나는 개체명 오류 유형별 오류 수를 표로 정리하여 나타내는 도면이다.
도 8은 위키피디아 문서를 이용하여 형태소 오류 학습과 전체 학습의 성능을 비교한 학습조건 선택 실험의 결과를 표로 정리하여 나타낸 도면이다.
도 9는 블로그 문서를 이용하여 개체명의 오류 학습과 전체 학습 성능을 비교한 학습조건 선택 실험의 결과를 표로 정리하여 나타낸 도면이다.
도 10은 위키피디아 말뭉치 학습량에 따른 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이다.
도 11은 블로그 말뭉치 학습량에 따른 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이다.
도 12는 블로그 말뭉치 학습량에 따른 개체명 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이다.
도 13은 블로그 학습으로 위키피디아 말뭉치 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이다.
도 14는 위키피디아 학습으로 블로그 말뭉치 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이다.
도 15는 형태소 품사 태깅의 오류 유형을 표로 정리하여 나타낸 도면이다.
도 16은 개체명 태깅의 오류 유형을 표로 정리하여 나타낸 도면이다.
도 17은 각 실험별로 확인된 학습문서와 평가문서에 따른 형태소 품사 태깅 오류 수정의 최대 성능을 표로 정리하여 나타낸 도면이다.
도 18은 본 발명의 실시예에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법의 전체적인 구성을 개략적으로 나타내는 플로차트이다.

이하, 첨부된 도면을 참조하여, 본 발명에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법의 구체적인 실시예에 대하여 설명한다.

여기서, 이하에 설명하는 내용은 본 발명을 실시하기 위한 하나의 실시예일 뿐이며, 본 발명은 이하에 설명하는 실시예의 내용으로만 한정되는 것은 아니라는 사실에 유념해야 한다.

또한, 이하의 본 발명의 실시예에 대한 설명에 있어서, 종래기술의 내용과 동일 또는 유사하거나 당업자의 수준에서 용이하게 이해하고 실시할 수 있다고 판단되는 부분에 대하여는, 설명을 간략히 하기 위해 그 상세한 설명을 생략하였음에 유념해야 한다.

즉, 본 발명은, 후술하는 바와 같이, 자연어처리에서 인식 및 분류기 모델을 생성하기 위해 필요한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류가 발생하게 되나 이러한 오류의 패턴이 불규칙하여 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위해, RDR 시스템에 커널이 동작하도록 하여 커널 교체만으로 다양한 태그 말뭉치에 동작할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법에 관한 것이다.

아울러, 본 발명은, 후술하는 바와 같이, 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위해, RDR을 이용하여 오류 말뭉치와 정답 말뭉치에서 태깅된 문서의 특성을 반영한 수정규칙을 자동으로 생성하고, 자연어 처리시스템에 직접적인 영향을 미치는 정제된 대량의 기계학습을 위한 학습 말뭉치 내의 오류를 인식하여 형태소 분석 말뭉치와 개체명 말뭉치의 오류를 수정하며, 이때, 형태소 단위로 동작하여 한국어 말뭉치의 특성을 적용 가능한 동시에, 커널을 사용하여 다양한 형태의 말뭉치에 적용할 수 있도록 구성됨으로써, 대량의 말뭉치 제작시 오류를 최소화할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법에 관한 것이다.

계속해서, 도면을 참조하여, 본 발명에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법의 구체적인 내용에 대하여 설명한다.

여기서, 본 발명의 실시예에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법의 구체적인 내용에 대하여 설명하기 전에, 먼저, RDR에 대하여 설명하면 다음과 같다.

즉, RDR(Ripple-Down Rules)은, 1993년 화학 병리학 보고서에 대한 병리학 유지 보수시스템에 처음 도입되었으며, 이후 지식기반 시스템을 구축하도록 수정되어, SCRDR(Single Classification Ripple Down Rules)과 MCRDR(Multiple Classification Ripple Down Rules), NRDR(Nested Ripple Down Rules) 등과 같이 다양한 형태의 RDR이 개발되었다.

여기서, SCRDR은 입력된 값으로부터 하나의 결과를 출력하며, MCRDR은 한 개 이상의 결과를 출력하고, NRDR은 사용자가 정의한 임의의 조건에 따라 결과를 출력하며, 형태소 품사 태그 또는 개체명 태그 오류를 수정하는 작업을 수행하기 위해서는 입력된 오류 태그를 올바른 하나의 정답으로 수정할 수 있는 SCRDR이 적합하므로, 이에, 본 발명에서는, SCRDR을 이용한 시스템을 통하여 본 발명을 설명하였으나, 반드시 이러한 내용으로만 한정되는 것은 아님에 유념해야 한다.

더 상세하게는, SCRDR은, 최상위 루트 노드로부터 조건에 따라 "EXCEPT"와 "FALSE"가 발생하고 노드를 이동하며 분류가 결정되고, 본 발명에서 사용한 SCRDR의 규칙은 재귀적으로 정의되며, 각 노드는 "EXCEPT"와 "FALSE"의 후속 노드와 연결되어 있고, 관측대상은 루트 노드로부터 조건에 따라 노드를 이동하며 최종적으로 "ACCEPT"된 규칙에 의해 분류된다.

RDR과 의사결정 트리는 각각 지도학습의 한 방법으로 주어진 데이터를 분류하는 문제를 다루며, 두 방법 모두 이미 알고 있는 정답 셋을 이용하여 분류방법을 생성한 후 주어진 대상의 정답을 예측하고, 최상위 루트 노드로부터 그 하위로 나뉘어 내려가며 노드를 생성하나, 의사결정 트리는 데이터를 분류하기 위한 최적의 변수를 찾기 위해 확률 또는 통계 데이터를 이용하고 그 변수를 기준으로 트리를 생성하며 생성된 노드를 최적화하기 위해 노드를 병합하는 과정을 거치는 반면, RDR의 경우는 먼저 하나의 규칙이 생성되면 그 규칙이 가질 수 있는 예외, 즉, "EXCEPT"가 발생할 수 있는 경우에 대하여 예외적인 처리를 생성하고 더 이상의 예외가 발생하지 않고 새로운 규칙을 생성할 때 "FALSE"가 발생하여 새로운 예측변수에 대한 규칙을 생성한다.

또한, 정답을 결정하는 과정에서, 의사결정 트리는 관측대상이 가진 변수들이 생성할 수 있는 확률 또는 통계값에 의해 정답이 결정되나, RDR의 경우는 관측대상이 가진 변수를 다루는 모든 규칙을 확인하여 가장 마지막에 "ACCEPT"한 규칙에 의해 분류된다.

아울러, 본 발명은 정답 말뭉치의 오류를 수정하여 학습 말뭉치의 성능을 높이고자 하는 것으로, 시스템 결과에서 나타나는 오류는 일정한 규칙을 띄고 높은 빈도로 나타나므로 시스템 결과 오류를 수정하기 위한 규칙을 쉽게 생성할 수 있으나, 사람이 직접 태그를 부착한 말뭉치에서 나타나는 오류는 패턴이 불규칙하며 그 수가 적으므로, 이에, 본 발명에서는 사람이 직접 작성한 말뭉치에서 적은 수로 나타나는 패턴을 찾기 위해 RDR 시스템에 커널이 동작할 수 있도록 구성하여, 커널만 교체하면 다양한 태그 부착 말뭉치에 동작할 수 있도록 설계하였다.

여기서, 본 발명에서는, 다수의 연구자들이 손으로 작성한 태그 부착 말뭉치를 '초벌 말뭉치(Initial corpus)'라 하고, 이를 사람이 보완한 코퍼스를 '정답 코퍼스(Gold corpus)'라 하며, 이 둘을 RDR로 학습하여 자동으로 태그 부착 코퍼스의 오류를 수정하는 방법을 제시하였다.

즉, 기존의 RDR 학습방법은 초벌 코퍼스와 정답 코퍼스를 비교하여 같은 위치에 서로 다른 태그가 부착되어 있는지 검토하고, 만약 태그가 다른 경우 오류가 정답으로 고쳐질 수 있도록 정답 말뭉치에서 이전 2개의 형태소와 다음 2개의 형태소의 패턴을 추출한다.

그러나 영어 문서를 기준으로 만들어진 기존의 RDR은 한국어에서 사용하는 형태소와 어절 정보가 그대로 적용되기 어려우므로, 본 발명자들은 한국어 형태소 품사 태깅에서 나타나는 특징과 개체명 태깅에서 나타나는 특징을 분석하고 학습할 수 있도록 시스템을 변형하여, 입력된 한국어 문장을 학습 및 평가할 수 있도록 형태소 단위의 분석이 가능한 동시에, 커널을 통해 한국어에 적합한 패턴을 추출할 수 있도록 수정하였다.

더 상세하게는, 한국어 형태소 품사 태깅은 영어와 다르게 하나의 어절이 2개 이상의 형태소로 분석될 수 있으며, 따라서 기존의 RDR 학습 방법을 그대로 적용할 경우 오류 문장과 정답 문장 간에 형태소 수가 달라지는 문제가 발생하므로, 이와 같이 잘못 분석된 형태소로 인해 오류 문장과 정답 문장의 형태소 수가 다를 경우, 이를 학습하기 위해 학습되는 문장의 형태를 변형하여 학습할 필요가 있다.

즉, 도 1을 참조하면, 도 1은 오류 문장과 정답 문장의 형태소 수가 다를 때의 학습방법을 표로 정리하여 나타낸 도면이다.

여기서, 도 1에 있어서, NNG는 일반명사, NNP는 고유명사, JX는 보조사를 각각 의미한다.

도 1에 나타낸 바와 같이, "닌텐도"라는 명사가 "닌텐"과 "도"로 분리되어 분석된 오류가 나타날 경우, 해당 어절의 형태소들을 하나의 어절로 묶어 "닌텐/NNG+도/JX"로 학습할 수 있도록 시스템이 변형하여 정보를 분석하며, 또한, 학습을 통해 생성된 규칙이 단어는 다르지만 같은 유형의 오류에 적용될 수 있도록 의미 형태소를 삭제하고 품사 태그만을 이용하는 방법을 사용하였다.

아울러, 개체명 태깅 오류의 유형은 형태소의 오류 유형과는 다른 형태를 나타내며, 즉, 형태소 오류는 동일한 형태소에 다른 품사가 부착된 오류로서, 일반적으로 오류 유형을 삽입, 삭제, 치환으로 분류할 때에 치환에 해당되는 오류 유형이다.

반면, 개체명 태그 오류는 삽입, 삭제, 치환의 모든 오류 유형이 나타나며, 즉, 삽입은 개체명이 아니지만 잘못 인식한 개체명, 삭제는 개체명 미인식, 치환은 개체명으로 인식은 했지만 잘못된 태그를 부착하거나 잘못된 경계를 가지는 경우로 분류된다.

도 2를 참조하면, 도 2는 개체명 태그 오류의 유형을 표로 분류하여 나타낸 도면이다.

도 2에 나타낸 바와 같이, 유형(type) 1은 개체명을 인식했으나 잘못된 개체명 태그를 부착해 발생한 오류이고, 유형 2는 개체명이 아닌 단어를 개체명으로 인식한 오류이며, 유형 3은 개체명인 단어를 인식하지 못해 발생하는 오류이고, 유형 4는 개체명의 일부분만을 인식해 발생하는 오류이다.

여기서, 유형 1과 2는 개체명 태그 분류의 오류라고 정의하며, 본 발명의 실시예에서 제시된 RDR 시스템은 이미 부착된 태그정보를 수정하는 기능만을 수행하므로 개체명 의미인식 오류와 인식범위 오류 유형인 유형 3과 유형 4는 제외되었음에 유념해야 한다.

다음으로, 커널 RDR(Kernel RDR)에 대하여 설명하면, 본 발명에서는 기존의 RDR에 커널 시스템을 추가로 구현하는 것에 의해 학습 말뭉치에 따라 커널을 변경하여 사용할 수 있도록 하여 범용성을 높이는 동시에, 한국어의 형태소와 어절의 특성에 맞게 학습을 할 수 있도록 시스템을 구축하였으며, 이를 위해, RDR 학습시, 커널 시스템으로 입력한 정보에 따라 패턴을 분석하고 규칙을 생성하며, 커널을 통해 패턴을 분석할 수 있도록 형태소 품사 태깅 말뭉치와 개체명 태깅 말뭉치의 각각에 맞는 커널을 생성하였다.

즉, 도 3을 참조하면, 도 3은 형태소 품사 태그 커널과 개체명 태그 커널의 구성을 표로 정리하여 나타낸 도면이다.

도 3에 나타낸 바와 같이, 형태소 품사 태깅 말뭉치 학습에 사용되는 커널은 형태소와 형태소 품사 태그가 있으며, 이를 커널로 사용하기 위해 커널을 추출하는 기준을 형태소 단위와 어절 단위 모두 사용하였고, 형태소는 이전 어절의 첫 형태소 및 마지막 형태소와 다음 어절의 첫 형태소 및 마지막 형태소를 사용하였으며, 어절을 무시하고 이전의 3개 형태소와 다음의 3개 형태소를 사용하였고, 또한, 품사에 대하여도 형태소와 동일하게 사용하였다.

아울러, 개체명 품사 태깅 말뭉치 학습에 사용되는 커널은 이전 어절의 형태소와 다음 어절의 형태소를 사용하였으며, 어절을 무시하고 이전의 2개의 형태소와 다음의 2개의 형태소를 사용하였다.

계속해서, 임계치(Threshold)의 결정에 대하여 설명하면, RDR에는 ImproveThresold와 MatchThreshold 두 가지의 임계치가 있으며, RDR에서 학습을 통해 규칙을 생성시에는 사용자가 지정한 임계치에 따라 규칙이 다르게 생성된다.

여기서, ImproveThreshold는 어떠한 태그가 다른 태그로 수정되는 수에 대한 임계치이며, MatchThreshold는 ImproveThreshold를 만족하는 오류쌍 중 동일하게 나타나는 패턴에 대한 임계치이다.

예를 들면, ImproveThresold가 3이고 MatchThreshold가 2일 경우, A라는 태그가 B라는 태그로 수정될 때 1번 패턴에 의해서 수정되는 수가 4번, 2번 패턴에 의해 수정되는 수가 1번이라고 하면, 수정되는 총수는 5번이므로 ImproveThreshold 이상이고 1번 패턴이 MatchThreshold 이상이므로 1번 패턴이 학습된다.

이와 같이 결정된 임계치는 말뭉치에 존재하는 다양한 오류에 동일하게 작용되므로, 오류를 수정하기에 가장 적합한 임계치를 찾는 작업이 중요하며, 이에, 본 발명은, 오류 수정에 적합한 임계치를 결정할 수 있도록 다양한 임계치를 적용하여 실험을 통해 검증하였다.

여기서, 기존의 RDR 학습방법은 초벌 코퍼스와 정답 코퍼스를 비교하여 태그가 다른 경우에만 학습하였고, 이는 오류가 발생하는 위치에서 규칙을 학습하는 것으로, 임계치가 낮으면 오류가 발생했을 때에만 나타나는 패턴이 아닌 일반적으로 나타나는 패턴을 학습함으로 인해 오류를 수정하는데 부적절한 규칙이 학습될 수도 있으므로, 이러한 규칙은 오류가 아닌 상황에도 적용되어 시스템이 오류를 발생시키는 문제가 있다.

그러나 문서 전체를 학습하게 되면 오류를 발생하는 규칙을 다시 정답으로 되돌리는 규칙이 학습될 수 있으므로, 이에, 본 발명에서는, 문서 전체를 학습하여 규칙을 생성하도록 구성됨으로써 오류 수정의 정확도를 높일 수 있도록 하였다.

더 상세하게는, 본 발명자들은, 후술하는 바와 같이, 본 발명에서 제안된 방법의 타당성 및 효용성을 검증하기 위해, 오류만 학습하는 방법과 정답을 포함한 학습의 차이점을 확인하고, 이후 학습량에 따라 다양한 임계치(threshold)를 설정하여 다양한 실험을 진행하였다.

이를 위해, 본 발명자들은, 먼저, 태깅 그룹 내에서 수정 성능과 태깅 그룹 간의 수정 성능을 조사하기 위해 두 개의 문서 그룹을 만들어 실험을 진행하였다.

즉, 도 4를 참조하면, 도 4는 본 발명의 타당성 및 성능을 검증하기 위한 비교실험을 위해 적용된 작업그룹과 말뭉치를 표로 정리하여 나타낸 도면이다.

도 4에 나타낸 바와 같이, 작업그룹 A에서는 한국어 위키피디아 문서를 태깅하였고, 작업그룹 B에서는 블로그 문서를 태깅하였으며, 따라서 작업그룹 A와 작업그룹 B의 작업자가 발생시키는 오류의 유형은 서로 다르므로, 초벌 말뭉치인 위키피디아(A) 문서와 블로그(B) 문서는 서로 다른 오류를 포함하고 있다.

이와 같이 문서를 두 가지로 구분함으로써 학습량과 임계치의 변화에 대한 결과를 각각 확인할 수 있고, 학습된 규칙을 교차 검증할 수도 있으며, 이에, 본 발명자들은, 그룹 내의 오류수정과 그룹간의 오류수정에 대한 실험을 각각 진행하여 그 결과를 비교하였다.

여기서, 본 실시예에 있어서, 형태소 품사 부착 말뭉치는 세종 태그셋을 따르며, 개체명 말뭉치는 ETRI 태그셋을 따른다.

더 상세하게는, 형태소 품사 태깅 말뭉치는 학습을 위해 한국어 위키피디아 문서 중 4,000문장을 사용하였고, 평가를 위해 10,000문장을 사용하였으며, 블로그 문서는 학습을 위해 총 4,000문장을 사용하였고, 평가를 위해 4,000문장을 사용하였다.

또한, 도 5를 참조하면, 도 5는 평가 말뭉치로 사용된 위키피디아 문장과 블로그 문장의 오류 수와 형태소 품사 태그 평가 코퍼스의 성능을 표로 정리하여 나타낸 도면이다.

즉, 평가에 사용한 위키 10,000 문장과 블로그 4,000문장의 오류 수와 형태소 단위 성능은 도 5에 나타낸 바와 같으며, 개체명 태깅 말뭉치는 유형 1과 2에 대한 오류에 대하여만 개체명 태그 수정을 하였다.

아울러, 도 6을 참조하면, 도 6은 평가 말뭉치로 사용된 블로그 문서에서 추출된 4,000문장에 대한 개체명 평가 코퍼스의 성능을 표로 정리하여 나타낸 도면이다.

더욱이, 도 7을 참조하면, 도 7은 평가 말뭉치에서 나타나는 개체명 오류 유형별 오류 수를 표로 정리하여 나타내는 도면이다.

도 7에 나타낸 바와 같이, 평가 말뭉치에서 유형 1은 72개, 유형 2는 88개의 오류를 각각 포함하여 모두 160개의 오류를 포함하고 있다.

계속해서, 상기한 바와 같은 환경에서 오류만을 학습하는 경우(Err)와 정답을 포함한 모든 내용을 학습하는 경우(All)에 대하여 각각 어떠한 성능 차이가 있는지를 확인한 학습조건 선택 실험의 결과에 대하여 설명한다.

즉, 본 발명자들은, 형태소 품사 태깅 말뭉치를 사용하여 ImproveThreshold가 0에서부터 3까지이고 match-Threshold가 1일 때의 성능을 각각 비교하는 것에 의해 상기한 두 가지 경우에 대하여 각각 검증실험을 수행하였다.

더 상세하게는, 도 8 및 도 9를 참조하면, 도 8은 위키피디아 문서를 이용하여 형태소 오류 학습과 전체 학습의 성능을 비교한 학습조건 선택 실험의 결과를 표로 정리하여 나타낸 도면이고, 도 9는 블로그 문서를 이용하여 개체명의 오류 학습과 전체 학습 성능을 비교한 학습조건 선택 실험의 결과를 표로 정리하여 나타낸 도면이다.

도 8 및 도 9에 나타낸 각각의 실험결과로부터 알 수 있듯이, 오류만 학습하는 경우(Err)보다 정답을 포함하여 학습하는 경우(All)가 성능이 더 좋게 나타났으며, 그 이유는, 임계치가 낮을 경우 오류를 수정하는 특수한 패턴이 아닌 일반적으로 나타나는 패턴을 학습하기 때문이다.

이에, 본 발명에서는, 형태소 품사 태그와 개체명 태그 오류수정을 위해 모든 실험을 정답을 포함하는 방법(All)으로 학습하였다.

계속해서, 학습량과 임계치에 따른 성능을 평가한 결과에 대하여 설명하면, 본 발명자들은, 소량의 학습으로도 학습 말뭉치를 수정할 수 있는지를 확인하기 위해 RDR 학습에 사용되는 말뭉치의 양을 각각 다르게 하여 각각의 성능을 비교하였으며, 이와 함께, 임계치를 다양하게 적용하여 각 임계치별로 성능이 어떻게 다른지 또한 확인하였다.

더 상세하게는, 먼저, RDR을 이용한 한국어 형태소 품사 태그 오류수정에서 학습량에 따른 성능을 확인하기 위해, 위키피디아 문서와 블로그 문서를 각각 1,000문장에서 4,000문장까지 1,000문장 단위로 나누어 학습하고, 학습 문서에서 최적의 규칙을 생성할 수 있는 임계치를 찾기 위해 임계치를 다양하게 변경하여 실험을 수행하였다.

즉, 도 10 내지 도 14를 참조하면, 도 10은 위키피디아 말뭉치 학습량에 따른 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이고, 도 11은 블로그 말뭉치 학습량에 따른 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이며, 도 12는 블로그 말뭉치 학습량에 따른 개체명 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이다.

여기서, 도 10 내지 도 12에 있어서, 각 행 처음의 숫자는 임계치를 나타내며, '-' 기호 앞의 숫자는 ImproveThreshold를 나타내고, 뒤의 숫자는 MatchThreshold를 나타내며, 'r: # of reduce'는 오류수정으로 감소된 오류 수이고, 'e: # of error'는 전체 오류 수이며, 'r/e * 100'으로 오류 수정률을 나타내었다.

실험 결과, 먼저, 도 10에 나타낸 바와 같이, 위키피디아 문서를 학습하여 같은 위키피디아 문서를 평가했을 경우, 1,000문장을 학습한 규칙은 임계치에 따라 최대 5,121개의 오류를 감소시켰고, 2,000문장과 3,000문장을 학습한 경우에는 최대 5,349개의 오류를 수정시켰으며, 4,000문장에서는 5,482개의 오류를 수정하였다.

또한, 도 11에 나타낸 바와 같이, 블로그 문서에서는, 1,000문장을 학습한 규칙은 최대 851개의 오류를 감소시켰고, 2,000문장에서는 839개, 3,000문장에서는 840개, 4,000문장에서는 853개의 오류를 감소시켰다.

아울러, 도 12에 나타낸 바와 같이, 개체명 태그 오류 수정의 RDR 학습에서는, 2,000문장, 3,000문장, 4,000문장을 학습하여 각각 35개, 40개, 50개의 규칙이 생성되었으며, 2,000문장 학습시 최대 56개의 오류를 감소시켰고, 3,000문장에서는 55개, 4,000문장에서는 56개의 오류를 감소시켰다.

반면, 문장 수를 변경하며 학습하고 평가하였을 때 각각의 결과는 큰 차이를 보이지 않았으며, 이는 형태소 말뭉치와 비교하여 개체명은 주변 형태소 또는 어절 정보에 영향을 적게 받기 때문에 낮은 임계치에서 패턴을 찾기 어렵기 때문이라고 분석된다.

따라서 여러 번 등장하는 오류는 대부분 수정되었지만 규칙에 적용되지 않은 새로운 단어나 주변 정보를 가지는 개체명은 학습량을 늘려도 규칙에 적용되지 않는 것으로 분석된다.

계속해서, 작업그룹간 성능을 평가한 결과에 대하여 설명하면, 본 발명자들은, 형태소 품사 태그 오류 수정은 학습한 결과가 다른 그룹의 문서에 얼마나 적용되는지 확인하기 위해 학습한 규칙을 서로 다른 그룹의 문서에 적용하여 성능을 확인하였다.

즉, 도 13 및 도 14를 참조하면, 도 13은 블로그 학습으로 위키피디아 말뭉치 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이고, 도 14는 위키피디아 학습으로 블로그 말뭉치 형태소 품사 태그 오류 수정 성능을 비교한 결과를 표로 정리하여 나타낸 도면이다.

여기서, 도 13 및 도 14에 있어서, 각 행 처음의 숫자는 임계치를 나타내며, '-' 기호 앞의 숫자는 ImproveThreshold를 나타내고, 뒤의 숫자는 MatchThreshold를 나타내며, 'r: # of reduce'는 오류수정으로 감소된 오류 수이고, 'e: # of error'는 전체 오류 수이며, 'r/e * 100'으로 오류 수정률을 나타내었다.

또한, 실험에 사용한 임계치는 각 작업그룹 실험에서 상위의 성능을 보여준 임계치를 선택하였으며, 즉, 블로그 문서를 학습한 규칙은[(3-1), (3-2), (4-1), (4-2), (5-1), (5-2), (6-1), (6-2)]의 임계치를 사용하였고, 위키피디아 문서를 학습한 규칙은 [(5-1), (5-2), (6-1), (6-2), (7-1), (7-2), (8-1),(8-2)]의 임계치를 사용하였다.

도 13에 나타낸 바와 같이, 먼저, 블로그 문서를 학습한 규칙으로 위키피디아 문서를 수정했을 때에는 같은 그룹의 문서인 위키피디아 문서를 학습한 결과보다는 성능이 떨어졌으나, 결과적으로 최대 3,049개의 오류를 수정하여 약 1.1%의 성능이 향상되었다.

아울러, 도 14에 나타낸 바와 같이, 학습량 1,000문장에 임계치가 (5-1) 일 때 같은 블로그 문서를 평가한 실험에서 최대 853개의 오류를 수정한 결과보다 51개가 더 많은 904개의 오류를 수정하여, 위키피디아 문서를 학습하여 블로그 문서에 적용한 결과가 같은 블로그 문서를 학습하여 평가한 결과보다 오히려 성능이 좋게 나타났다.

그러나 이러한 결과만으로는 위키피디아 학습결과가 블로그 문서 수정에 적합하다고 판단하기 어려우며, 이는, 위키피디아를 학습한 규칙 중 시스템 오류를 발생시킬 수 있는 규칙이 블로그 문서에서 적용되지 않는 경우가 많아 이러한 결과가 나타났다고 분석되었다.

상기한 바와 같은 실험결과로부터, 일반적으로 학습량이 적을 때 다른 작업문서 간의 실험결과가 학습량이 많을 때보다 상대적으로 성능이 좋게 나타났으며, 이는, 학습문서의 양이 많을수록 해당 도메인에 적합한 규칙이 생성되고, 학습된 규칙은 다른 도메인의 문서를 수정하기에는 부적합하다는 것을 알 수 있다.

상기한 바와 같이, 본 발명에서는, RDR을 통해 형태소 품사 태그 오류와 개체명 태그 오류를 수정하는 실험을 통해 사람이 직접 구축한 정답 말뭉치에도 적지만 오류가 존재하고 RDR을 통해 패턴을 추출할 수 있음을 확인하였다.

더 상세하게는, 도 15 및 도 16을 참조하면, 도 15는 형태소 품사 태깅의 오류 유형을 표로 정리하여 나타낸 도면이고, 도 16은 개체명 태깅의 오류 유형을 표로 정리하여 나타낸 도면이다.

여기서, 도 15 및 도 16에 있어서, NNG는 일반명사, NNP는 고유명사, JX는 보조사, JKS는 주격조사, JC는 접속조사, JKB는 부사격조사, XR은 어근, SN은 숫자, SF는 마침표, SP는 소수점, TRM은 전문용어, OGR는 기관/기업, CV는 문명/문화 용어를 각각 의미한다.

도 15 및 도 16에 나타낸 바와 같이, 형태소 품사 태깅 문서와 개체명 태깅 문서에서 각각 다양한 오류가 나타났으며, 즉, 형태소 품사 태깅 문서에서 나타난 오류에는 단어의 마지막 음절이 조사와 동일할 경우 '명사' + '조사'로 분석하는 오류가 다양하게 포함되어 있었고, 접속조사와 부사격조사 분석을 서로 반대로 분석한 오류도 있었다.

또한, 가장 많이 나타난 오류는 마침표와 가운데점에 대한 태깅으로, 소숫점이나 URL에 포함되는 가운데점과 문장 끝에 나타나는 마침표점은 서로 다른 태그를 부착하는데 이를 수작업자가 빈번하게 오류를 범하는 것을 알 수 있었다.

아울러, 개체명 태깅의 오류는 상기에서 설명한 바와 같이 4개의 오류 유형이 존재하고, 본 발명에서는 오류유형 1과 2만 수정하였으며, 즉, 유형 1의 오류는 기업명과 기업에서 제공하는 서비스 시스템명이 동일할 때 품사 부착에 애매성이 발생한 경우이고, 유형 2의 오류는 개체명이 아닌 단어에 품사를 부착한 경우이다.

더욱이, 본 발명은, 오류만 학습하는 경우(Err)와 정답을 학습하는 경우(All)에 대한 실험을 통해 소량의 문서를 학습하여 임계치가 낮은 경우는 모든 내용을 포함하여 학습하는 경우가 성능이 더 우수하다는 것을 확인하였으며, 학습량과 임계치에 대한 실험을 통하여 학습량이 많을수록 학습문서에 나타나는 오류의 수가 증가하여 학습에 도움이 되는 것은 당연하지만 학습량이 적더라도 임계치에 따라 충분히 오류를 수정할 수 있다는 것을 실험결과를 통해 증명하였다.

이는, 도 11을 참조하여 블로그 문서를 학습하고 평가한 실험에서 1,000문장을 학습하고 임계치가 (3-1)인 경우 최대 성능과 오류 수정 수가 2개밖에 차이가 나지 않는 것을 통해 확인할 수 있다.

또한, 본 발명은, 학습결과를 다른 그룹 문서에 적용한 실험을 통하여 학습 문서량이 많아짐에 따라 규칙이 학습 도메인에 치우침으로 인해 성능이 떨어지는 것을 확인하였다.

상기한 바와 같이, 본 발명에서는, 품사 부착 코퍼스의 오류를 커널 RDR을 통해 자동으로 수정하는 새로운 방법을 제시하고, 그 결과로, 정답을 포함한 학습 방법으로 생성한 규칙은, 도 10을 참조하여 상기한 바와 같이, 같은 작업그룹이 작성한 문서에 대한 실험에서 위키피디아 문서의 경우 최대 5,482개의 오류를 감소시켜 오류를 62% 감소시키고 문서 성능을 2% 향상시켰으며, 블로그 문서 또한, 도 11을 참조하여 상기한 바와 같이, 최대 853개의 오류를 감소시켜 오류를 44% 감소시키고 문서 성능을 0.8% 향상시키는 것을 확인하였다.

이와 같이, 학습과 평가가 같은 그룹의 문서는 RDR 학습을 통한 코퍼스 오류 수정으로 코퍼스의 성능을 향상시킬 수 있다는 실험결과를 통해, 사람이 직접 구축하여 오류의 수가 적고 규칙이 복잡하더라도 RDR 시스템을 통해 수정이 가능한 반면, 다른 작업 그룹간 성능 평가에서는 학습을 통해 생성되는 규칙이 학습문서와 긴밀함으로 인해 학습 문서량이 증가함에 따라 다른 그룹 문서에는 적합하지 않다는 것을 확인하였다.

즉, 도 17을 참조하면, 도 17은 각 실험별로 확인된 학습문서와 평가문서에 따른 형태소 품사 태깅 오류 수정의 최대 성능을 표로 정리하여 나타낸 도면이다.

이상, 상기한 내용들로부터, 오류 수나 유형에 따라 유동적인 임계치를 결정할 수 있는 시스템을 구축 가능하다면 결정된 임계치가 오류의 유형에 따라 제각기 다른 오류 수를 모두 만족시킬 수 없는 문제점을 극복하여 더 나은 오류 수정률을 나타낼 수 있을 것으로 기대된다.

따라서 상기에 설명한 바와 같은 일련의 처리과정이 컴퓨터나 또는 전용의 하드웨어에 의해 수행되도록 함으로써, 본 발명의 실시예에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 구현할 수 있다.

즉, 도 18을 참조하면, 도 18은 본 발명의 실시예에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법의 전체적인 구성을 개략적으로 나타내는 플로차트이다.

도 18에 나타낸 바와 같이, 본 발명의 실시예에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법은, 크게 나누어, 학습대상이 되는 문장 또는 문서를 입력받는 입력단계(S10)와, RDR(Ripple-Down Rules)을 이용하여, 미리 정해진 임계값에 따라 초벌 코퍼스(Initial Corpus)와 정답 코퍼스(Gold corpus)를 비교하여 상기한 입력단계(S10)에서 입력된 문장이나 문서 전체에 대한 오류 및 정답을 각각 학습하는 학습단계(S20)와, 상기한 학습단계(S20)의 학습결과에 근거하여 미리 정해진 임계값과 커널(kernel)에 따라 오류수정을 위한 규칙(Rules)을 생성하는 규칙생성단계(S30)와, 상기한 규칙생성단계(S30)에서 생성된 규칙을 이용하여 오류수정 대상이 되는 문장이나 문서의 오류를 수정하는 오류수정단계(S40)를 포함하는 일련의 처리과정이 컴퓨터나 또는 전용의 하드웨어에 의해 자동으로 수행되도록 구성될 수 있다.

여기서, 상기한 학습단계(S20)는, 상기에 설명한 바와 같이, 기본적으로는 SCRDR(Single Classification Ripple Down Rules)을 이용하여 사용자에 의해 입력된 임계값에 따라 입력된 문장이나 문서 전체에 대하여 초벌 코퍼스와 정답 코퍼스를 학습하며, 이때, 한국어 형태소 품사 태깅과 개체명 태깅에서 나타나는 특징을 분석하고 학습할 수 있도록 하기 위해, 잘못 분석된 형태소로 인해 오류 문장과 정답 문장간의 형태소가 다를 경우는 해당 문장의 형태소를 변형하여 학습하고, 또한, 생성된 규칙이 단어에 상관없이 같은 유형의 오류에 적용될 수 있도록 의미형태소를 삭제하고 품사태그만을 이용하여 학습을 수행하는 처리가 수행되도록 구성될 수 있다.

아울러, 상기한 방법은, 동일한 형태소에 다른 품사가 부착된 개체명 태깅 오류 유형에 있어서, 개체명 의미인식 오류와 개체명 인식범위 오류는 제외하고 잘못된 개체명 태그를 부착한 오류와 개체명이 아닌 단어를 개체명으로 인식한 오류만을 학습하고 오류를 수정하는 처리가 수행되도록 구성될 수 있다.

더욱이, 상기한 규칙생성단계(S30)는, 도 3을 참조하여 상기에 설명한 바와 같이, 학습 말뭉치에 따라 변경이 가능하도록 구성되는 커널 시스템을 통하여 오류 패턴을 분석하고 규칙을 생성하며, 즉, 이러한 커널 시스템은, 형태소 품사 말뭉치와 개체명 태깅 말뭉치에 대한 각각의 커널을 생성하기 위해 형태소 단위와 어절 단위를 모두 기준으로 하여 생성되는 것으로, 형태소는 이전 어절의 첫 형태소 및 마지막 형태소와 다음 어절의 첫 형태소 및 마지막 형태소를 사용하며, 어절을 무시하고 이전의 3개 형태소와 다음의 3개 형태소를 사용하고, 품사도 형태소와 동일하게 사용하며, 개체명 품사 태깅 말뭉치 학습에 사용되는 커널은 이전 어절의 형태소와 다음 어절의 형태소를 사용하고, 어절을 무시하고 이전의 2개의 형태소와 다음의 2개의 형태소를 사용하도록 구성될 수 있다.

또한, 형태소 품사 태그 커널과 개체명 태그 커널의 구체적인 구성은 도 3에 나타낸 바와 같으며, RDR 학습을 통한 규칙 생성시 임계값은 사용자에 의해 최적의 값으로 결정되어 입력되도록 구성될 수 있다.

즉, 상기한 규칙생성단계(S30)는, 사용자가 지정한 임계값과 커널을 바탕으로 조건에 부합하는 규칙을 생성하여 SCRDR로 학습된 정보를 'Rule' 파일로 생성하며, 아울러, 상기한 오류수정단계(S40)는, 이러한 학습의 결과로 생성된 'Rule' 파일을 읽어들여 오류수정 대상이 되는 문서에 적용하고, 오류로 판단된 태그를 학습된 정답 태그로 변경하는 처리가 수행되도록 구성될 수 있다.

더욱이, 상기한 바와 같이 구성되는 본 발명에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법이 컴퓨터나 전용의 하드웨어를 통하여 자동으로 수행되도록 구성함으로써, 입력된 문장이나 문서의 오류를 자동으로 수정하는 말뭉치 오류 자동 수정장치 및 시스템을 용이하게 구현할 수 있다.

더 상세하게는, 상기한 말뭉치 오류 자동 수정장치 및 시스템은, 예를 들면, 사용자가 각종 정보를 입력하기 위한 입력부와, 입력된 문서의 오류를 수정하는 처리부 및 처리부의 처리 결과를 사용자에게 표시하는 출력부를 포함하여 구성되고, 상기한 처리부는 본 발명에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 이용하여 입력된 문서의 오류를 수정하는 처리가 자동으로 수행되도록 구성될 수 있다.

따라서 상기한 바와 같이 하여 본 발명에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 구현할 수 있다.

또한, 상기한 바와 같이 하여 본 발명에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 구현하는 것에 의해, 본 발명에 따르면, RDR 시스템에 커널이 동작하도록 하여 커널 교체만으로 다양한 태그 말뭉치에 동작할 수 있도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법이 제공됨으로써, 자연어처리에서 인식 및 분류기 모델을 생성하기 위해 필요한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류가 발생하게 되나, 이러한 오류의 패턴이 불규칙하여 오류 수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결할 수 있다.

아울러, 본 발명에 따르면, 상기한 바와 같이 RDR을 이용하여 오류 말뭉치와 정답 말뭉치에서 태깅된 문서의 특성을 반영한 수정규칙을 자동으로 생성하고, 자연어 처리시스템에 직접적인 영향을 미치는 정제된 대량의 기계학습을 위한 학습 말뭉치 내의 오류를 인식하여 형태소 분석 말뭉치와 개체명 말뭉치의 오류를 수정하도록 구성되는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 제공됨으로써, 형태소 단위로 동작하여 한국어 말뭉치의 특성을 적용 가능하고, 커널을 사용하여 다양한 형태의 말뭉치에 적용할 수 있는 동시에, 대량의 말뭉치 제작시 오류를 최소화할 수 있다.

이상, 상기한 바와 같은 본 발명의 실시예를 통하여 본 발명에 따른 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법의 상세한 내용에 대하여 설명하였으나, 본 발명은 상기한 실시예에 기재된 내용으로만 한정되는 것은 아니며, 따라서 본 발명은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 설계상의 필요 및 기타 다양한 요인에 따라 여러 가지 수정, 변경, 결합 및 대체 등이 가능한 것임은 당연한 일이라 하겠다.

Claims

자연어처리를 위한 학습 말뭉치를 사람이 직접 작성함으로 인해 오류의 패턴이 불규칙하여 오류수정을 위한 규칙을 작성하는데 어려움이 있었던 종래기술의 말뭉치 오류수정방법들의 문제점을 해결하기 위한 일련의 처리과정이 컴퓨터나 전용의 하드웨어에 의해 자동으로 수행되도록 구성되는 커널(kernel) RDR(Ripple-Down Rules)을 이용한 태깅 말뭉치 오류 자동수정방법에 있어서,
상기 컴퓨터나 상기 전용의 하드웨어의 입력수단을 통하여, 학습대상이 되는 문장 또는 문서가 입력되는 입력단계;
상기 컴퓨터나 상기 전용의 하드웨어의 처리수단을 통하여, 상기 입력단계에서 입력된 문장이나 문서 전체에 대한 오류 및 정답에 대한 학습이 수행되는 학습단계;
상기 컴퓨터나 상기 전용의 하드웨어의 처리수단을 통하여, 상기 학습단계의 학습결과에 근거하여 미리 정해진 임계값과 커널에 따라 오류 패턴을 분석하고 오류 수정을 위한 규칙(Rules)을 생성하는 처리가 수행되는 규칙생성단계; 및
상기 컴퓨터나 상기 전용의 하드웨어의 처리수단을 통하여, 상기 규칙생성단계에서 생성된 규칙을 이용하여 오류수정 대상이 되는 문장이나 문서의 오류를 수정하고 상기 컴퓨터나 상기 전용의 하드웨어의 표시수단을 통하여 수정된 결과를 표시하는 처리가 수행되는 오류수정단계를 포함하여 구성되고,
상기 학습단계는,
한국어 형태소 품사 태깅과 개체명 태깅에서 나타나는 특징을 학습할 수 있도록 잘못 분석된 형태소로 인해 오류 문장과 정답 문장간의 형태소가 다를 경우 해당 문장의 형태소를 정답 문장의 형태로 변형하여 학습하고,
생성된 규칙이 단어에 상관없이 같은 유형의 오류에 적용될 수 있도록 의미형태소를 삭제하고 품사태그만을 이용하여 학습을 수행하는 처리가 수행되도록 구성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법.
제 1항에 있어서,
상기 학습단계는,
SCRDR(Single Classification Ripple Down Rules)을 이용하여, 사용자에 의해 입력된 임계값에 따라 상기 입력단계에서 입력된 문장이나 문서 전체에 대하여 초벌 코퍼스(Initial Corpus)와 정답 코퍼스(Gold Corpus)를 각각 학습하는 처리가 수행되도록 구성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법.
삭제
제 2항에 있어서,
상기 방법은,
동일한 형태소에 다른 품사가 부착된 개체명 태깅 오류 유형에 대하여, 개체명 의미인식 오류와 개체명 인식범위 오류는 제외하고, 잘못된 개체명 태그를 부착한 오류와 개체명이 아닌 단어를 개체명으로 인식한 오류만을 학습하고 오류를 수정하는 처리가 수행되도록 구성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법.
제 4항에 있어서,
상기 규칙생성단계는,
사용자에 의해 입력되는 상기 임계값과 미리 생성된 상기 커널을 바탕으로 하여 상기 SCRDR로 학습된 정보를 'Rule' 파일로 생성하는 처리가 수행되도록 구성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법.
제 5항에 있어서,
상기 커널은,
학습 말뭉치에 따라 변경이 가능하도록 형태소 단위와 어절 단위 모두를 기준으로 하여 각각의 유형별로 구성되는 형태소 품사 태그 커널 및 개체명 태크 커널을 포함하여 구성되고,
상기 형태소 품사 태그 커널은,
형태소는 이전 어절의 첫 형태소와 품사 및 마지막 형태소와 다음 어절의 첫 형태소 및 마지막 형태소를 사용하며, 어절을 무시하고 이전의 3개 형태소와 다음의 3개 형태소를 사용하고, 품사는 상기 형태소와 동일하게 사용하여 생성되며,
상기 개체명 태그 커널은,
이전 어절의 형태소와 다음 어절의 형태소를 사용하고, 어절을 무시하고 이전의 2개의 형태소와 다음의 2개의 형태소를 사용하여 생성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법.
제 6항에 있어서,
상기 오류수정단계는,
상기 규칙생성단계에서 생성된 상기 'Rule' 파일을 읽어들여 오류수정 대상이 되는 문서에 적용하고, 오류로 판단된 태그를 학습된 정답 태그로 변경하는 처리가 수행되도록 구성되는 것을 특징으로 하는 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법.
청구항 1항, 청구항 2항, 청구항 4항 내지 청구항 7항 중 어느 한 항에 기재된 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 컴퓨터에 실행시키도록 구성되는 프로그램이 기록된 컴퓨터에서 판독 가능한 기록매체.
입력된 문장이나 문서의 오류를 자동으로 수정하도록 구성되는 자동 말뭉치 오류 수정시스템에 있어서,
사용자가 각종 정보를 입력하기 위한 입력부;
상기 입력부를 통해 입력된 문서의 오류를 수정하는 처리부; 및
상기 처리부의 처리 결과를 사용자에게 표시하는 출력부를 포함하여 구성되고,
상기 처리부는,
청구항 1항, 청구항 2항, 청구항 4항 내지 청구항 7항 중 어느 한 항에 기재된 커널 RDR을 이용한 태깅 말뭉치 오류 자동수정방법을 이용하여 입력된 문서의 오류를 수정하는 처리가 수행되도록 구성되는 것을 특징으로 하는 자동 말뭉치 오류 수정시스템.