WO2014092265A1

WO2014092265A1 - 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법

Info

Publication number: WO2014092265A1
Application number: PCT/KR2013/004079
Authority: WO
Inventors: 이근배; 이종훈; 서홍석; 강세천; 방지수; 이규송
Original assignee: 포항공과대학교 산학협력단
Priority date: 2012-12-13
Filing date: 2013-05-09
Publication date: 2014-06-19
Also published as: US20150309982A1; KR101374900B1

Abstract

본 발명은 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법에 관한 것으로서, 구체적으로 문법 오류 정정 시스템은 복수의 말뭉치로부터 언어 특성에 따른 복수의 문맥 자질을 취득하고 상기 문맥 자질로부터 문법 오류를 진단하는 기준인 1차 학습 분류 모델 및 2차 학습 분류 모델을 생성하는 학습부, 및 상기 1차 학습 분류 모델을 이용하여 학습자가 입력한 말뭉치에 대해 문법 오류를 예측하고, 상기 문법 오류의 1차 예측 결과와 상기 2차 학습 분류 모델을 이용하여 문법 오류를 예측하고 문법 오류를 정정하는 실행부를 포함하고, 상기 2차 학습 분류 모델은 상기 1차 예측 결과를 바탕으로 복수의 말뭉치로부터 추출된 상기 복수의 문맥 자질을 이용하여 반복적인 학습 기법을 통해 생성되는 것을 특징으로 한다.

Description

문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법

본 발명은 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법에 관한 것으로, 다수의 문법 오류가 표기된 말뭉치를 활용한 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법에 관한 것이다.

일반적으로 문법 오류 정정 시스템은 사람이 구축한 규칙을 기반으로 하여 문법의 잘못된 사용을 찾거나, 말뭉치로부터 문법을 자동으로 학습하여 문법 오류를 찾는다.

대용량의 말뭉치로부터 문법을 자동으로 학습하고 문법 오류를 찾을 때는 대용량의 원어민 말뭉치가 사용되거나 문법 오류가 표기된 비원어민 말뭉치로부터 학습될 수 있다.

그러나 대용량의 말뭉치를 기초로 문법을 학습하고 문법 오류를 찾는 방식만으로는 말뭉치가 가지는 서로 다른 특성으로 인해 다양한 입력이 주어졌을 때보다 정확하게 오류를 포착하고 이를 정정하기 힘든 문제가 있다.

본 발명은 상기와 같은 기술적 과제를 해결하기 위한 것으로서, 각기 다른 특성을 가지는 다수의 말뭉치로부터 문법을 학습하고 문법 오류를 정정하는 문법 오류정정 모델을 제공하고, 다양한 특성을 갖는 입력이 주어졌을 때 정확하게 오류를 찾아 정정할 수 있는 방식을 제공한다..

상기 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 문법 오류 정정 시스템은, 복수의 말뭉치로부터 언어 특성에 따른 복수의 문맥 자질을 취득하고 상기 문맥 자질로부터 문법 오류를 진단하는 기준인 1차 학습 분류 모델 및 2차 학습 분류 모델을 생성하는 학습부, 및 상기 1차 학습 분류 모델을 이용하여 학습자가 입력한 말뭉치에 대해 문법 오류를 예측하고, 상기 문법 오류의 1차 예측 결과와 상기 2차 학습 분류 모델을 이용하여 문법 오류를 예측하고 문법 오류를 정정하는 실행부를 포함한다.

그리고, 상기 2차 학습 분류 모델은 상기 1차 예측 결과를 바탕으로 복수의 말뭉치로부터 추출된 상기 복수의 문맥 자질을 이용하여 반복적인 학습 기법을 통해 생성된다.

여기서 학습부는, 상기 복수의 말뭉치를 입력받아 상기 복수의 문맥 자질을 추출하는 문맥 자질 추출부, 상기 복수의 문맥 자질로부터 반복적인 학습 기법을 통해 문법 오류를 진단하는 기준으로서 문법 오류 패턴 및 오류 분류에 관한 적어도 하나 이상의 1차 학습 분류 모델을 생성하는 복수의 기본 분류 학습부, 및 상기 문맥 자질 추출부로부터 추출된 복수의 문맥 자질 및 상기 1차 학습 분류 모델을 사용하여 학습자가 입력한 말뭉치에 대해 1차로 문법 오류를 예측한 1차 예측 결과 정보를 이용하여 반복적인 학습 기법을 통해 적어도 하나 이상의 2차 학습 분류 모델을 생성하는 복수의 메타 분류 학습부를 포함할 수 있다.

상기 2차 학습 분류 모델은 상기 1차 학습 분류 모델이 포함하지 않은 문법 오류 패턴 및 오류 분류를 포함한다.

일 실시 예로서 상기 문법 오류 정정 시스템은 상기 1차 학습 분류 모델 및 상기 2차 학습 분류 모델을 저장하는 모델링부를 더 포함할 수 있다.

한편 상기 실행부는, 상기 학습자가 입력한 말뭉치에 대해 복수의 문맥 자질을 추출하는 문맥 자질 추출부, 상기 추출된 문맥 자질에 대응하는 1차 학습 분류 모델을 선정하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 1차로 예측하여 상기 1차 예측 결과를 출력하는 기본 분류 예측부, 및 상기 1차 예측 결과 정보가 문법 오류가 아닌 것으로 판단되는 경우 상기 2차 학습 분류 모델을 이용하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 예측하고 그 결과 정보를 출력하는 메타 분류 예측부를 포함할 수 있다.

여기서 상기 문맥 자질 추출부는 상기 학습부에서 문맥 오류를 진단을 위한 학습 분류 모델을 형성하기 위한 학습 과정에 이용된 목적 문법 정정을 위한 문맥 자질을 상기 학습자의 입력 말뭉치로부터 추출하는 것을 특징으로 한다.

그리고 상기 메타 분류 예측부는 상기 1차 예측 결과 정보가 문법 오류가 있는 것으로 판단되는 경우에 동작하지 않을 수 있다.

또한 상기 학습부는 상기 실행부와 서로 연동되어 상기 2차 학습 분류 모델을 형성할 수 있다.

한편 상기 목적을 달성하기 위한 본 발명의 다른 일 실시 예에 따른 문법 오류 정정 방법은 복수의 말뭉치로부터 문법 오류를 진단하는 기준인 학습 모델을 생성하는 학습 단계 및 상기 학습 모델을 이용하여 학습자가 입력한 말뭉치에 대해 문법 오류를 예측하는 실행 단계를 포함한다.

여기서 상기 학습 단계는, 상기 복수의 말뭉치를 입력받아 언어 특성에 따른 복수의 문맥 자질을 추출하는 문맥 자질 추출 단계, 상기 복수의 문맥 자질로부터 반복적인 학습 기법을 통해 문법 오류를 진단하는 기준으로서 문법 오류 패턴 및 오류 분류에 관한 적어도 하나 이상의 1차 학습 분류 모델을 생성하는 기본 분류 학습 단계, 및 상기 추출된 복수의 문맥 자질, 및 상기 적어도 하나 이상의 1차 학습 분류 모델을 사용하여 상기 학습자가 입력한 말뭉치에 대해 1차로 문법 오류를 예측한 1차 예측 결과 정보를 이용하여 반복적인 학습 기법을 통해 적어도 하나 이상의 2차 학습 분류 모델을 생성하는 메타 분류 학습 단계를 포함한다.

그리고, 상기 실행 단계는, 상기 학습자가 입력한 말뭉치에 대해 복수의 문맥 자질을 추출하는 문맥 자질 추출 단계, 상기 기본 분류 학습 단계에서 생성된 1차 학습 분류 모델 중 상기 추출된 문맥 자질에 대응하는 1차 학습 분류 모델을 선정하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 1차로 예측하고 1차 예측 결과를 출력하는 1차 예측 단계, 및 상기 1차 예측 결과 정보가 문법 오류가 아닌 것으로 판단되는 경우 상기 2차 학습 분류 모델을 이용하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 예측하고 그 결과 정보를 출력하는 2차 예측 단계를 포함한다.

특히 상기 실행 단계의 문맥 자질 추출 단계는, 상기 학습 단계에서 상기 학습 분류 모델을 형성하기 위하여 학습 과정에 이용된 목적 문법 정정을 위한 문맥 자질을 상기 학습자의 입력 말뭉치로부터 추출할 수 있다.

그리고 상기 2차 학습 분류 모델은 상기 1차 학습 분류 모델이 포함하지 않은 문법 오류 패턴 및 오류 분류를 포함하는 것을 특징으로 할 수 있다.

본 발명에 따르면 문법 오류 정정을 위해 하나의 분류기를 학습하여 정답을 선택하는 것이 아니라, 다수의 기초 분류기를 두고 그 결과를 입력하여 종합하는 메타 분류기를 이용하여 학습하고 정답을 예측하므로, 다양한 특성의 입력 문장의 문법 오류를 정확하게 파악하여 오류를 분석하고 정확한 정답을 예측할 수 있다.

특히 방대한 크기의 말뭉치 집단 속에서 서로 다른 다양한 특성의 말뭉치를 이용해 각각의 기초 분류기에 따라 학습하므로, 다양한 특성을 가지는 입력 문장에 대해 보다 정확한 정답을 예측할 수 있다.

또한 기존에 개발된 문법 오류가 표시된 비원어민 말뭉치의 크기가 작더라도 다수의 다른 말뭉치를 활용할 수 있고, 결과적으로 높은 성능을 기대할 수 있어 문법 오류 정정의 효과를 효율적으로 개선할 수 있다.

도 1은 본 발명의 일 실시 예에 따른 문법 오류 정정 시스템의 블록도.

도 2는 도 1의 문법 오류 정정 시스템에 따른 본 발명의 문법 오류 정정 방법을 나타낸 흐름도.

본 발명은 상기와 같은 기술적 과제를 해결하기 위한 것으로서, 각기 다른 특성을 가지는 다수의 말뭉치로부터 문법을 학습하고 문법 오류를 정정하는 문법 오류정정 모델을 제공하고, 다양한 특성을 갖는 입력이 주어졌을 때 정확하게 오류를 찾아 정정할 수 있는 방식을 제공하고자 한다.

이를 위하여 복수의 말뭉치로부터 언어 특성에 따른 복수의 문맥 자질을 취득하고 상기 문맥 자질로부터 문법 오류를 진단하는 기준인 1차 학습 분류 모델 및 2차 학습 분류 모델을 생성하는 학습부, 및 상기 1차 학습 분류 모델을 이용하여 학습자가 입력한 말뭉치에 대해 문법 오류를 예측하고, 상기 문법 오류의 1차 예측 결과와 상기 2차 학습 분류 모델을 이용하여 문법 오류를 예측하고 문법 오류를 정정하는 실행부를 포함하는 문법 오류 정정 시스템을 제공한다.

또한 복수의 말뭉치로부터 문법 오류를 진단하는 기준인 학습 모델을 생성하는 학습 단계 및 상기 학습 모델을 이용하여 학습자가 입력한 말뭉치에 대해 문법 오류를 예측하는 실행 단계를 포함하는 문법 오류 정정 방법을 제공한다.

본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 본 발명의 기재로부터 당해 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

이하, 첨부한 도면을 참고로 하여 본 발명의 실시 예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예들에 한정되지 않는다.

또한, 여러 실시 예들에 있어서, 동일한 구성을 가지는 구성요소에 대해서는 동일한 부호를 사용하여 대표적으로 제1 실시 예에서 설명하고, 그 외의 실시 예에서는 제1 실시 예와 다른 구성에 대해서만 설명하기로 한다.

본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

도 1은 본 발명의 일 실시 예에 따른 문법 오류 정정 시스템의 블록도이다.

도 1을 참조하면 본 발명의 일 실시 예에 따른 문법 오류 정정 시스템(100)은 학습부(10), 모델링부(20), 및 실행부(30)로 구성된다.

학습부(10)는 무수한 훈련용 말뭉치(코퍼스, corpus)로부터 언어학적 자질을 추출하여 학습하는 수단으로 구성되어 있다.

여기서 말뭉치(코퍼스, corpus)는 하나의 언어에 대한 분석을 위한 기초 자료들로서 해당 언어의 다수의 대화 또는 문장 등에서 취득되는 언어 정보를 말한다. 그리고, 말뭉치로부터 추출되는 언어학적 자질은, 무수한 말뭉치 자료 소스 속에서 기계적인 학습 방법을 사용하여 수집되는 정보의 개별 특징 혹은 자질(feature)을 의미한다. 즉, 말뭉치의 정보에서 취득될 수 있는 문맥의 특성을 의미한다. 이하에서 언어학적 자질, 자질, 문맥 자질은 동일한 의미인 것으로 한다. 본 발명에서 문맥 자질은 정정을 하고자 목표로 해당 언어의 문법에 따라 달라지며, 언어학적 특성을 활용하여 말뭉치로부터 선정할 수 있다. 문맥 자질은 각각 사용되는 기본 분류기(이후 설명될 학습부(10)에 포함된 구성부인 기본 분류 학습부를 의미함)마다 같거나 다르게 선정될 수 있으며, 언어학적 지식을 활용하여 선정된다.

구체적으로 학습부(10)는 문맥 자질 추출부(101), 기본 분류 학습부(102), 및 메타 분류 학습부(105)를 포함한다.

문맥 자질 추출부(101)는 다수의 훈련용 말뭉치를 입력받아 문맥 자질(또는 언어학적 자질)을 추출하는 수단이다. 상기 문맥 자질은 문법 오류 정정 방식에서 목적 문법 사용을 예측하기 위해 훈련용 말뭉치로부터 추출된다. 즉, 목적 문법은 해당 언어의 언어학적 관점에서 바르게 사용되어야 하는 타겟 문법으로서, 문법 오류를 정정하는 것은 이러한 바른 타겟 문법으로 바꾸기 위함이다. 일례로 영어의 경우라면 관사 사용에 관한 목적 문법, 전치사 사용에 관한 목적 문법 등이 있을 수 있다. 따라서, 문맥 자질은 다양한 문법 특성 분야에서 바른 목적 문법을 사용하기 위해, 일반적으로 학습자(사용자)가 문맥 속에서 어떻게 해당 문법 특성에 대해 표현하는지 알아내기 위하여 말뭉치로부터 추출되는 특성, 또는 특징이다.

기본 분류 학습부(102)는 상기 문맥 자질 추출부(101)로부터 추출된 문맥 자질로부터 기계적 학습 모델링 기법을 반복적으로 이용하여 1차적으로 학습 모델을 형성하는 수단이다. 여기서 1차적인 학습 분류 모델은 입력되는 문장에서 문법적으로 오류가 있는지 판단하기 위하여 이용되는 기초적인 문법 오류 패턴 및 오류 분류에 관한 기본 분류 모델이다. 따라서 기본 분류 학습부(102)는 문맥 자질로부터 다수의 말뭉치에서 소정의 확률 범위 내에서 빈번하게 발생할 수 있는 문법 오류의 패턴을 분류하는 모델을 생성할 수 있다.

상기 기본 분류 학습부(102)에서 생성되는 1차적인 학습 분류 모델은 모델링부(20)에 전달되어 저장된다. 본 발명의 실시 예에 따르면 기본 분류 학습부(102)는 문맥 자질의 다양한 특성에 따라 적어도 하나 이상으로 형성되어 복수 개의 기본 분류 학습부(102)를 통해 복수 개의 기본 학습 분류 모델이 형성될 수 있다.

또한 학습부(10)는 메타 분류 학습부(105)를 더 포함하는데, 메타 분류 학습부(105)는 상기 기본 분류 학습부(102)보다 상위 개념의 학습 분류 모델을 형성하는 수단으로서, 문맥 자질 추출부(101)에서 추출된 문맥 자질 및 상기 기본 분류 모델을 통해 1차적으로 문법 오류를 예측한 결과 정보를 취합하여 보다 정확한 문법 오류 검사를 위한 2차적인 학습 분류 모델을 형성한다.

여기서 상기 2차적인 학습 분류 모델을 메타 분류 모델이라고 명명하기로 한다. 메타 분류 모델은, 기초 분류 모델을 이용하여서도 파악될 수 없는 복잡한 문법 오류 혹은 판단이 어려운 문법 오류를 잡아낼 수 있도록, 기초 분류 모델을 통한 1차적인 문법 오류 판단 결과의 정보와 문맥 자질 정보를 반복적으로 학습하여 취득된 학습 분류 모델이다.

마찬가지로 상기 메타 분류 학습부(105)에서 생성되는 2차적인 학습 분류 모델은 모델링부(20)에 전달되어 저장된다. 본 발명의 실시 예에 따르면 메타 분류 학습부(105)는 다수의 기본 학습 분류 모델을 통해 1차적으로 예측된 문법 오류의 판단 결과 정보를 이용하여 통합적으로 학습 과정을 거쳐 분류 모델을 생성하는 것이므로 문맥 자질의 다양한 특성에 따라 복수 개로 설정될 수 있다. 메타 분류 학습부(105)는 복수의 기본 분류 학습부(102)에서 생성된 기본 학습 분류 모델의 1차적 판단 결과를 취합하여 학습하는 수단이기 때문에 그 구성 개수는 기본 분류 학습부(102)의 구성 개수보다 적은 수로 형성될 수 있다.

상기 메타 분류 학습부(105)의 입력은 상기 기본 분류 학습부(102)의 입력과 상이하다. 즉, 상기 기본 분류 학습부(102)의 입력단에 말뭉치에서 추출된 문맥 자질로서, 주로 일반인들이 사용하고 있는 문장들로부터 추출된 문맥 자질이 입력되는 반면, 상기 메타 분류 학습부(105)의 입력단에는 기본 분류 학습부(102)에서 생성된 1차적 판단 결과로부터 추출되는 문맥 자질이 입력되는 차이가 있다.

한편 모델링부(20)는 상기 학습부(10)가 말뭉치에서 취득된 문맥 자질로부터 학습 과정을 반복하여 얻은 각각의 학습 과정 결과물로부터 형성된 소정의 기계적 학습 모델을 저장하는 수단이다. 상술한 바와 같이 모델링부(20)는 적어도 복수의 기초적이고 하위의 학습 모델을 형성하는 기본 분류 모델(기본 학습 분류 모델)(103)과, 상기 기본 분류 모델로부터 다시 학습 모델링 기법을 이용하여 상위의 학습 모델을 형성하는 메타 분류 모델(메타 학습 분류 모델)(106)로 구분될 수 있다.

한편, 문법 오류 정정 시스템(100)에서 상기 실행부(30)는 사용자(또는 학습자)가 직접 입력한 문장으로부터 실제로 문법 오류를 검출하고 이에 대한 정정을 수행하는 수단이다.

도 1을 참조하면 상기 실행부(30)는 문맥 자질 추출부(101), 기본 분류 예측부(104), 및 메타 분류 예측부(107)를 포함한다.

문맥 자질 추출부(101)는 상기 학습부(10)에 구성된 것과 동일한 수단으로서 말뭉치에서 문맥 자질을 추출한다. 실행부(30)에 포함된 문맥 자질 추출부(101)는 특히 사용자가 입력한 다수의 문장들로부터 개별적으로 혹은 소정의 단위로 묶어서 문맥 자질을 추출할 수 있다.

문맥 자질 추출부(101)에서 추출된 다양한 특성에 따른 문맥 자질의 결과 정보는 기본 분류 예측부(104)에 전달되고, 기본 분류 예측부(104)는 모델링부(20)에서 취득된 적어도 하나 이상의 기본 학습 분류 모델을 사용하여 1차적으로 문법 오류를 예측 또는 판단한다. 즉, 기본 분류 예측부(104)는 모델링부(20)에 저장된 다수의 기본 학습 분류 모델들 중에서 상기 사용자의 입력 문장에서 추출된 문맥 자질에 대응하는 특성과 관련된 적어도 하나 이상의 기본 학습 분류 모델을 선택하고, 이를 이용하여 입력 문장에서 추출된 문맥 자질에 대하여 1차적으로 문법 오류를 판단한다.

기본 분류 예측부(104)에서 문법 오류가 있는 것으로 판단될 경우, 상기 실행부(30)에 포함된 메타 분류 예측부(107)의 실행 없이 곧바로 본 발명의 문법 오류 시스템은 문법 오류임을 판단하고, 해당 부분을 정정하여 출력한다. 본 발명의 도 1의 실시 예에서는 설명의 편의를 위하여 문법 오류 부분의 정정 수단은 도시하지 않았으나, 입력 문장에서 예측된 부분의 문법 오류 수정은 공지된 기술과 수단을 이용하여 정정할 수 있다.

반면, 기본 분류 예측부(104)에서 1차적으로 예측하여도 문법 오류가 없는 것으로 판단될 경우, 해당 1차적 결과 정보는 상술한 바와 같이 학습부(10)에 전달되어 2차적 학습 모델(메타 분류 모델) 형성을 위해 이용된다.

또한 1차적인 문법 오류 예측 결과를 가지는 입력 문장은 메타 분류 예측부(107)에 전달된다. 그러면 상기 메타 분류 예측부(107)는 기본적인 학습 분류 모델을 이용하여 도출하지 못한 복잡하고 어려운 문법 오류를 정확하게 추출하기 위하여 모델링부(20)에 저장된 2차적 학습 분류 모델(메타 분류 모델)(106)을 이용하여 문법 오류를 판단한다.

상기 메타 분류 예측부(107)는 기본 분류 모델링 과정을 거친 후 다시 한번 문맥 자질 정보와 1차적 판단 결과 정보를 활용하여 학습한 메타 분류 모델을 사용함으로써 사용자(학습자)가 입력한 문장에서 1차적 예측 과정을 거쳤을 때 미처 파악하지 못한 복잡하고 난해한 문법 오류를 찾아낼 수 있다. 메타 분류 예측부(107)에서 최종적으로 사용자의 문장을 메타 분류 모델을 이용하여 판단한 결과, 문법 오류가 있는 것으로 판단되면 해당 문법 오류를 정정하고, 문법 오류가 없는 것으로 판단되면 그대로 문장을 출력함으로써, 목적 문법의 사용을 최종적으로 결정할 수 있다.

도 2는 도 1의 문법 오류 정정 시스템에 따른 본 발명의 문법 오류 정정 방법을 나타낸 흐름도이다.

도 2를 참조하여 알 수 있듯이, 본 발명의 실시 예에 따른 문법 오류 정정 방법은, 크게 학습 단계(SL)와 실행 단계(SP)로 이루어진다.

학습 단계(SL)는 훈련용 말뭉치를 이용하여 문맥 자질을 추출하고 그로부터 각각 소정의 학습 과정을 통해 학습 분류 모델을 생성하는 과정이다.

한편, 실행 단계(SP)는 실제로 학습자가 입력한 문장을 이용하여 문법 오류를 판단하고 이를 정정하는 과정이다.

학습 단계(SL)는 먼저 다수의 훈련용 말뭉치가 입력된다(S1). 상기 훈련용 말뭉치에서 언어학적 특성에 따라 다수의 문맥 자질을 추출한다(S2).

상기 S2 단계에서 추출된 문맥 자질들은 특성별로 분류될 수 있는데, 기본 분류 학습부(102)에서 반복적인 학습 과정을 수행한다(S3). 상기 기본 분류 학습부는 훈련용 말뭉치에서 추출된 문맥 자질 정보를 입력으로 전달받아 반복적 학습 과정을 수행하여 결과물을 추출한다(S4). 이러한 결과물들은 반복적으로 학습 과정을 진행하게 되면 소정의 모델로 형성될 수 있으므로 기본 분류 학습부는 결과 추출과 동시에 해당 결과물로 1차적인 기본 분류 모델링을 할 수 있다(S4).

다음으로 상기 S4 단계에서 생성된 기본 분류 모델링을 이용하여 사용자의 입력 문장에 대한 1차적인 문법 오류 예측이 수행된다. 즉, 기본 분류 예측부(104)에서 1차적인 문법 예측 결과를 추출한다(S5).

상기 S5 단계에서 문법 오류인 것으로 판단되면 바로 문법 오류를 정정하는 과정을 거치고 출력되지만(도면 미도시), 만일 문법 오류인 것이 판단되지 않으면 메타 분류 학습부(105)에서 반복적인 학습 과정을 거치게 된다(S6). 상기 도 1에서 설명한 바와 같이 S6의 과정은 1차원적인 기본 분류 예측 결과 정보를 바탕으로 문맥 자질을 이용하여 다시 반복 학습을 통해 상위 개념의 모델링을 수행하는 것이다.

그러면 그 결과가 추출되고 상기 메타 분류 학습부(105)는 2차적 학습 분류 모델인 메타 분류 모델을 형성하게 된다(S7). 그러면 본 발명의 실시 예에 따른 학습 단계(SL)는 종료된다.

문법 오류 정정 방법은 학습 단계(SL) 외에 이를 바탕으로 추출된 모델링을 위해 실제로 입력 문장의 문법 오류가 정정되는 실행 단계(SP)를 포함한다.

구체적으로 상기 실행 단계(SP)는 먼저 학습자(사용자)가 다수의 문장을 입력한다(S8).

그러면 문맥 자질 추출부에서 상기 다수의 입력 문장으로부터 문맥 자질을 추출하게 된다(S9). 이때 문맥 자질의 추출은 모델링 형성을 위한 학습 과정에서 이용되었던 목적 문법 정정을 위한 문맥 자질을 추출하는 것이다. 즉 다수의 문장 각각에 대하여 각 기본 분류 학습부에서 학습할 때 사용하였던 모든 문맥 자질을 추출한다.

입력 문장에서 문맥 자질을 추출하는 것은 문맥 정보를 취득하는 것으로서 상기 문맥 정보를 바탕으로 상기 S4 단계에서 형성된 기본 분류 모델을 이용하여 상기 입력 문장의 문법의 정확성을 예측할 수 있다. 즉, 기본 분류 예측부(104)에서 학습자의 입력 문장에 대해 1차적으로 문법 정확성을 판단한다(S10).

이때 상기 학습 단계(SL)의 S5 과정에서 설명한 바와 같이, 기본 분류 예측부에서 1차적으로 판단한 문법 오류 정보 결과는 메타 분류 모델링을 위해 전달된다. 즉 본 발명의 실시 예에 따른 문법 오류 정정 시스템은 학습부와 실행부를 연동하여 이용함으로써 보다 정확한 문법 오류 판단을 위한 모델링을 구현하는 것이다.

상기 S10 과정에서 문법 오류가 없는 것으로 판단되면 그 입력 문장의 문맥 자질 정보에 대하여 상기 S7 단계에서 형성한 메타 분류 모델을 사용하여 다시한번 문법 정확성을 최종적으로 예측한다(S11). 즉, 메타 분류 예측부는 기본 분류 예측부로부터 출력된 결과와 연동하여 상위 학습 분류 모델인 메타 분류 모델을 이용하여 문법 사용을 예측한다.

예측된 결과가 학습자의 입력과 같으면 문법 오류가 없는 것으로 분류되고, 예측된 결과가 학습자의 입력과 다르다면 문법 오류가 있는 것으로 분류한다. 최종적으로 문법 오류가 있는 것으로 판단되면 문법 오류 시스템은 사용자에게 문법 오류임을 알리는 정보를 출력한다. 그러나 이에 한정되지 않고 문법 오류 시스템은 공지된 정정 수단을 이용하여 해당 문법 오류 부분을 정정하고 그 정정된 결과를 출력할 수 있다.

지금까지 참조한 도면과 기재된 발명의 상세한 설명은 단지 본 발명의 예시적인 것으로서, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 용이하게 선택하여 대체할 수 있다. 또한 당업자는 본 명세서에서 설명된 구성요소 중 일부를 성능의 열화 없이 생략하거나 성능을 개선하기 위해 구성요소를 추가할 수 있다. 뿐만 아니라, 당업자는 공정 환경이나 장비에 따라 본 명세서에서 설명한 방법 단계의 순서를 변경할 수도 있다. 따라서 본 발명의 범위는 설명된 실시형태가 아니라 특허청구범위 및 그 균등물에 의해 결정되어야 한다.

각기 다른 특성을 가지는 다수의 말뭉치로부터 문법을 학습하고 문법 오류를 정정하는 문법 오류정정 모델을 제공하고, 다양한 특성을 갖는 입력이 주어졌을 때 정확하게 오류를 찾아 정정할 수 있는 방식을 제공한다.

Claims

복수의 말뭉치로부터 언어 특성에 따른 복수의 문맥 자질을 취득하고 상기 문맥 자질로부터 문법 오류를 진단하는 기준인 1차 학습 분류 모델 및 2차 학습 분류 모델을 생성하는 학습부, 및

상기 1차 학습 분류 모델을 이용하여 학습자가 입력한 말뭉치에 대해 문법 오류를 예측하고, 상기 문법 오류의 1차 예측 결과와 상기 2차 학습 분류 모델을 이용하여 문법 오류를 예측하고 문법 오류를 정정하는 실행부를 포함하고,

상기 2차 학습 분류 모델은 상기 1차 예측 결과를 바탕으로 복수의 말뭉치로부터 추출된 상기 복수의 문맥 자질을 이용하여 반복적인 학습 기법을 통해 생성되는 것을 특징으로 하는 문법 오류 정정 시스템.
제 1항에 있어서,

상기 학습부는,

상기 복수의 말뭉치를 입력받아 상기 복수의 문맥 자질을 추출하는 문맥 자질 추출부,

상기 복수의 문맥 자질로부터 반복적인 학습 기법을 통해 문법 오류를 진단하는 기준으로서 문법 오류 패턴 및 오류 분류에 관한 적어도 하나 이상의 1차 학습 분류 모델을 생성하는 복수의 기본 분류 학습부, 및

상기 문맥 자질 추출부로부터 추출된 복수의 문맥 자질 및 상기 1차 학습 분류 모델을 사용하여 학습자가 입력한 말뭉치에 대해 1차로 문법 오류를 예측한 1차 예측 결과 정보를 이용하여 반복적인 학습 기법을 통해 적어도 하나 이상의 2차 학습 분류 모델을 생성하는 복수의 메타 분류 학습부를 포함하는 것을 특징으로 하는 문법 오류 정정 시스템.
제 2항에 있어서,

상기 2차 학습 분류 모델은 상기 1차 학습 분류 모델이 포함하지 않은 문법 오류 패턴 및 오류 분류를 포함하는 것을 특징으로 하는 문법 오류 정정 시스템.
제 1항에 있어서,

상기 문법 오류 정정 시스템은 상기 1차 학습 분류 모델 및 상기 2차 학습 분류 모델을 저장하는 모델링부를 더 포함하는 것을 특징으로 하는 문법 오류 정정 시스템.
제 1항에 있어서,

상기 실행부는,

상기 학습자가 입력한 말뭉치에 대해 복수의 문맥 자질을 추출하는 문맥 자질 추출부,

상기 추출된 문맥 자질에 대응하는 1차 학습 분류 모델을 선정하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 1차로 예측하여 상기 1차 예측 결과를 출력하는 기본 분류 예측부, 및

상기 1차 예측 결과 정보가 문법 오류가 아닌 것으로 판단되는 경우 상기 2차 학습 분류 모델을 이용하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 예측하고 그 결과 정보를 출력하는 메타 분류 예측부를 포함하는 것을 특징으로 하는 문법 오류 정정 시스템.
제 5항에 있어서,

상기 문맥 자질 추출부는 상기 학습부에서 문맥 오류를 진단을 위한 학습 분류 모델을 형성하기 위한 학습 과정에 이용된 목적 문법 정정을 위한 문맥 자질을 상기 학습자의 입력 말뭉치로부터 추출하는 것을 특징으로 하는 문법 오류 정정 시스템.
제 5항에 있어서,

상기 메타 분류 예측부는 상기 1차 예측 결과 정보가 문법 오류가 있는 것으로 판단되는 경우에 동작하지 않는 것을 특징으로 하는 문법 오류 정정 시스템.
제 1항에 있어서,

상기 학습부는 상기 실행부와 서로 연동되어 상기 2차 학습 분류 모델을 형성하는 것을 특징으로 하는 문법 오류 정정 시스템.
복수의 말뭉치로부터 문법 오류를 진단하는 기준인 학습 모델을 생성하는 학습 단계 및 상기 학습 모델을 이용하여 학습자가 입력한 말뭉치에 대해 문법 오류를 예측하는 실행 단계를 포함하는 문법 오류 정정 방법에 있어서,

상기 학습 단계는,

상기 복수의 말뭉치를 입력받아 언어 특성에 따른 복수의 문맥 자질을 추출하는 문맥 자질 추출 단계,

상기 복수의 문맥 자질로부터 반복적인 학습 기법을 통해 문법 오류를 진단하는 기준으로서 문법 오류 패턴 및 오류 분류에 관한 적어도 하나 이상의 1차 학습 분류 모델을 생성하는 기본 분류 학습 단계, 및

상기 추출된 복수의 문맥 자질, 및 상기 적어도 하나 이상의 1차 학습 분류 모델을 사용하여 상기 학습자가 입력한 말뭉치에 대해 1차로 문법 오류를 예측한 1차 예측 결과 정보를 이용하여 반복적인 학습 기법을 통해 적어도 하나 이상의 2차 학습 분류 모델을 생성하는 메타 분류 학습 단계를 포함하고,

상기 실행 단계는,

상기 학습자가 입력한 말뭉치에 대해 복수의 문맥 자질을 추출하는 문맥 자질 추출 단계,

상기 기본 분류 학습 단계에서 생성된 1차 학습 분류 모델 중 상기 추출된 문맥 자질에 대응하는 1차 학습 분류 모델을 선정하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 1차로 예측하고 1차 예측 결과를 출력하는 1차 예측 단계, 및

상기 1차 예측 결과 정보가 문법 오류가 아닌 것으로 판단되는 경우 상기 2차 학습 분류 모델을 이용하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 예측하고 그 결과 정보를 출력하는 2차 예측 단계를 포함하는 것을 특징으로 하는 문법 오류 정정 방법.
제 9항에 있어서,

상기 실행 단계의 문맥 자질 추출 단계는,

상기 학습 단계에서 상기 학습 분류 모델을 형성하기 위하여 학습 과정에 이용된 목적 문법 정정을 위한 문맥 자질을 상기 학습자의 입력 말뭉치로부터 추출하는 것을 특징으로 하는 문법 오류 정정 방법.
제 9항에 있어서,

상기 2차 학습 분류 모델은 상기 1차 학습 분류 모델이 포함하지 않은 문법 오류 패턴 및 오류 분류를 포함하는 것을 특징으로 하는 문법 오류 정정 방법.