WO2014092265A1 - 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법 - Google Patents

문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법 Download PDF

Info

Publication number
WO2014092265A1
WO2014092265A1 PCT/KR2013/004079 KR2013004079W WO2014092265A1 WO 2014092265 A1 WO2014092265 A1 WO 2014092265A1 KR 2013004079 W KR2013004079 W KR 2013004079W WO 2014092265 A1 WO2014092265 A1 WO 2014092265A1
Authority
WO
WIPO (PCT)
Prior art keywords
learning
classification model
corpus
error
grammar
Prior art date
Application number
PCT/KR2013/004079
Other languages
English (en)
French (fr)
Inventor
이근배
이종훈
서홍석
강세천
방지수
이규송
Original Assignee
포항공과대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 포항공과대학교 산학협력단 filed Critical 포항공과대학교 산학협력단
Priority to US14/443,732 priority Critical patent/US20150309982A1/en
Publication of WO2014092265A1 publication Critical patent/WO2014092265A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers

Definitions

  • the present invention relates to a grammar error correction system and a grammar error correction method using the same, and a grammar error correction system using a corpus in which a plurality of grammar errors are indicated and a grammar error correction method using the same.
  • the grammar error correction system finds grammatical errors based on human-generated rules or automatically learns grammar from corpus.
  • a large native corpus may be used or a non-native corpus may be learned.
  • the present invention has been made to solve the above technical problem, and provides a grammar error correction model for learning grammar from a plurality of corpus having different characteristics and correcting grammatical errors, and precisely given an input having various characteristics. It provides a way to find and correct errors.
  • the first learning classification which is a criterion for acquiring a plurality of context features according to language characteristics from a plurality of corpus and diagnosing a grammar error from the context features.
  • a learning unit for generating a model and a second learning classification model, and a grammar error for a corpus input by a learner using the first learning classification model, and a first prediction result of the grammar error and the second learning classification It includes an execution unit for predicting grammatical errors and correcting grammatical errors using the model.
  • the second learning classification model is generated through an iterative learning technique using the plurality of context features extracted from a plurality of corpus based on the first prediction result.
  • the learning unit may include: a context feature extracting unit receiving the plurality of corpus and extracting the plurality of context features; and a grammar error pattern and error classification as a criterion for diagnosing a grammar error from the plurality of context features through an iterative learning technique.
  • a plurality of basic classification learning units for generating at least one primary learning classification model, and a corpus input by a learner using the plurality of context features extracted from the context feature extraction unit and the primary learning classification model. It may include a plurality of meta classification learning unit for generating at least one secondary learning classification model through an iterative learning technique using the first prediction result information predicting the grammar error.
  • the secondary learning classification model includes grammatical error patterns and error classifications not included in the primary learning classification model.
  • the grammar error correction system may further include a modeling unit configured to store the first learning classification model and the second learning classification model.
  • the execution unit the context feature extraction unit for extracting a plurality of context features for the corpus input by the learner, a grammatical error for the input corpus by selecting the primary learning classification model corresponding to the extracted context feature
  • a basic classification predictor configured to predict the first order and output the first prediction result, and when the first prediction result information is not determined to be a grammatical error, the second learning classification model for the input corpus of the learner. It may include a meta classification prediction unit for predicting a grammar error and outputs the resulting information.
  • the context feature extracting unit may extract a context feature for correcting a target grammar used in a learning process for forming a learning classification model for diagnosing a context error in the learner from the learner's input corpus.
  • the meta classification predictor may not operate when it is determined that the first prediction result information has a grammatical error.
  • the learning unit may be linked with the execution unit to form the secondary learning classification model.
  • a grammar error correction method provides a learning step of generating a learning model which is a criterion for diagnosing grammatical errors from a plurality of corpus, and a learner's input using the learning model. Includes execution steps to predict grammatical errors for corpus.
  • the learning step may include a context feature extraction step of extracting a plurality of context features according to language characteristics by receiving the plurality of corpus, and a grammar error as a criterion for diagnosing a grammar error from the plurality of context features through an iterative learning technique.
  • a basic classification learning step of generating at least one primary learning classification model for pattern and error classification, and a corpus entered by the learner using the extracted plurality of context features and the at least one primary learning classification model It includes a meta-class learning step of generating at least one or more secondary learning classification model through the iterative learning method using the first prediction result information that predicted the grammatical error for the first.
  • the execution step may include: extracting a plurality of context features for the corpus input by the learner; and 1 corresponding to the extracted context features among the primary learning classification models generated in the basic classification learning step.
  • a second prediction step of predicting a grammar error of the learner's input corpus by using a second learning classification model and outputting the result information.
  • the context feature extraction step of the execution step may extract the context feature for correcting the grammar used in the learning process to form the learning classification model in the learning step from the learner's input corpus.
  • the second learning classification model may include grammatical error patterns and error classifications not included in the first learning classification model.
  • the present invention instead of learning a classifier to select a correct answer for correcting grammatical errors, it uses a meta classifier that puts a plurality of basic classifiers and inputs the results and synthesizes the results, thereby predicting correct answers. Accurately identify grammatical errors in input sentences to analyze errors and predict correct answers.
  • FIG. 1 is a block diagram of a grammar error correction system according to an embodiment of the present invention.
  • FIG. 2 is a flowchart illustrating a grammar error correction method of the present invention according to the grammar error correction system of FIG.
  • the present invention has been made to solve the above technical problem, and provides a grammar error correction model for learning grammar from a plurality of corpus having different characteristics and correcting grammatical errors, and precisely given an input having various characteristics. We want to provide a way to find and correct errors.
  • a learning unit for acquiring a plurality of context features according to language characteristics from a plurality of corpus and generating a first learning classification model and a second learning classification model, which are criteria for diagnosing grammatical errors from the context features, and the first learning.
  • Predicting a grammar error for the corpus input by the learner using a classification model, and using the first prediction result of the grammar error and the second learning classification model to predict the grammar error and includes an execution unit for correcting the grammar error Provide a grammar error correction system.
  • the present invention also provides a grammar error correction method including a learning step of generating a learning model that is a criterion for diagnosing grammatical errors from a plurality of corpus, and an execution step of predicting grammatical error with respect to the corpus input by the learner using the learning model. .
  • FIG. 1 is a block diagram of a grammar error correction system according to an embodiment of the present invention.
  • the grammar error correction system 100 includes a learner 10, a modeling unit 20, and an execution unit 30.
  • Learning unit 10 is composed of means for learning by extracting linguistic features from a myriad of training corpus (corpus, corpus).
  • corpus is a basic data for analyzing a language and refers to language information obtained from a plurality of conversations or sentences of the language.
  • the linguistic qualities extracted from corpus represent the individual features or features of the information gathered from the myriad corpus data sources using mechanical learning methods. In other words, it means the characteristics of the context that can be obtained from the information of the corpus.
  • linguistic qualities, qualities, and contextual qualities shall have the same meaning.
  • the context qualities vary depending on the grammar of the corresponding language with the aim of making corrections, and can be selected from corpus using linguistic characteristics.
  • the context qualities may be selected the same or different for each basic classifier (meaning a basic classification learning unit which is a component included in the learning unit 10 to be described later), and are selected using linguistic knowledge.
  • the learning unit 10 includes a context feature extracting unit 101, a basic classification learning unit 102, and a meta classification learning unit 105.
  • the context feature extracting unit 101 is a means for extracting contextual features (or linguistic features) by receiving a plurality of training corpus.
  • the context feature is extracted from the training corpus to predict the use of the target grammar in grammatical error correction. That is, the target grammar is a target grammar that should be used correctly from the linguistic point of view of the language, and correcting grammatical errors is intended to be replaced with the correct target grammar. For example, in the case of English, there may be an object grammar for the use of articles and an object grammar for the use of prepositions.
  • context qualities are features or features that are extracted from corpus in order to find out how learners (users) express their grammar features in context, in order to use the correct grammar in various grammatical properties.
  • the basic classification learner 102 is a means for forming a learning model primarily by repeatedly using a mechanical learning modeling technique from the context feature extracted from the context feature extracting unit 101.
  • the primary learning classification model is a basic classification model for basic grammatical error patterns and error classifications used to determine whether there is a grammatical error in an input sentence. Accordingly, the basic classification learning unit 102 may generate a model for classifying patterns of grammatical errors that may frequently occur within a predetermined probability range in a plurality of corpus from contextual features.
  • the primary learning classification model generated by the basic classification learning unit 102 is transferred to the modeling unit 20 and stored.
  • the basic classification learning unit 102 may be formed of at least one according to various characteristics of the context feature, and thus, a plurality of basic learning classification models may be formed through the plurality of basic classification learning units 102. .
  • the learning unit 10 further includes a meta classification learning unit 105.
  • the meta classification learning unit 105 is a means for forming a learning classification model having a higher concept than the basic classification learning unit 102. Through the context feature extracted by the extractor 101 and the basic classification model, the result of predicting the grammatical error is first collected to form a secondary learning classification model for more accurate grammatical error checking.
  • the secondary learning classification model will be referred to as a meta classification model.
  • the meta-classification model recursively analyzes the information of the primary grammatical error judgment result and contextual quality information through the basic classification model so as to catch complex grammatical errors or difficult-to-deterministic grammatical errors that cannot be identified even by using the basic classification model. Learning classification model obtained by learning with.
  • the secondary learning classification model generated by the meta classification learning unit 105 is transferred to the modeling unit 20 and stored.
  • the meta classification learning unit 105 since the meta classification learning unit 105 generates a classification model through an integrated learning process using information on determination results of grammatical errors that are primarily predicted through a plurality of basic learning classification models, a context is generated. It may be set to a plurality according to various characteristics of the feature. Since the meta classification learning unit 105 is a means for gathering and learning the primary judgment results of the basic learning classification models generated by the plurality of basic classification learning units 102, the number of configurations is the configuration of the basic classification learning unit 102. It may be formed in fewer than the number.
  • the input of the meta classification learning unit 105 is different from the input of the basic classification learning unit 102. That is, the context feature extracted from the corpus is input to the input terminal of the basic classification learning unit 102, while the context feature extracted mainly from sentences used by the general public is input, while the meta classification learning unit 105 is input to the input terminal. There is a difference in which the context feature extracted from the primary determination result generated by the basic classification learning unit 102 is input.
  • the modeling unit 20 is a means for storing a predetermined mechanical learning model formed from the results of each learning process obtained by repeating the learning process from the context feature acquired in the corpus.
  • the modeling unit 20 uses a basic classification model (basic learning classification model) 103 that forms at least a plurality of basic and lower learning models, and uses a learning modeling technique again from the basic classification model to obtain a higher classification. It may be divided into a meta classification model (meta learning classification model) 106 forming a learning model.
  • basic classification model basic learning classification model
  • meta classification model meta classification model
  • the execution unit 30 is a means for actually detecting and correcting a grammar error from a sentence directly input by a user (or learner).
  • the execution unit 30 includes a context feature extraction unit 101, a basic classification prediction unit 104, and a meta classification prediction unit 107.
  • the context feature extracting unit 101 extracts the context feature from the corpus as the same means as configured in the learning unit 10.
  • the context feature extracting unit 101 included in the execution unit 30 may extract the context feature from a plurality of sentences input by the user, individually or in a predetermined unit.
  • Result information of the context feature according to various characteristics extracted by the context feature extracting unit 101 is transmitted to the basic classification predicting unit 104, and the basic classification predicting unit 104 is at least one or more acquired by the modeling unit 20.
  • Basic learning classification models are used to predict or judge grammatical errors primarily. That is, the basic classification predicting unit 104 selects at least one basic learning classification model related to a characteristic corresponding to the context feature extracted from the input sentence of the user among a plurality of basic learning classification models stored in the modeling unit 20. Using this, the grammatical error is primarily determined with respect to the context feature extracted from the input sentence.
  • the grammatical error system of the present invention is a grammatical error immediately without executing the meta classification predicting unit 107 included in the execution unit 30, Correct the part and print it out.
  • the grammatical error portion correction means is not shown for convenience of description, but the grammatical error correction of the portion predicted in the input sentence may be corrected using known techniques and means.
  • the primary classification predicting unit 104 predicts the primary
  • the corresponding primary result information is transmitted to the learning unit 10 as described above and the secondary learning model (meta classification). Model).
  • the input sentence having the primary grammatical error prediction result is transmitted to the meta classification prediction unit 107.
  • the meta classification prediction unit 107 is a secondary learning classification model (meta classification model) 106 stored in the modeling unit 20 in order to accurately extract a complicated and difficult grammatical error that cannot be derived using the basic learning classification model. Use to determine grammatical errors.
  • the meta classification prediction unit 107 performs a primary classification modeling process, and then predicts the first sentence in a sentence input by the user (learner) by using the meta classification model trained by using contextual feature information and primary determination result information. As you go through the process, you can spot complex and obscure grammatical errors that you haven't noticed. As a result of the meta classification prediction unit 107 finally determining the user's sentence using the meta classification model, if it is determined that there is a grammatical error, the corresponding grammatical error is corrected, and if it is determined that there is no grammatical error, the sentence is output as it is. Finally, the use of the object grammar can be determined.
  • FIG. 2 is a flowchart illustrating a grammar error correction method of the present invention according to the grammar error correction system of FIG. 1.
  • the grammar error correction method is largely composed of a learning step (SL) and an execution step (SP).
  • the learning step (SL) is a process of extracting a context feature using a training corpus and generating a learning classification model through a predetermined learning process therefrom.
  • the execution step (SP) is a process of judging and correcting a grammar error using a sentence actually input by the learner.
  • Learning step is first input a plurality of training corpus (S1).
  • S1 training corpus
  • S2 training corpus
  • S2 linguistic characteristics
  • the contextual features extracted in step S2 may be classified by characteristics, and the basic classification learning unit 102 performs an iterative learning process (S3).
  • the basic classification learning unit receives the context feature information extracted from the training corpus as an input and performs an iterative learning process to extract the result (S4). Since these results may be formed as a predetermined model when the learning process is repeatedly performed, the basic classification learning unit may perform primary basic classification modeling with the corresponding results at the same time as extracting the result (S4).
  • step S5 primary grammatical error prediction for the user's input sentence is performed using the basic classification modeling generated in step S4. That is, the basic classification prediction unit 104 extracts the primary grammar prediction result (S5).
  • step S6 If it is determined in step S5 that the grammar error is corrected immediately after outputting the process of correcting the grammar error (not shown), if it is not determined that the grammar error, the meta classification learning unit 105 undergoes an iterative learning process. (S6). As described above with reference to FIG. 1, the process of S6 is to perform higher-level modeling through repetitive learning using contextual features based on the one-dimensional basic classification prediction result information.
  • the meta classification learning unit 105 forms a meta classification model that is a secondary learning classification model (S7). Then, the learning step SL according to the embodiment of the present invention ends.
  • the grammar error correction method includes an execution step SP for actually correcting a grammar error of an input sentence for modeling extracted based on the learning step SL.
  • the learner first inputs a plurality of sentences (S8).
  • the context feature extracting unit extracts the context feature from the plurality of input sentences (S9).
  • the extraction of the context feature is to extract the context feature for correcting the target grammar used in the learning process for modeling formation. That is, for each of the plurality of sentences, all the context qualities used in the learning by each basic classification learning unit are extracted.
  • Extracting the context feature from the input sentence is to obtain context information, and the accuracy of the grammar of the input sentence can be predicted using the basic classification model formed in step S4 based on the context information. That is, the basic classification predicting unit 104 primarily determines grammatical accuracy of the learner's input sentence (S10).
  • step S5 of the learning step SL the grammar error information result primarily determined by the basic classification prediction unit is transmitted for meta classification modeling. That is, the grammar error correction system according to the embodiment of the present invention implements modeling for more accurate grammar error determination by using the learning unit and the execution unit in conjunction.
  • step S10 If it is determined in step S10 that there is no grammatical error, the grammatical accuracy is finally predicted again using the meta classification model formed in step S7 with respect to the context feature information of the input sentence (S11). That is, the meta classification predictor predicts the grammar usage by using the meta classification model, which is a higher learning classification model, in conjunction with the result output from the basic classification predictor.
  • the grammar error system outputs information informing the user of the grammar error.
  • the present invention is not limited thereto, and the grammar error system may correct a corresponding grammar error part by using known correction means and output the corrected result.
  • It provides a grammatical error correction model for learning grammar and correcting grammatical errors from multiple corpus with different characteristics, and provides a way to accurately find and correct errors when given inputs with various characteristics.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법에 관한 것으로서, 구체적으로 문법 오류 정정 시스템은 복수의 말뭉치로부터 언어 특성에 따른 복수의 문맥 자질을 취득하고 상기 문맥 자질로부터 문법 오류를 진단하는 기준인 1차 학습 분류 모델 및 2차 학습 분류 모델을 생성하는 학습부, 및 상기 1차 학습 분류 모델을 이용하여 학습자가 입력한 말뭉치에 대해 문법 오류를 예측하고, 상기 문법 오류의 1차 예측 결과와 상기 2차 학습 분류 모델을 이용하여 문법 오류를 예측하고 문법 오류를 정정하는 실행부를 포함하고, 상기 2차 학습 분류 모델은 상기 1차 예측 결과를 바탕으로 복수의 말뭉치로부터 추출된 상기 복수의 문맥 자질을 이용하여 반복적인 학습 기법을 통해 생성되는 것을 특징으로 한다.

Description

문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법
본 발명은 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법에 관한 것으로, 다수의 문법 오류가 표기된 말뭉치를 활용한 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법에 관한 것이다.
일반적으로 문법 오류 정정 시스템은 사람이 구축한 규칙을 기반으로 하여 문법의 잘못된 사용을 찾거나, 말뭉치로부터 문법을 자동으로 학습하여 문법 오류를 찾는다.
대용량의 말뭉치로부터 문법을 자동으로 학습하고 문법 오류를 찾을 때는 대용량의 원어민 말뭉치가 사용되거나 문법 오류가 표기된 비원어민 말뭉치로부터 학습될 수 있다.
그러나 대용량의 말뭉치를 기초로 문법을 학습하고 문법 오류를 찾는 방식만으로는 말뭉치가 가지는 서로 다른 특성으로 인해 다양한 입력이 주어졌을 때보다 정확하게 오류를 포착하고 이를 정정하기 힘든 문제가 있다.
본 발명은 상기와 같은 기술적 과제를 해결하기 위한 것으로서, 각기 다른 특성을 가지는 다수의 말뭉치로부터 문법을 학습하고 문법 오류를 정정하는 문법 오류정정 모델을 제공하고, 다양한 특성을 갖는 입력이 주어졌을 때 정확하게 오류를 찾아 정정할 수 있는 방식을 제공한다..
상기 목적을 달성하기 위한 본 발명의 일 실시 예에 따른 문법 오류 정정 시스템은, 복수의 말뭉치로부터 언어 특성에 따른 복수의 문맥 자질을 취득하고 상기 문맥 자질로부터 문법 오류를 진단하는 기준인 1차 학습 분류 모델 및 2차 학습 분류 모델을 생성하는 학습부, 및 상기 1차 학습 분류 모델을 이용하여 학습자가 입력한 말뭉치에 대해 문법 오류를 예측하고, 상기 문법 오류의 1차 예측 결과와 상기 2차 학습 분류 모델을 이용하여 문법 오류를 예측하고 문법 오류를 정정하는 실행부를 포함한다.
그리고, 상기 2차 학습 분류 모델은 상기 1차 예측 결과를 바탕으로 복수의 말뭉치로부터 추출된 상기 복수의 문맥 자질을 이용하여 반복적인 학습 기법을 통해 생성된다.
여기서 학습부는, 상기 복수의 말뭉치를 입력받아 상기 복수의 문맥 자질을 추출하는 문맥 자질 추출부, 상기 복수의 문맥 자질로부터 반복적인 학습 기법을 통해 문법 오류를 진단하는 기준으로서 문법 오류 패턴 및 오류 분류에 관한 적어도 하나 이상의 1차 학습 분류 모델을 생성하는 복수의 기본 분류 학습부, 및 상기 문맥 자질 추출부로부터 추출된 복수의 문맥 자질 및 상기 1차 학습 분류 모델을 사용하여 학습자가 입력한 말뭉치에 대해 1차로 문법 오류를 예측한 1차 예측 결과 정보를 이용하여 반복적인 학습 기법을 통해 적어도 하나 이상의 2차 학습 분류 모델을 생성하는 복수의 메타 분류 학습부를 포함할 수 있다.
상기 2차 학습 분류 모델은 상기 1차 학습 분류 모델이 포함하지 않은 문법 오류 패턴 및 오류 분류를 포함한다.
일 실시 예로서 상기 문법 오류 정정 시스템은 상기 1차 학습 분류 모델 및 상기 2차 학습 분류 모델을 저장하는 모델링부를 더 포함할 수 있다.
한편 상기 실행부는, 상기 학습자가 입력한 말뭉치에 대해 복수의 문맥 자질을 추출하는 문맥 자질 추출부, 상기 추출된 문맥 자질에 대응하는 1차 학습 분류 모델을 선정하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 1차로 예측하여 상기 1차 예측 결과를 출력하는 기본 분류 예측부, 및 상기 1차 예측 결과 정보가 문법 오류가 아닌 것으로 판단되는 경우 상기 2차 학습 분류 모델을 이용하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 예측하고 그 결과 정보를 출력하는 메타 분류 예측부를 포함할 수 있다.
여기서 상기 문맥 자질 추출부는 상기 학습부에서 문맥 오류를 진단을 위한 학습 분류 모델을 형성하기 위한 학습 과정에 이용된 목적 문법 정정을 위한 문맥 자질을 상기 학습자의 입력 말뭉치로부터 추출하는 것을 특징으로 한다.
그리고 상기 메타 분류 예측부는 상기 1차 예측 결과 정보가 문법 오류가 있는 것으로 판단되는 경우에 동작하지 않을 수 있다.
또한 상기 학습부는 상기 실행부와 서로 연동되어 상기 2차 학습 분류 모델을 형성할 수 있다.
한편 상기 목적을 달성하기 위한 본 발명의 다른 일 실시 예에 따른 문법 오류 정정 방법은 복수의 말뭉치로부터 문법 오류를 진단하는 기준인 학습 모델을 생성하는 학습 단계 및 상기 학습 모델을 이용하여 학습자가 입력한 말뭉치에 대해 문법 오류를 예측하는 실행 단계를 포함한다.
여기서 상기 학습 단계는, 상기 복수의 말뭉치를 입력받아 언어 특성에 따른 복수의 문맥 자질을 추출하는 문맥 자질 추출 단계, 상기 복수의 문맥 자질로부터 반복적인 학습 기법을 통해 문법 오류를 진단하는 기준으로서 문법 오류 패턴 및 오류 분류에 관한 적어도 하나 이상의 1차 학습 분류 모델을 생성하는 기본 분류 학습 단계, 및 상기 추출된 복수의 문맥 자질, 및 상기 적어도 하나 이상의 1차 학습 분류 모델을 사용하여 상기 학습자가 입력한 말뭉치에 대해 1차로 문법 오류를 예측한 1차 예측 결과 정보를 이용하여 반복적인 학습 기법을 통해 적어도 하나 이상의 2차 학습 분류 모델을 생성하는 메타 분류 학습 단계를 포함한다.
그리고, 상기 실행 단계는, 상기 학습자가 입력한 말뭉치에 대해 복수의 문맥 자질을 추출하는 문맥 자질 추출 단계, 상기 기본 분류 학습 단계에서 생성된 1차 학습 분류 모델 중 상기 추출된 문맥 자질에 대응하는 1차 학습 분류 모델을 선정하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 1차로 예측하고 1차 예측 결과를 출력하는 1차 예측 단계, 및 상기 1차 예측 결과 정보가 문법 오류가 아닌 것으로 판단되는 경우 상기 2차 학습 분류 모델을 이용하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 예측하고 그 결과 정보를 출력하는 2차 예측 단계를 포함한다.
특히 상기 실행 단계의 문맥 자질 추출 단계는, 상기 학습 단계에서 상기 학습 분류 모델을 형성하기 위하여 학습 과정에 이용된 목적 문법 정정을 위한 문맥 자질을 상기 학습자의 입력 말뭉치로부터 추출할 수 있다.
그리고 상기 2차 학습 분류 모델은 상기 1차 학습 분류 모델이 포함하지 않은 문법 오류 패턴 및 오류 분류를 포함하는 것을 특징으로 할 수 있다.
본 발명에 따르면 문법 오류 정정을 위해 하나의 분류기를 학습하여 정답을 선택하는 것이 아니라, 다수의 기초 분류기를 두고 그 결과를 입력하여 종합하는 메타 분류기를 이용하여 학습하고 정답을 예측하므로, 다양한 특성의 입력 문장의 문법 오류를 정확하게 파악하여 오류를 분석하고 정확한 정답을 예측할 수 있다.
특히 방대한 크기의 말뭉치 집단 속에서 서로 다른 다양한 특성의 말뭉치를 이용해 각각의 기초 분류기에 따라 학습하므로, 다양한 특성을 가지는 입력 문장에 대해 보다 정확한 정답을 예측할 수 있다.
또한 기존에 개발된 문법 오류가 표시된 비원어민 말뭉치의 크기가 작더라도 다수의 다른 말뭉치를 활용할 수 있고, 결과적으로 높은 성능을 기대할 수 있어 문법 오류 정정의 효과를 효율적으로 개선할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 문법 오류 정정 시스템의 블록도.
도 2는 도 1의 문법 오류 정정 시스템에 따른 본 발명의 문법 오류 정정 방법을 나타낸 흐름도.
본 발명은 상기와 같은 기술적 과제를 해결하기 위한 것으로서, 각기 다른 특성을 가지는 다수의 말뭉치로부터 문법을 학습하고 문법 오류를 정정하는 문법 오류정정 모델을 제공하고, 다양한 특성을 갖는 입력이 주어졌을 때 정확하게 오류를 찾아 정정할 수 있는 방식을 제공하고자 한다.
이를 위하여 복수의 말뭉치로부터 언어 특성에 따른 복수의 문맥 자질을 취득하고 상기 문맥 자질로부터 문법 오류를 진단하는 기준인 1차 학습 분류 모델 및 2차 학습 분류 모델을 생성하는 학습부, 및 상기 1차 학습 분류 모델을 이용하여 학습자가 입력한 말뭉치에 대해 문법 오류를 예측하고, 상기 문법 오류의 1차 예측 결과와 상기 2차 학습 분류 모델을 이용하여 문법 오류를 예측하고 문법 오류를 정정하는 실행부를 포함하는 문법 오류 정정 시스템을 제공한다.
또한 복수의 말뭉치로부터 문법 오류를 진단하는 기준인 학습 모델을 생성하는 학습 단계 및 상기 학습 모델을 이용하여 학습자가 입력한 말뭉치에 대해 문법 오류를 예측하는 실행 단계를 포함하는 문법 오류 정정 방법을 제공한다.
본 발명이 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 본 발명의 기재로부터 당해 분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
이하, 첨부한 도면을 참고로 하여 본 발명의 실시 예들에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예들에 한정되지 않는다.
또한, 여러 실시 예들에 있어서, 동일한 구성을 가지는 구성요소에 대해서는 동일한 부호를 사용하여 대표적으로 제1 실시 예에서 설명하고, 그 외의 실시 예에서는 제1 실시 예와 다른 구성에 대해서만 설명하기로 한다.
본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 동일 또는 유사한 구성요소에 대해서는 동일한 참조 부호를 붙이도록 한다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 일 실시 예에 따른 문법 오류 정정 시스템의 블록도이다.
도 1을 참조하면 본 발명의 일 실시 예에 따른 문법 오류 정정 시스템(100)은 학습부(10), 모델링부(20), 및 실행부(30)로 구성된다.
학습부(10)는 무수한 훈련용 말뭉치(코퍼스, corpus)로부터 언어학적 자질을 추출하여 학습하는 수단으로 구성되어 있다.
여기서 말뭉치(코퍼스, corpus)는 하나의 언어에 대한 분석을 위한 기초 자료들로서 해당 언어의 다수의 대화 또는 문장 등에서 취득되는 언어 정보를 말한다. 그리고, 말뭉치로부터 추출되는 언어학적 자질은, 무수한 말뭉치 자료 소스 속에서 기계적인 학습 방법을 사용하여 수집되는 정보의 개별 특징 혹은 자질(feature)을 의미한다. 즉, 말뭉치의 정보에서 취득될 수 있는 문맥의 특성을 의미한다. 이하에서 언어학적 자질, 자질, 문맥 자질은 동일한 의미인 것으로 한다. 본 발명에서 문맥 자질은 정정을 하고자 목표로 해당 언어의 문법에 따라 달라지며, 언어학적 특성을 활용하여 말뭉치로부터 선정할 수 있다. 문맥 자질은 각각 사용되는 기본 분류기(이후 설명될 학습부(10)에 포함된 구성부인 기본 분류 학습부를 의미함)마다 같거나 다르게 선정될 수 있으며, 언어학적 지식을 활용하여 선정된다.
구체적으로 학습부(10)는 문맥 자질 추출부(101), 기본 분류 학습부(102), 및 메타 분류 학습부(105)를 포함한다.
문맥 자질 추출부(101)는 다수의 훈련용 말뭉치를 입력받아 문맥 자질(또는 언어학적 자질)을 추출하는 수단이다. 상기 문맥 자질은 문법 오류 정정 방식에서 목적 문법 사용을 예측하기 위해 훈련용 말뭉치로부터 추출된다. 즉, 목적 문법은 해당 언어의 언어학적 관점에서 바르게 사용되어야 하는 타겟 문법으로서, 문법 오류를 정정하는 것은 이러한 바른 타겟 문법으로 바꾸기 위함이다. 일례로 영어의 경우라면 관사 사용에 관한 목적 문법, 전치사 사용에 관한 목적 문법 등이 있을 수 있다. 따라서, 문맥 자질은 다양한 문법 특성 분야에서 바른 목적 문법을 사용하기 위해, 일반적으로 학습자(사용자)가 문맥 속에서 어떻게 해당 문법 특성에 대해 표현하는지 알아내기 위하여 말뭉치로부터 추출되는 특성, 또는 특징이다.
기본 분류 학습부(102)는 상기 문맥 자질 추출부(101)로부터 추출된 문맥 자질로부터 기계적 학습 모델링 기법을 반복적으로 이용하여 1차적으로 학습 모델을 형성하는 수단이다. 여기서 1차적인 학습 분류 모델은 입력되는 문장에서 문법적으로 오류가 있는지 판단하기 위하여 이용되는 기초적인 문법 오류 패턴 및 오류 분류에 관한 기본 분류 모델이다. 따라서 기본 분류 학습부(102)는 문맥 자질로부터 다수의 말뭉치에서 소정의 확률 범위 내에서 빈번하게 발생할 수 있는 문법 오류의 패턴을 분류하는 모델을 생성할 수 있다.
상기 기본 분류 학습부(102)에서 생성되는 1차적인 학습 분류 모델은 모델링부(20)에 전달되어 저장된다. 본 발명의 실시 예에 따르면 기본 분류 학습부(102)는 문맥 자질의 다양한 특성에 따라 적어도 하나 이상으로 형성되어 복수 개의 기본 분류 학습부(102)를 통해 복수 개의 기본 학습 분류 모델이 형성될 수 있다.
또한 학습부(10)는 메타 분류 학습부(105)를 더 포함하는데, 메타 분류 학습부(105)는 상기 기본 분류 학습부(102)보다 상위 개념의 학습 분류 모델을 형성하는 수단으로서, 문맥 자질 추출부(101)에서 추출된 문맥 자질 및 상기 기본 분류 모델을 통해 1차적으로 문법 오류를 예측한 결과 정보를 취합하여 보다 정확한 문법 오류 검사를 위한 2차적인 학습 분류 모델을 형성한다.
여기서 상기 2차적인 학습 분류 모델을 메타 분류 모델이라고 명명하기로 한다. 메타 분류 모델은, 기초 분류 모델을 이용하여서도 파악될 수 없는 복잡한 문법 오류 혹은 판단이 어려운 문법 오류를 잡아낼 수 있도록, 기초 분류 모델을 통한 1차적인 문법 오류 판단 결과의 정보와 문맥 자질 정보를 반복적으로 학습하여 취득된 학습 분류 모델이다.
마찬가지로 상기 메타 분류 학습부(105)에서 생성되는 2차적인 학습 분류 모델은 모델링부(20)에 전달되어 저장된다. 본 발명의 실시 예에 따르면 메타 분류 학습부(105)는 다수의 기본 학습 분류 모델을 통해 1차적으로 예측된 문법 오류의 판단 결과 정보를 이용하여 통합적으로 학습 과정을 거쳐 분류 모델을 생성하는 것이므로 문맥 자질의 다양한 특성에 따라 복수 개로 설정될 수 있다. 메타 분류 학습부(105)는 복수의 기본 분류 학습부(102)에서 생성된 기본 학습 분류 모델의 1차적 판단 결과를 취합하여 학습하는 수단이기 때문에 그 구성 개수는 기본 분류 학습부(102)의 구성 개수보다 적은 수로 형성될 수 있다.
상기 메타 분류 학습부(105)의 입력은 상기 기본 분류 학습부(102)의 입력과 상이하다. 즉, 상기 기본 분류 학습부(102)의 입력단에 말뭉치에서 추출된 문맥 자질로서, 주로 일반인들이 사용하고 있는 문장들로부터 추출된 문맥 자질이 입력되는 반면, 상기 메타 분류 학습부(105)의 입력단에는 기본 분류 학습부(102)에서 생성된 1차적 판단 결과로부터 추출되는 문맥 자질이 입력되는 차이가 있다.
한편 모델링부(20)는 상기 학습부(10)가 말뭉치에서 취득된 문맥 자질로부터 학습 과정을 반복하여 얻은 각각의 학습 과정 결과물로부터 형성된 소정의 기계적 학습 모델을 저장하는 수단이다. 상술한 바와 같이 모델링부(20)는 적어도 복수의 기초적이고 하위의 학습 모델을 형성하는 기본 분류 모델(기본 학습 분류 모델)(103)과, 상기 기본 분류 모델로부터 다시 학습 모델링 기법을 이용하여 상위의 학습 모델을 형성하는 메타 분류 모델(메타 학습 분류 모델)(106)로 구분될 수 있다.
한편, 문법 오류 정정 시스템(100)에서 상기 실행부(30)는 사용자(또는 학습자)가 직접 입력한 문장으로부터 실제로 문법 오류를 검출하고 이에 대한 정정을 수행하는 수단이다.
도 1을 참조하면 상기 실행부(30)는 문맥 자질 추출부(101), 기본 분류 예측부(104), 및 메타 분류 예측부(107)를 포함한다.
문맥 자질 추출부(101)는 상기 학습부(10)에 구성된 것과 동일한 수단으로서 말뭉치에서 문맥 자질을 추출한다. 실행부(30)에 포함된 문맥 자질 추출부(101)는 특히 사용자가 입력한 다수의 문장들로부터 개별적으로 혹은 소정의 단위로 묶어서 문맥 자질을 추출할 수 있다.
문맥 자질 추출부(101)에서 추출된 다양한 특성에 따른 문맥 자질의 결과 정보는 기본 분류 예측부(104)에 전달되고, 기본 분류 예측부(104)는 모델링부(20)에서 취득된 적어도 하나 이상의 기본 학습 분류 모델을 사용하여 1차적으로 문법 오류를 예측 또는 판단한다. 즉, 기본 분류 예측부(104)는 모델링부(20)에 저장된 다수의 기본 학습 분류 모델들 중에서 상기 사용자의 입력 문장에서 추출된 문맥 자질에 대응하는 특성과 관련된 적어도 하나 이상의 기본 학습 분류 모델을 선택하고, 이를 이용하여 입력 문장에서 추출된 문맥 자질에 대하여 1차적으로 문법 오류를 판단한다.
기본 분류 예측부(104)에서 문법 오류가 있는 것으로 판단될 경우, 상기 실행부(30)에 포함된 메타 분류 예측부(107)의 실행 없이 곧바로 본 발명의 문법 오류 시스템은 문법 오류임을 판단하고, 해당 부분을 정정하여 출력한다. 본 발명의 도 1의 실시 예에서는 설명의 편의를 위하여 문법 오류 부분의 정정 수단은 도시하지 않았으나, 입력 문장에서 예측된 부분의 문법 오류 수정은 공지된 기술과 수단을 이용하여 정정할 수 있다.
반면, 기본 분류 예측부(104)에서 1차적으로 예측하여도 문법 오류가 없는 것으로 판단될 경우, 해당 1차적 결과 정보는 상술한 바와 같이 학습부(10)에 전달되어 2차적 학습 모델(메타 분류 모델) 형성을 위해 이용된다.
또한 1차적인 문법 오류 예측 결과를 가지는 입력 문장은 메타 분류 예측부(107)에 전달된다. 그러면 상기 메타 분류 예측부(107)는 기본적인 학습 분류 모델을 이용하여 도출하지 못한 복잡하고 어려운 문법 오류를 정확하게 추출하기 위하여 모델링부(20)에 저장된 2차적 학습 분류 모델(메타 분류 모델)(106)을 이용하여 문법 오류를 판단한다.
상기 메타 분류 예측부(107)는 기본 분류 모델링 과정을 거친 후 다시 한번 문맥 자질 정보와 1차적 판단 결과 정보를 활용하여 학습한 메타 분류 모델을 사용함으로써 사용자(학습자)가 입력한 문장에서 1차적 예측 과정을 거쳤을 때 미처 파악하지 못한 복잡하고 난해한 문법 오류를 찾아낼 수 있다. 메타 분류 예측부(107)에서 최종적으로 사용자의 문장을 메타 분류 모델을 이용하여 판단한 결과, 문법 오류가 있는 것으로 판단되면 해당 문법 오류를 정정하고, 문법 오류가 없는 것으로 판단되면 그대로 문장을 출력함으로써, 목적 문법의 사용을 최종적으로 결정할 수 있다.
도 2는 도 1의 문법 오류 정정 시스템에 따른 본 발명의 문법 오류 정정 방법을 나타낸 흐름도이다.
도 2를 참조하여 알 수 있듯이, 본 발명의 실시 예에 따른 문법 오류 정정 방법은, 크게 학습 단계(SL)와 실행 단계(SP)로 이루어진다.
학습 단계(SL)는 훈련용 말뭉치를 이용하여 문맥 자질을 추출하고 그로부터 각각 소정의 학습 과정을 통해 학습 분류 모델을 생성하는 과정이다.
한편, 실행 단계(SP)는 실제로 학습자가 입력한 문장을 이용하여 문법 오류를 판단하고 이를 정정하는 과정이다.
학습 단계(SL)는 먼저 다수의 훈련용 말뭉치가 입력된다(S1). 상기 훈련용 말뭉치에서 언어학적 특성에 따라 다수의 문맥 자질을 추출한다(S2).
상기 S2 단계에서 추출된 문맥 자질들은 특성별로 분류될 수 있는데, 기본 분류 학습부(102)에서 반복적인 학습 과정을 수행한다(S3). 상기 기본 분류 학습부는 훈련용 말뭉치에서 추출된 문맥 자질 정보를 입력으로 전달받아 반복적 학습 과정을 수행하여 결과물을 추출한다(S4). 이러한 결과물들은 반복적으로 학습 과정을 진행하게 되면 소정의 모델로 형성될 수 있으므로 기본 분류 학습부는 결과 추출과 동시에 해당 결과물로 1차적인 기본 분류 모델링을 할 수 있다(S4).
다음으로 상기 S4 단계에서 생성된 기본 분류 모델링을 이용하여 사용자의 입력 문장에 대한 1차적인 문법 오류 예측이 수행된다. 즉, 기본 분류 예측부(104)에서 1차적인 문법 예측 결과를 추출한다(S5).
상기 S5 단계에서 문법 오류인 것으로 판단되면 바로 문법 오류를 정정하는 과정을 거치고 출력되지만(도면 미도시), 만일 문법 오류인 것이 판단되지 않으면 메타 분류 학습부(105)에서 반복적인 학습 과정을 거치게 된다(S6). 상기 도 1에서 설명한 바와 같이 S6의 과정은 1차원적인 기본 분류 예측 결과 정보를 바탕으로 문맥 자질을 이용하여 다시 반복 학습을 통해 상위 개념의 모델링을 수행하는 것이다.
그러면 그 결과가 추출되고 상기 메타 분류 학습부(105)는 2차적 학습 분류 모델인 메타 분류 모델을 형성하게 된다(S7). 그러면 본 발명의 실시 예에 따른 학습 단계(SL)는 종료된다.
문법 오류 정정 방법은 학습 단계(SL) 외에 이를 바탕으로 추출된 모델링을 위해 실제로 입력 문장의 문법 오류가 정정되는 실행 단계(SP)를 포함한다.
구체적으로 상기 실행 단계(SP)는 먼저 학습자(사용자)가 다수의 문장을 입력한다(S8).
그러면 문맥 자질 추출부에서 상기 다수의 입력 문장으로부터 문맥 자질을 추출하게 된다(S9). 이때 문맥 자질의 추출은 모델링 형성을 위한 학습 과정에서 이용되었던 목적 문법 정정을 위한 문맥 자질을 추출하는 것이다. 즉 다수의 문장 각각에 대하여 각 기본 분류 학습부에서 학습할 때 사용하였던 모든 문맥 자질을 추출한다.
입력 문장에서 문맥 자질을 추출하는 것은 문맥 정보를 취득하는 것으로서 상기 문맥 정보를 바탕으로 상기 S4 단계에서 형성된 기본 분류 모델을 이용하여 상기 입력 문장의 문법의 정확성을 예측할 수 있다. 즉, 기본 분류 예측부(104)에서 학습자의 입력 문장에 대해 1차적으로 문법 정확성을 판단한다(S10).
이때 상기 학습 단계(SL)의 S5 과정에서 설명한 바와 같이, 기본 분류 예측부에서 1차적으로 판단한 문법 오류 정보 결과는 메타 분류 모델링을 위해 전달된다. 즉 본 발명의 실시 예에 따른 문법 오류 정정 시스템은 학습부와 실행부를 연동하여 이용함으로써 보다 정확한 문법 오류 판단을 위한 모델링을 구현하는 것이다.
상기 S10 과정에서 문법 오류가 없는 것으로 판단되면 그 입력 문장의 문맥 자질 정보에 대하여 상기 S7 단계에서 형성한 메타 분류 모델을 사용하여 다시한번 문법 정확성을 최종적으로 예측한다(S11). 즉, 메타 분류 예측부는 기본 분류 예측부로부터 출력된 결과와 연동하여 상위 학습 분류 모델인 메타 분류 모델을 이용하여 문법 사용을 예측한다.
예측된 결과가 학습자의 입력과 같으면 문법 오류가 없는 것으로 분류되고, 예측된 결과가 학습자의 입력과 다르다면 문법 오류가 있는 것으로 분류한다. 최종적으로 문법 오류가 있는 것으로 판단되면 문법 오류 시스템은 사용자에게 문법 오류임을 알리는 정보를 출력한다. 그러나 이에 한정되지 않고 문법 오류 시스템은 공지된 정정 수단을 이용하여 해당 문법 오류 부분을 정정하고 그 정정된 결과를 출력할 수 있다.
지금까지 참조한 도면과 기재된 발명의 상세한 설명은 단지 본 발명의 예시적인 것으로서, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 용이하게 선택하여 대체할 수 있다. 또한 당업자는 본 명세서에서 설명된 구성요소 중 일부를 성능의 열화 없이 생략하거나 성능을 개선하기 위해 구성요소를 추가할 수 있다. 뿐만 아니라, 당업자는 공정 환경이나 장비에 따라 본 명세서에서 설명한 방법 단계의 순서를 변경할 수도 있다. 따라서 본 발명의 범위는 설명된 실시형태가 아니라 특허청구범위 및 그 균등물에 의해 결정되어야 한다.
각기 다른 특성을 가지는 다수의 말뭉치로부터 문법을 학습하고 문법 오류를 정정하는 문법 오류정정 모델을 제공하고, 다양한 특성을 갖는 입력이 주어졌을 때 정확하게 오류를 찾아 정정할 수 있는 방식을 제공한다.

Claims (11)

  1. 복수의 말뭉치로부터 언어 특성에 따른 복수의 문맥 자질을 취득하고 상기 문맥 자질로부터 문법 오류를 진단하는 기준인 1차 학습 분류 모델 및 2차 학습 분류 모델을 생성하는 학습부, 및
    상기 1차 학습 분류 모델을 이용하여 학습자가 입력한 말뭉치에 대해 문법 오류를 예측하고, 상기 문법 오류의 1차 예측 결과와 상기 2차 학습 분류 모델을 이용하여 문법 오류를 예측하고 문법 오류를 정정하는 실행부를 포함하고,
    상기 2차 학습 분류 모델은 상기 1차 예측 결과를 바탕으로 복수의 말뭉치로부터 추출된 상기 복수의 문맥 자질을 이용하여 반복적인 학습 기법을 통해 생성되는 것을 특징으로 하는 문법 오류 정정 시스템.
  2. 제 1항에 있어서,
    상기 학습부는,
    상기 복수의 말뭉치를 입력받아 상기 복수의 문맥 자질을 추출하는 문맥 자질 추출부,
    상기 복수의 문맥 자질로부터 반복적인 학습 기법을 통해 문법 오류를 진단하는 기준으로서 문법 오류 패턴 및 오류 분류에 관한 적어도 하나 이상의 1차 학습 분류 모델을 생성하는 복수의 기본 분류 학습부, 및
    상기 문맥 자질 추출부로부터 추출된 복수의 문맥 자질 및 상기 1차 학습 분류 모델을 사용하여 학습자가 입력한 말뭉치에 대해 1차로 문법 오류를 예측한 1차 예측 결과 정보를 이용하여 반복적인 학습 기법을 통해 적어도 하나 이상의 2차 학습 분류 모델을 생성하는 복수의 메타 분류 학습부를 포함하는 것을 특징으로 하는 문법 오류 정정 시스템.
  3. 제 2항에 있어서,
    상기 2차 학습 분류 모델은 상기 1차 학습 분류 모델이 포함하지 않은 문법 오류 패턴 및 오류 분류를 포함하는 것을 특징으로 하는 문법 오류 정정 시스템.
  4. 제 1항에 있어서,
    상기 문법 오류 정정 시스템은 상기 1차 학습 분류 모델 및 상기 2차 학습 분류 모델을 저장하는 모델링부를 더 포함하는 것을 특징으로 하는 문법 오류 정정 시스템.
  5. 제 1항에 있어서,
    상기 실행부는,
    상기 학습자가 입력한 말뭉치에 대해 복수의 문맥 자질을 추출하는 문맥 자질 추출부,
    상기 추출된 문맥 자질에 대응하는 1차 학습 분류 모델을 선정하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 1차로 예측하여 상기 1차 예측 결과를 출력하는 기본 분류 예측부, 및
    상기 1차 예측 결과 정보가 문법 오류가 아닌 것으로 판단되는 경우 상기 2차 학습 분류 모델을 이용하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 예측하고 그 결과 정보를 출력하는 메타 분류 예측부를 포함하는 것을 특징으로 하는 문법 오류 정정 시스템.
  6. 제 5항에 있어서,
    상기 문맥 자질 추출부는 상기 학습부에서 문맥 오류를 진단을 위한 학습 분류 모델을 형성하기 위한 학습 과정에 이용된 목적 문법 정정을 위한 문맥 자질을 상기 학습자의 입력 말뭉치로부터 추출하는 것을 특징으로 하는 문법 오류 정정 시스템.
  7. 제 5항에 있어서,
    상기 메타 분류 예측부는 상기 1차 예측 결과 정보가 문법 오류가 있는 것으로 판단되는 경우에 동작하지 않는 것을 특징으로 하는 문법 오류 정정 시스템.
  8. 제 1항에 있어서,
    상기 학습부는 상기 실행부와 서로 연동되어 상기 2차 학습 분류 모델을 형성하는 것을 특징으로 하는 문법 오류 정정 시스템.
  9. 복수의 말뭉치로부터 문법 오류를 진단하는 기준인 학습 모델을 생성하는 학습 단계 및 상기 학습 모델을 이용하여 학습자가 입력한 말뭉치에 대해 문법 오류를 예측하는 실행 단계를 포함하는 문법 오류 정정 방법에 있어서,
    상기 학습 단계는,
    상기 복수의 말뭉치를 입력받아 언어 특성에 따른 복수의 문맥 자질을 추출하는 문맥 자질 추출 단계,
    상기 복수의 문맥 자질로부터 반복적인 학습 기법을 통해 문법 오류를 진단하는 기준으로서 문법 오류 패턴 및 오류 분류에 관한 적어도 하나 이상의 1차 학습 분류 모델을 생성하는 기본 분류 학습 단계, 및
    상기 추출된 복수의 문맥 자질, 및 상기 적어도 하나 이상의 1차 학습 분류 모델을 사용하여 상기 학습자가 입력한 말뭉치에 대해 1차로 문법 오류를 예측한 1차 예측 결과 정보를 이용하여 반복적인 학습 기법을 통해 적어도 하나 이상의 2차 학습 분류 모델을 생성하는 메타 분류 학습 단계를 포함하고,
    상기 실행 단계는,
    상기 학습자가 입력한 말뭉치에 대해 복수의 문맥 자질을 추출하는 문맥 자질 추출 단계,
    상기 기본 분류 학습 단계에서 생성된 1차 학습 분류 모델 중 상기 추출된 문맥 자질에 대응하는 1차 학습 분류 모델을 선정하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 1차로 예측하고 1차 예측 결과를 출력하는 1차 예측 단계, 및
    상기 1차 예측 결과 정보가 문법 오류가 아닌 것으로 판단되는 경우 상기 2차 학습 분류 모델을 이용하여 상기 학습자의 입력 말뭉치에 대한 문법 오류를 예측하고 그 결과 정보를 출력하는 2차 예측 단계를 포함하는 것을 특징으로 하는 문법 오류 정정 방법.
  10. 제 9항에 있어서,
    상기 실행 단계의 문맥 자질 추출 단계는,
    상기 학습 단계에서 상기 학습 분류 모델을 형성하기 위하여 학습 과정에 이용된 목적 문법 정정을 위한 문맥 자질을 상기 학습자의 입력 말뭉치로부터 추출하는 것을 특징으로 하는 문법 오류 정정 방법.
  11. 제 9항에 있어서,
    상기 2차 학습 분류 모델은 상기 1차 학습 분류 모델이 포함하지 않은 문법 오류 패턴 및 오류 분류를 포함하는 것을 특징으로 하는 문법 오류 정정 방법.
PCT/KR2013/004079 2012-12-13 2013-05-09 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법 WO2014092265A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/443,732 US20150309982A1 (en) 2012-12-13 2013-05-09 Grammatical error correcting system and grammatical error correcting method using the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2012-0145721 2012-12-13
KR1020120145721A KR101374900B1 (ko) 2012-12-13 2012-12-13 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법

Publications (1)

Publication Number Publication Date
WO2014092265A1 true WO2014092265A1 (ko) 2014-06-19

Family

ID=50648854

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/004079 WO2014092265A1 (ko) 2012-12-13 2013-05-09 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법

Country Status (3)

Country Link
US (1) US20150309982A1 (ko)
KR (1) KR101374900B1 (ko)
WO (1) WO2014092265A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101903081B1 (ko) * 2016-09-28 2018-10-02 삼성중공업(주) 자재정보 관리 장치, 자재정보 관리 방법 및 기록 매체
WO2019024050A1 (en) * 2017-08-03 2019-02-07 Lingochamp Information Technology (Shanghai) Co., Ltd. CORRECTION OF GRAMMAR ERRORS BASED ON DEEP CONTEXT AND USING ARTIFICIAL NEURAL NETWORKS
US11886812B2 (en) * 2020-03-02 2024-01-30 Grammarly, Inc. Proficiency and native language-adapted grammatical error correction
CN112364990B (zh) * 2020-10-29 2021-06-04 北京语言大学 通过元学习实现语法改错少样本领域适应的方法及系统
CN114970506A (zh) * 2022-06-09 2022-08-30 广东外语外贸大学 基于多粒度语法错误模板学习微调的语法纠错方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6618697B1 (en) * 1999-05-14 2003-09-09 Justsystem Corporation Method for rule-based correction of spelling and grammar errors
KR20090096905A (ko) * 2008-03-10 2009-09-15 주식회사 언어과학 문법오류 검사방법
US20100169768A1 (en) * 2008-12-31 2010-07-01 International Business Machines Corporation Spell Checker That Teaches Rules of Spelling
US20100275118A1 (en) * 2008-04-22 2010-10-28 Robert Iakobashvili Method and system for user-interactive iterative spell checking
KR20110068491A (ko) * 2009-12-16 2011-06-22 포항공과대학교 산학협력단 문법 오류 시뮬레이션 장치 및 방법
US20110239111A1 (en) * 2010-03-24 2011-09-29 Avaya Inc. Spell checker interface

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8396859B2 (en) * 2000-06-26 2013-03-12 Oracle International Corporation Subject matter context search engine
AU2002246550A1 (en) * 2000-11-30 2002-08-06 Enterprise Integration Group, Inc. Method and system for preventing error amplification in natural language dialogues
US7013262B2 (en) * 2002-02-12 2006-03-14 Sunflare Co., Ltd System and method for accurate grammar analysis using a learners' model and part-of-speech tagged (POST) parser
US7529748B2 (en) * 2005-11-15 2009-05-05 Ji-Rong Wen Information classification paradigm
US8170868B2 (en) * 2006-03-14 2012-05-01 Microsoft Corporation Extracting lexical features for classifying native and non-native language usage style
CA2694327A1 (en) * 2007-08-01 2009-02-05 Ginger Software, Inc. Automatic context sensitive language correction and enhancement using an internet corpus
GB2458461A (en) * 2008-03-17 2009-09-23 Kai Yu Spoken language learning system
SG188531A1 (en) * 2010-09-24 2013-04-30 Univ Singapore Methods and systems for automated text correction

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6618697B1 (en) * 1999-05-14 2003-09-09 Justsystem Corporation Method for rule-based correction of spelling and grammar errors
KR20090096905A (ko) * 2008-03-10 2009-09-15 주식회사 언어과학 문법오류 검사방법
US20100275118A1 (en) * 2008-04-22 2010-10-28 Robert Iakobashvili Method and system for user-interactive iterative spell checking
US20100169768A1 (en) * 2008-12-31 2010-07-01 International Business Machines Corporation Spell Checker That Teaches Rules of Spelling
KR20110068491A (ko) * 2009-12-16 2011-06-22 포항공과대학교 산학협력단 문법 오류 시뮬레이션 장치 및 방법
US20110239111A1 (en) * 2010-03-24 2011-09-29 Avaya Inc. Spell checker interface

Also Published As

Publication number Publication date
US20150309982A1 (en) 2015-10-29
KR101374900B1 (ko) 2014-03-13

Similar Documents

Publication Publication Date Title
WO2014092265A1 (ko) 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법
WO2017010652A1 (ko) 자동질의응답 방법 및 그 장치
CN107343223B (zh) 视频片段的识别方法和装置
CN112287670A (zh) 文本纠错方法、系统、计算机设备及可读存储介质
WO2017039086A1 (ko) 웹플러그인 기반 딥러닝 모듈화시스템 및 이를 이용한 영상인식방법
CN109918640B (zh) 一种基于知识图谱的中文文本校对方法
CN110309514A (zh) 一种语义识别方法及装置
WO2014069741A1 (ko) 자동 채점 장치 및 방법
WO2013081301A1 (ko) 작문 자동 평가를 위해 샬로우 파서를 이용한 문장 자동 평가 장치, 이를 위한 오류 검출 장치 및 이를 위한 방법
WO2012115324A1 (ko) 대화 관리 방법 및 이를 실행하는 장치
WO2013172534A1 (ko) 대화 관리 시스템 및 방법
WO2020122456A1 (ko) 이미지와 텍스트간 유사도 매칭 시스템 및 방법
WO2018088664A1 (ko) 러프 셋을 이용한 형태소 품사 태깅 코퍼스 오류 자동 검출 장치 및 그 방법
WO2020111314A1 (ko) 개념 그래프 기반 질의응답 장치 및 방법
WO2021125619A1 (ko) 딥러닝 모델을 이용하여 바운딩 박스에 대한 레이블링을 검수하는 방법 및 그를 이용한 장치
Rei et al. Auxiliary objectives for neural error detection models
WO2016208941A1 (ko) 텍스트 전처리 방법 및 이를 수행하는 전처리 시스템
WO2021162362A1 (ko) 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치
WO2023106855A1 (ko) 작문 평가를 지원하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
CN116091836A (zh) 一种多模态视觉语言理解与定位方法、装置、终端及介质
WO2017131325A1 (ko) 지식 베이스의 검증 및 교정 시스템 및 방법
WO2019107625A1 (ko) 기계 번역 방법 및 이를 위한 장치
CN114462031B (zh) 后门攻击方法、相关装置及存储介质
WO2011074772A2 (ko) 문법 오류 시뮬레이션 장치 및 방법.
KR20210060563A (ko) 검색 방법 및 장치, 저장 매체

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13861622

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 14443732

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13861622

Country of ref document: EP

Kind code of ref document: A1