KR101949880B1 - 작문 오류 식별 및 평가 시스템 - Google Patents

작문 오류 식별 및 평가 시스템 Download PDF

Info

Publication number
KR101949880B1
KR101949880B1 KR1020170174977A KR20170174977A KR101949880B1 KR 101949880 B1 KR101949880 B1 KR 101949880B1 KR 1020170174977 A KR1020170174977 A KR 1020170174977A KR 20170174977 A KR20170174977 A KR 20170174977A KR 101949880 B1 KR101949880 B1 KR 101949880B1
Authority
KR
South Korea
Prior art keywords
model
error
syllable
sentence
input
Prior art date
Application number
KR1020170174977A
Other languages
English (en)
Inventor
곽용진
장호림
Original Assignee
주식회사 이르테크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 이르테크 filed Critical 주식회사 이르테크
Priority to KR1020170174977A priority Critical patent/KR101949880B1/ko
Application granted granted Critical
Publication of KR101949880B1 publication Critical patent/KR101949880B1/ko

Links

Images

Classifications

    • G06F17/2705
    • G06F17/274

Landscapes

  • Machine Translation (AREA)

Abstract

본 발명은 입력된 작문의 문장을 표층 모델과 심층 모델로 구분하여 오류를 식별하고, 각 모델의 오류 식별 결과를 문장 모델의 입력으로 하여 평가 결과를 출력하는 작문 오류 식별 및 평가 시스템을 개시한다.

Description

작문 오류 식별 및 평가 시스템{SYSTEM FOR IDENTIFYING AND EVALUATING ERROR OF COMPOSITION}
본 발명은 작문 오류 식별 및 평가 시스템에 관한 것으로서, 더욱 상세하게는 인공지능 기술의 한 분야인 자연언어처리를 활용하여 외국인에 의해 작성된 한국어 작문의 오류를 식별하고, 문장의 적절성을 평가하는 기술에 관한 것이다.
종래에는 맞춤법 검사 장치 또는 자동 교정 장치를 통하여 한국어 작문의 오류를 식별하고, 주로 한국어를 모국어로 하는 사용자에 의해 작성된 작문을 식별한다. 예를 들어 종래에는 특허문헌에 기재된 바와 같이 한국어를 모국어로 하는 사용자에 의해 작성된 작문의 오류를 식별하고, 작문의 오류 정도에 기반하여 경도 인지 장애 또는 알츠하이머성 치매 진단을 실시하였다.
최근에는 종래의 기술을 그대로 활용하여 외국인의 한국어 학습을 위해 외국인에 의해 작성된 한국어 작문의 오류를 식별하는 기술을 개발하고 있다.
그러나 종래에는 외국인 사용자에 의해 작성된 작문이 한국어를 모국어로 하는 모국어 사용자에 의해 작성된 작문보다 오류의 개수 및 오류 유형이 더 많고, 외국인의 모국어로 영향을 받는 발음으로 인한 철자 오류, 문화나 관습으로 인한 문장 구성 및 표현 오류 등 식별하기 어려운 다양한 문제점이 있다.
종래에는 사전 등을 이용한 표층 수준에서의 기계학습이나 규칙 모델을 사용하거나, 좌우 문맥을 이용한 형태소 나열 패턴을 이용하는 등 하나의 층위나 모델만으로 오류를 식별하기 때문에, 종래 기술이 다루는 모델과 다른 층위에서 발생한 오류는 해당 모델의 성능을 저하시키는 문제를 발생하여 상위 층위에서의 정보처리와 평가를 하기 어렵다. 예를 들어 “나는 항국이 좋다”라는 문장에서 어휘 수준에서는 오류이지만, 구문 수준에서는 오류가 아니다. 그러므로 종래에는 상기 예문을 처리하는 모델에 어떤 문법 층위의 정보를 사용했느냐에 따라 평가 결과가 달라질 수 있다.
종래에는 중국인 또는 일본인은 한국어의 종성과 같은 받침이 없고, 종성 자음의 특징인 마찰, 파찰 및 불파성 등 음운이나 음성학적 요소가 미약하기 때문에 “한국”을 ‘항국’ 또는 ‘한극’ 등 한국어를 모국어로 사용하는 사용자에게서 나타나지 않는 외국인의 모국어로 영향을 받는 발음으로 인한 철자 오류도 광범위하게 나타난다. 또한 종래에는 외국인 개인의 노력, 경험, 자국 문화 및 자국 언어적 특성 등 다양한 요인이 복합적으로 작용하여 음소 또는 음절 등 단일 층위에서의 규칙성과 인과에 의한 오류를 연관시켜 평가하기 어려울 수 있다.
한국등록특허 제10-1562105
본 발명은 상기와 같은 문제점을 해결하고자 표층 모델과 심층 모델의 오류 식별 결과를 문장 모델의 입력으로 하여 평가하는 작문 오류 식별 및 평가 시스템을 제공하고자 한다.
본 발명은 음소, 음절, 형태, 어절, 구문 및 문장 등 한국어의 문법적 단위로 복합적인 오류 패턴을 인식하여 작문의 오류 식별과 평가를 제공하는 작문 오류 인식 시스템을 제공한다.
상기 과제를 달성하기 위한 본 발명의 실시예에 따른 작문 오류 식별 및 평가 시스템은, 작문의 문장을 음소 층위로 분리된 음절 모델과 음절 층위로 분리된 어절 모델을 포함하는 표층 모델의 오류를 식별하는 표층 모델부; 상기 작문의 문장을 형태 층위로 분리된 형태 모델과 구문 층위로 분리된 구문 모델을 포함하는 심층 모델의 오류를 식별하는 심층 모델부 및 각 모델의 오류 식별 결과를 문장 모델의 입력으로 하여 평가 결과를 출력하는 문장 모델부를 포함하여, 상기 표층 모델과 심층 모델을 문장 모델의 입력으로 하여 오류 식별 성능을 향상시키는 것을 특징으로 한다.
상기 표층 모델부는 음절 모델의 오류 식별 결과를 어절 모델의 입력으로 하는 것을 특징으로 할 수 있다.
상기 표층 모델부는, 음소 층위를 입력으로 하여 음절 모델의 오류를 식별하고, 음절 모델의 오류 식별 결과를 출력하는 음절 모델부 및 음절 모델의 오류 식별 결과에서 음절 층위를 입력으로 하여 어절 모델의 오류를 식별하고, 어절 모델의 오류 결과를 출력하는 어절 모델부를 포함하는 것을 특징으로 할 수 있다.
상기 심층 모델부는 형태 모델의 오류 식별 결과를 구문 모델의 입력으로 하는 것을 특징으로 할 수 있다.
상기 심층 모델부는, 형태 층위를 입력으로 하여 어휘간의 의미와 구조 정보를 내포하는 형태 모델의 오류를 식별하고, 형태 모델의 오류 식별 결과를 출력하는 형태 모델부 및 형태 모델의 오류 식별 결과에서 어절 층위를 입력으로 하여 구문 모델의 오류를 식별하고, 구문 모델의 오류 평가를 출력하는 구문 모델부를 포함하는 것을 특징으로 할 수 있다.
상기 문장 모델부는 각 층위별 오류를 종합하고, 오류 정도를 점수화하여 작문의 오류를 정량적으로 평가하는 것을 특징으로 할 수 있다.
본 발명은 입력된 작문의 문장을 표층 모델과 심층 모델로 구분하여 오류를 식별하고, 각 모델의 오류 식별 결과를 문장 모델의 입력으로 받아 평가 결과로 출력하는 모델을 학습시킴으로써, 문장을 평가하기 위한 별도의 범주를 설정하지 않고도 전문가와 유사한 평가 결과를 제공하는 도구 또는 시스템을 구성할 수 있다.
본 발명은 한국어의 문법적 단위로 복합적인 오류 패턴을 인식하여 정교한 오류 식별을 제공할 수 있고, 오류 식별과 교정을 분리하여 교정의 기능적 오동작 가능성을 감소시킬 수 있으며, 하나의 입력 문장을 표층과 심층이라는 독립적인 두 정보구조로 처리하고 문장 모델에서 통합함으로써 각 층의 오류에 강인한 문장 평가를 수행할 수 있으며, 작문에 대한 객관적인 정량 평가를 산출하여 신뢰성이 있는 교수-평가 수단을 제공할 수 있고, 한국어 교수 전문가의 평가와 유사한 평가 결과를 산출할 수 있으므로, 외국인의 한국어 학습시 취약점과 관련된 정보를 제공하여 한국어 교육 교수방법 또는 교재 연구 개발의 개선과 발전에 기여할 수 있다.
도 1은 본 발명에 실시예에 따른 작문 오류 식별 및 평가 시스템을 도시한 블록도이다.
도 2는 도 1의 작문 오류 식별 및 평가 시스템의 동작을 상세하게 도시한 예이다.
도 3은 도 2의 음절 모델부의 동작 방법을 도시한 것이다.
도 4는 도 2의 어절 모델부의 동작 방법을 도시한 것이다.
도 5는 도 2의 형태 모델부의 동작 방법을 도시한 것이다.
이하 첨부 도면들 및 첨부 도면들에 기재된 내용들을 참조하여 본 발명의 실시예를 상세하게 설명하지만, 본 발명이 실시예에 의해 제한되거나 한정되는 것은 아니다.
도 1은 본 발명에 실시예에 따른 작문 오류 식별 및 평가 시스템을 도시한 블록도로서, 작문 오류 식별 및 평가 시스템(100)은 컴퓨터를 이용하여 모국어가 아닌 언어를 학습하는 CALL(Computer Assistant Language Learning)의 한 부분으로서, 인공지능 기술의 한 분야인 자연언어처리(NLP: Natural Language Processing)를 활용한다.
Chomsky(1967) 이후, 인간의 언어는 문법을 분석하고 의미를 이해하는 내적 구조의 심층 모델과 문자와 소리로 표현되는 외적 구조의 표층 모델이 존재한다는 것이 보편적인 견해로 받아들여져 왔다. 그러나 사람의 언어를 처리하는 자연언어처리 분야에서 이러한 문법 모델은 모호성과 중의성(ambiguity)이 높고, 다층위 문법 모델에 대한 복잡성이 높아 계산량이 크게 증가하므로, 표층과 심층을 명확하게 구분하거나 분리하지 않은 상태에서 처리한다.
표층 모델이란 사람이 언어를 사용함에 있어서 물리적, 가시적으로 표현되는 외적 형태에 대한 모델을 의미하고, 작문의 경우 입력되는 문자열 자체가 이에 해당한다. 예를 들어 표층 모델은 입력 문자열 “강”을 음소 층위인 ‘ㄱ, ㅏ, ㅇ’로 분리되거나, “한국어”를 음절 층위인 ‘한국, 국어’로 분리되어 본래의 입력 문자열로 복원이 가능한 조작으로 활용될 수 있고, 입력 데이터의 조작에 따른 문법적 정보가 요구되지 않는다.
심층 모델이란 언어학적 분석 정보가 포함된 모델을 의미한다. 언어학적 분석 정보란 품사 정보, 형태 정보, 구문 정보 및 의미 정보 등을 가리키고, 표층 모델의 값을 분석하거나, 이미 분석된 데이터와 비교하여 얻어지며, 표층 모델에 대한 의미, 구조 및 구성에 대한 인간의 내적 인식을 체계화한 정보이다. 예를 들어 언어학적 분석 정보는 문장이 주어부와 술어부로 구성된다는 규칙이나, ‘이/가’가 결합된 명사 어휘를 주어로 만든다는 등의 언어 현상을 설명하기 위한 문법적 체계가 이에 속한다.
심층 모델은 표층 모델의 입력 문자열뿐만 아니라 입력 문자열에 대한 언어학적 분석 정보를 입력 데이터로 함께 활용할 수 있다.
종래에는 자연언어처리 분야에서 작문을 표층 모델과 심층 모델로 분리하지 않았기 때문에, 작문의 오류를 식별함에 있어서 적용될 모델의 외적인 문제에 대한 영향력의 처리가 어렵고, 문장과 같은 상위 수준의 층위에서 종합적인 평가가 어려운 문제점이 있다. 예를 들어 종래에는 오타가 발생한 어휘의 형태적 분석이 실패되어 형태 분석 처리가 어렵고, 형태 분석의 실패는 구문 분석, 문장 분석 및 평가의 실패로 이어진다.
작문 오류 식별 및 평가 시스템(100)은 작문을 문자와 소리로 표현되는 외적 구조의 표층 모델 및 문법과 의미로 분류되는 내적 구조의 심층 모델로 각각 구분하고, 각각의 모델을 입력으로 하여 표층 모델과 심층 모델로 분리하지 않아 발생하는 언어의 모호성과 중의성을 감소시키고자 한다.
종래에 뉴럴 네트워크를 이용한 딥러닝은, 개념적으로 표층 모델과 심층 모델의 관계가 유사하다고 할 수 있다. 표층 모델은 딥러닝의 입력부에 해당하고, 심층 모델은 학습부인 은닉층에 해당하며, 문장의 의미 해석 또는 평가는 출력층에 해당된다. 그러나 종래에는 작문을 표층과 심층으로 구분하여 한국어의 문법적 단위로 구분하여 배치하기보단 형태 모델과 구문 모델 등의 문법적 해석을 입력과 출력 데이터에 결합시키는 등 각 모델이 사용하는 정보를 하나의 입력으로 처리해 왔다.
본 발명은 사람간의 소통에 활용되는 언어 데이터 그 자체인 표층 모델을 뉴렬 네트워크의 1차 입력으로 하고, 심층 모델인 형태 모델과 구문 모델을 2차 입력으로 하여, 표층 모델과 심층 모델의 관계가 문장의 평가 결과에 대한 출력으로 유도함으로써, 뉴럴 네트워크의 은닉층이 자연언어에 대한 인간의 심층 모델을 모사하도록 한다.
도 2는 도 1의 작문 오류 식별 및 평가 시스템의 동작을 상세하게 도시한 예로서, 작문 오류 식별 및 평가 시스템(100)은 표층 모델부(110), 심층 모델부(120) 및 문장 모델부(130)를 포함한다.
표층 모델부(110)는 작문의 문장을 음소 층위로 분리된 음절 모델과 음절 층위로 분리된 어절 모델을 포함하는 표층 모델의 오류를 식별하고, 심층 모델부(120)는 작문의 문장을 형태 층위로 분리된 형태 모델과 구문 층위로 분리된 구문 모델을 포함하는 심층 모델의 오류를 식별하며, 문장 모델부(130)는 각 모델의 오류 식별 결과를 문장 모델의 입력으로 하여 평가 결과를 출력한다.
작문 오류 식별 및 평가 시스템(100)은 작문의 문장을 표층 모델과 심층 모델로 구분하여 오류를 식별하도록 표층 모델부와 심층 모델부의 동작을 제어하고, 표층 모델부와 심층 모델부의 병렬적 수행을 제어하는 제어부(미도시)를 더 포함할 수 있다.
작문 오류 식별 및 평가 시스템(100)은 표층 모델이 작문에서 입력 문자열의 단순 분해와 결합으로 학습된 모델로 구성되고, 심층 모델이 형태, 구문 및 의미 등과 같은 언어학적 분석 정보를 입력으로 포함시켜 학습 모델로 구성되며, 표층 모델과 심층 모델을 입력으로 문장 모델을 구성하여 오류 식별과 문장 평가 성능을 향상시키고자 한다.
표층 모델부(110)는 작문에서 음절 모델과 어절 모델을 포함하는 표층 모델의 입력을 기계학습하여 표층 모델의 오류를 식별하고, 음절 모델부(111) 및 어절 모델부(112)를 포함한다.
도 3은 도 2의 음절 모델부의 동작 방법을 도시한 것으로서, 음절 모델부(111)는 음소 층위를 입력으로 하여 음절 모델의 오류를 식별하고, 음절 모델의 오류 식별 결과를 출력한다.
음소 층위를 이용한 음절 모델부(111)는 한글의 초성, 중성, 종성을 입력으로 받아 정상 음절과 비정상 음절을 식별하는 기계학습 모델 또는 인공 신경망 모델로서, 입력된 작문 데이터를 문자값 단위로 자르고, 해당 문자값의 문자코드 변환값이 0xAC00 ~ 0xD8DF, UCS-2 방식으로 표현시 유니코드의 한글 완성형 문자 대역에 해당하면, 이를 초성, 중성, 종성으로 분해한다. 정상 음절은 한국어 모국어 화자들이 작성한 텍스트와 사전으로부터 수집된 음절을 전처리한 것으로
Figure 112017126424708-pat00001
등의 유희적 문자들을 제외한 음절들의 집합이다. 학습된 음절 모델은 ‘ㄴ,ㅏ,ㅋ’을 입력으로 받았을 때, ‘칸’은 정상 음절로 인식하고,
Figure 112017126424708-pat00002
은 비정상 음절로 인식한다. 또한, 인식을 위한 출력결과를 선형의 숫자값(실수)와 함께 제공할 수 있으며, 제공된 숫자값은 해당 음절을 정상 또는 비정상으로 인식할 확률값이다.
<음절 모델의 수학적 표현 및 음절 모델의 학습을 위한 데이터 예시>
f(x)는 입력 음절의 오류 여부를 나타내는 출력값으로서, 0이면 정상이고, 1이면 오류인 것을 나타낸다.
[수식 1]은 f(x)1을 연산하는 수식을 나타낸 것이고, [표 1]은 음절 모델의 학습을 위한 데이터 예시이다.
[수식 1]
f(x)1 = tahn(w1×x1(초성) + w2×x2(중성) + w3×x3(종성) + b)
[표 1]
Figure 112017126424708-pat00003
여기서 tahn은 하이퍼볼릭 탄젠트 함수이고, 출력값을 0 또는 1로만 반환하기 위한 함수이며, 통상적으로 기계학습에서 활성화 함수라고 한다. tahn과 같은 역할을 하는 활성화 함수는 시그모이드 함수와 ReLu 함수를 포함할 수 있고, 다양한 함수를 포함할 수 있다. 정답 어절 출력값은 해당 음절을 포함하는 한 어절 전체에 대한 오류 유무를 평가한 것으로서, 학습자 말뭉치 등과 같이 별도로 구축된 데이터 또는 언어자원에서 획득할 수 있다.
음절 모델부(111)는 음절 모델의 입력값에 음절 모델의 수학적 표현인 f(x)1에 대입하여, 그 계산 결과가 음절 정답 출력값과 같아지게 하는 w1, w2, w3, b값을 찾아가는 방법인 기계학습을 활용한다. w1, w2, w3 및 b는 입력 음절의 오류 여부를 판별하는 음절 모델의 인스턴스가 된다. 이 방식은 기계학습에서 널리 통용되는 지식이기 때문에 후술하는 내용에서는 종래기술과 대비하여 차이가 있는 부분만 설명하기로 한다.
종래기술에는 정답 음절만을 모은 데이터 집합을 이용하여 음절과 어절의 오류를 식별하기도 했으나, 본 발명은 음절의 오류 여부를 판별하는 모델을 생성하는 것뿐만 아니라, 문장 모델에서 입력으로 사용하기 위한 음절 모델을 생성하는 점에서 종래기술과 차이점이 있다. 즉 본 발명은 음절의 오류 판별 여부가 중요한 입력값이 아니라, 음절의 정보를 판별하기 위한 모델이 이후 모델의 결과에 영향을 미치는 중요한 입력값이 된다. 예를 들어 종래기술에는
Figure 112017126424708-pat00004
이 잘못된 음절이라는 결과값이 목표였다면, 본 발명은
Figure 112017126424708-pat00005
을 오류로 식별하기 위한 모델의 값(w1×ㅎ + w2×ㅏ + w3×ㅋ + b)가 문장 모델의 입력이 되는 중요한 목표 결과물이다.
본 발명은 각 모델 층위에서의 평가 결과가 상위 층위의 모델로 계속 전달되도록 하는 특성을 갖고, 그 결과 최종 층위인 문장 모델은 각 층위의 출력 결과를 종합해서 평가하는 모델로 형성될 수 있다.
음절 모델부(111)는 학습된 음절 모델에서 ‘ㄴ,ㅏ,ㅋ’을 입력으로 받았을 때 ‘칸’은 정상 음절로 인식하고,
Figure 112017126424708-pat00006
은 비정상 음절로 인식하며, 인식을 위한 출력 결과를 선형의 숫자값 또는 실수와 함께 제공할 수 있고, 제공된 숫자값은 해당 음절을 정상 또는 비정상으로 인식하는 확률값일 수 있다.
음절 모델부(111)에서 정상으로 인식한 음절로 구성되더라도 정상 음절의 연쇄가 반드시 오류가 없는 정상 어절이 되는 것은 아니다. 예를 들어 정상 음절 집합 {어, 머, 니}는 모두 정상 음절이지만, ‘어머니’는 정상 어절이 되고, ‘니머어’는 비정상 어절이 된다. 그러므로 모국어 사용자의 말뭉치 또는 학습데이터에서 수집된 어절의 순서를 가진 바이그램을 기계학습의 입력하여 학습시킴으로써, 정상 어절과 비정상 어절을 인식하는 어절 모델을 만들 수 있다.
도 4는 도 2의 어절 모델부의 동작 방법을 도시한 것으로서, 어절 모델부(112)는 음절 모델의 오류 식별 결과에서 음절 층위를 입력으로 하여 어절 모델의 오류를 식별하고, 어절 모델의 오류 결과를 출력한다.
표층 모델부(110)는 음절 모델과 어절 모델을 적층화하여 음절 모델이 오인식한 특성값을 어절 모델의 입력에 반영하여 어절 모델 수준의 출력에 영향을 미치도록 한다. 그 결과 어절 모델부(112)는 ‘니머어’와 같이 정상 음절로 연쇄된 오류 어절을 인식할 수 있다.
<어절 모델의 학습을 위한 데이터 예시>
[표 2]는 어절 모델의 학습을 위한 데이터 예시이다.
[표 2]
Figure 112017126424708-pat00007
심층 모델부(120)는 형태 모델과 구문 모델을 포함하는 심층 모델의 입력을 기계학습하여 심층 모델의 오류를 식별하고, 형태 모델부(121) 및 구문 모델부(122)를 포함한다.
제2 인식 모델부(120)는 어절 인식 모델부(112)에서 정상 음절로 연쇄된 오류 어절을 인식할 수 있지만, ‘잘 하는’, ‘못 하는’ 등의 ‘잘’, ‘못’과 같은 1음절 정상 음절로 이루어진 어절과 ‘학교과’와 같은 형태소 결합 오류를 식별하지 못 할 수 있기 때문에 형태 모델의 오류와 구문 모델의 오류를 인식한다.
도 5는 도 2의 형태 모델부의 동작 방법을 도시한 것으로서, 형태 모델부(121)는 형태 층위를 입력으로 하여 어휘간의 의미와 구조 정보를 내포하는 형태 모델의 오류를 식별하고, 형태 모델의 오류 식별 결과를 출력한다. 형태 모델부(121)는 형태소 결합의 오류 구문을 인식할 수 있다.
<형태 모델의 학습을 위한 데이터 예시>
[표 3]은 형태 모델의 학습을 위한 데이터 예시이다.
[표 3]
Figure 112017126424708-pat00008
하나의 표층인 “나는”은 ‘날(다)+(으)는, 나(다)+는, 나(I)+는’ 등의 여러 심층으로 해석되고, 심층과 표층간의 분석 규칙과 체계는 아직도 완전하게 정립되지 않아 표층에서 심층으로의 정보 전환하는 전체 규칙집합을 명시적으로 나타낼 수 없다. 이러한 형태 모델의 한계는 하나 이상의 형태 또는 형태소를 입력으로 받아 처리하는 구문 모델에서 해소될 수 있다.
구문 모델부(122)는 형태 모델의 오류 식별 결과에서 어절 층위를 입력으로 하여 구문 모델의 오류를 식별하고, 구문 모델의 오류 평가를 출력한다. 구문 모델부(122)는 1음절의 정상 음절로 이루어진 오류 어절을 인식할 수 있다.
<구문 모델의 학습을 위한 데이터 예시>
[표 4]는 구문 모델의 학습을 위한 데이터 예시이다.
[표 4]
Figure 112017126424708-pat00009
문장 모델부(130)는 표층 모델과 심층 모델의 출력을 문장 모델의 입력으로 하고, 문장 모델을 기계학습하여 문장 모델의 오류 정도를 인식한다. 문장 인식 모델부(130)는 표층 모델과 심층 모델의 복합적 인식을 통하여 작문의 오류를 식별하고, 평가 결과를 출력한다. 문장 모델은 은닉층과 평가부인 출력층에 해당된다.
<문장 모델의 학습을 위한 데이터 예시>
[표 5]는 문장 모델의 학습을 위한 데이터 예시이다.
[표 5]
Figure 112017126424708-pat00010
상기 문장 모델의 학습을 위한 데이터 예시에 나타낸 바와 같이, 각 문법 모델 층위는 오류를 식별하기 위한 모델이고, 그 출력 결과를 문장 모델의 입력으로 전달한다.
상기 학습데이터에서 표층-음절 모델의 경우를 해석하면, 첫 번째 어절인 ‘나는’은 본 발명의 음절 모델에 결과에 의하면 모두 정상인 값을 가지며, 어절 전체를 정상으로 식별한다. 두 번째 어절인
Figure 112017126424708-pat00011
는 첫 음절을 비정상으로 판정하고, 나머지 음절은 정상으로 판정하여 어절 전체는 비정상으로 식별한 결과를 문장 모델의 입력으로 제공한다.
각 층위는 모두 이와 유사한 방식으로 자신의 모델에 의한 출력값을 문장 모델에 전달한다. 상기 예시를 풀이하여 설명하면, “1) 외관상으로 볼때,
Figure 112017126424708-pat00012
을 제외한 나머지 모든 음절은 정상으로 판단되고, 2) 외관상으로 볼때,
Figure 112017126424708-pat00013
는 오류로 판단되며, 3) 심층의 형태 수준에서는
Figure 112017126424708-pat00014
는 비정상적으로 판단된다. 형태 모델의 구성을 하나의 어절이 아닌 선행어절-현재어절-후행어절로 구성하기도 하는데, 이 경우 ‘나는, 간다’도 비정상으로 평가될 수 있다. 4) 심층의 구문 수준에서는
Figure 112017126424708-pat00015
Figure 112017126424708-pat00016
가 모두 오류로 평가된다.
문장 모델부(130)는 각 층위의 출력값에 대응하는 입력에 대해 전문가의 평가인 6점에 근접하는 결과를 내기 위해 문장 모델 평가값(6 = 음절 모델의 출력값×w1 + 어절 모델의 출력값×w2 + 형태 모델의 출력값×w3 + 구문 모델의 출력값×w4 + b) 연산을 6에 근사하도록 하는 w1, w2, w3, w4 및 b의 값을 형성하도록 학습할 수 있다.
최종적으로 학습된 문장 모델부(130)는, 학국인 학습자의 작문 입력에 대해 여러 문법 층위의 오류 식별 계산 결과를 종합하여 상기 예시에 대해 비록 구문 수준에서 모든 항목이 오류로 판정되더라도 부분적인 한국어 사용에 대한 수준을 고려해 6점 수준에 부합한다고 평가하게 된다.
본 발명은 종래의 기술들이 철자법 오류, 구문 오류, 조사/어미 누락 등의 평가기준을 명시하여 규칙 또는 레이블링 데이터를 이용한 지도학습 방식에서 벗어나 일관성 있는 작문의 평가를 가능하게 한다.
또한, 본 발명은 문법적 지식을 별도로 활용하지 않더라도 외국인의 발화와 작문에 대해 평가하는 모국어 사용자의 직관적 판단을 모사하는 것이기도 하다.
문장 모델부(130)는 각 층위의 정보와 그 출력값을 사용하여 각 층위에서 전달된 모델의 정보와 그 출력값에 의한 상관관계로 문장 모델을 형성하게 된다. 문장 모델부(130)는 각 층위의 정보에 대한 개별 평가를 종합하여 문장에 대한 최종 평가를 출력하고, 특정 문법 층위의 출력이나 개별 모델의 성능 또는 오인식의 편향성이 낮은 보편적인 문장 평가를 수행하게 된다.
문장 모델부(130)는 표층 수준의 오류인 오탈자, 맞춤법 및 띄어쓰기 오류를 인식하면서 조사, 어미, 어순, 접속사 및 담화표지 오류 중 하나 이상을 인식한다.
문장 모델부(130)는 오류 정도를 점수화하여 작문을 정량적으로 평가하고, 1 ~ 10 또는 1 ~ 100 등급, 상중하 등급으로 점수화할 수 있으며, 이에 한정하지 않는다.
문장 모델부(130)는 각 층위를 기계학습하는 심층 문장 모델부(131) 및 학습 결과를 평가하는 평가부(132)로 구분될 수 있다.
본 발명은 각 층위별로 음소, 음절, 형태, 어절, 구문 및 문장의 복합적인 오류 패턴을 인식하여 작문의 오류 식별과 평가를 제공할 수 있다.
100: 작문 오류 식별 및 평가 시스템
110: 표층 모델부
120: 심층 모델부
130: 문장 모델부

Claims (6)

  1. 작문의 문장을 음소 층위로 분리된 음절 모델과 음절 층위로 분리된 어절 모델을 포함하는 표층 모델의 오류를 식별하는 표층 모델부;
    상기 작문의 문장을 형태 층위로 분리된 형태 모델과 구문 층위로 분리된 구문 모델을 포함하는 심층 모델의 오류를 식별하는 심층 모델부 및
    각 모델의 오류 식별 결과를 문장 모델의 입력으로 하여 평가 결과를 출력하는 문장 모델부를 포함하여, 상기 표층 모델과 심층 모델을 문장 모델의 입력으로 하여 오류 식별 성능을 향상시키고,
    상기 심층 모델부는 형태 모델의 오류 식별 결과를 구문 모델의 입력으로 하는 것을 특징으로 하는 작문 오류 식별 및 평가 시스템.
  2. 제1항에 있어서,
    상기 표층 모델부는 음절 모델의 오류 식별 결과를 어절 모델의 입력으로 하는 것을 특징으로 하는 작문 오류 식별 및 평가 시스템.
  3. 제2항에 있어서,
    상기 표층 모델부는,
    음소 층위를 입력으로 하여 음절 모델의 오류를 식별하고, 음절 모델의 오류 식별 결과를 출력하는 음절 모델부 및
    음절 모델의 오류 식별 결과에서 음절 층위를 입력으로 하여 어절 모델의 오류를 식별하고, 어절 모델의 오류 결과를 출력하는 어절 모델부를 포함하는 것을 특징으로 하는 작문 오류 식별 및 평가 시스템.
  4. 삭제
  5. 제1항에 있어서,
    상기 심층 모델부는,
    형태 층위를 입력으로 하여 어휘간의 의미와 구조 정보를 내포하는 형태 모델의 오류를 식별하고, 형태 모델의 오류 식별 결과를 출력하는 형태 모델부 및
    형태 모델의 오류 식별 결과에서 어절 층위를 입력으로 하여 구문 모델의 오류를 식별하고, 구문 모델의 오류 평가를 출력하는 구문 모델부를 포함하는 것을 특징으로 하는 작문 오류 식별 및 평가 시스템.
  6. 제1항에 있어서,
    상기 문장 모델부는 각 층위별 오류를 종합하고, 오류 정도를 점수화하여 작문의 오류를 정량적으로 평가하는 것을 특징으로 하는 작문 오류 식별 및 평가 시스템.
KR1020170174977A 2017-12-19 2017-12-19 작문 오류 식별 및 평가 시스템 KR101949880B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170174977A KR101949880B1 (ko) 2017-12-19 2017-12-19 작문 오류 식별 및 평가 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170174977A KR101949880B1 (ko) 2017-12-19 2017-12-19 작문 오류 식별 및 평가 시스템

Publications (1)

Publication Number Publication Date
KR101949880B1 true KR101949880B1 (ko) 2019-02-19

Family

ID=65528613

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170174977A KR101949880B1 (ko) 2017-12-19 2017-12-19 작문 오류 식별 및 평가 시스템

Country Status (1)

Country Link
KR (1) KR101949880B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120045906A (ko) * 2010-11-01 2012-05-09 한국전자통신연구원 코퍼스 오류 교정 장치 및 그 방법
KR101562105B1 (ko) 2013-10-02 2015-10-22 이화여자대학교 산학협력단 경도 인지 장애 및 알츠하이머성 치매 진단을 위한 문장 이해력 및 표현력 검사 장치 및 방법
KR101635144B1 (ko) * 2015-10-05 2016-06-30 주식회사 이르테크 텍스트 시각화와 학습자 말뭉치를 이용한 언어학습 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120045906A (ko) * 2010-11-01 2012-05-09 한국전자통신연구원 코퍼스 오류 교정 장치 및 그 방법
KR101562105B1 (ko) 2013-10-02 2015-10-22 이화여자대학교 산학협력단 경도 인지 장애 및 알츠하이머성 치매 진단을 위한 문장 이해력 및 표현력 검사 장치 및 방법
KR101635144B1 (ko) * 2015-10-05 2016-06-30 주식회사 이르테크 텍스트 시각화와 학습자 말뭉치를 이용한 언어학습 시스템

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
곽용진, 고품질 언어자원 구축을 위한 말뭉치 품질관리 방안 연구, 연세대 박사학위 논문 (2012.12) 1부. *
곽용진, 한국어 학습자 작문 자동 평가를 위한 평가 항목 선정, 제29회 한글및한국어 정보처리 학술대회 논문집 pp.270-271 (2017.10.13) 1부. *

Similar Documents

Publication Publication Date Title
Jarvis Comparison-based and detection-based approaches to transfer research
US8170868B2 (en) Extracting lexical features for classifying native and non-native language usage style
Sandri et al. Why don’t you do it right? analysing annotators’ disagreement in subjective tasks
CN101551947A (zh) 辅助口语语言学习的计算机系统
US20220139248A1 (en) Knowledge-grounded dialogue system and method for language learning
KR102372069B1 (ko) 언어학습을 위한 양국어 자유 대화 시스템 및 방법
Shaalan et al. Analysis and feedback of erroneous Arabic verbs
KR20230061001A (ko) 문서 교정 장치 및 방법
Kendall et al. Considering performance in the automated and manual coding of sociolinguistic variables: Lessons from variable (ING)
McLean et al. Two measures are better than one: combining iconicity ratings and guessing experiments for a more nuanced picture of iconicity in the lexicon
Maraoui et al. Arabic discourse analysis based on acoustic, prosodic and phonetic modeling: elocution evaluation, speech classification and pathological speech correction
Dyriv et al. The user's psychological state identification based on Big Data analysis for person's electronic diary
CN118173118A (zh) 口语问答评分方法、装置、设备、存储介质及程序产品
Wang et al. Deep Context Model for Grammatical Error Correction.
Yoon et al. Off-Topic Spoken Response Detection with Word Embeddings.
CN113822052A (zh) 一种文本错误检测方法、装置、电子设备及存储介质
Shufang Design of an automatic english pronunciation error correction system based on radio magnetic pronunciation recording devices
Tang et al. Modelling L1 and the artificial language during artificial language learning
KR101949880B1 (ko) 작문 오류 식별 및 평가 시스템
CN111508522A (zh) 一种语句分析处理方法及系统
Post da Silveira Word stress in second language word recognition and production
Kobayashi et al. Automated Scoring of L2 Spoken English with Random Forests.
Adegbegha et al. Analyzing multilingual automatic speech recognition systems performance
Manghat et al. Normalization of code-switched text for speech synthesis.
Navoda et al. Automated spelling and grammar checker tool for sinhala

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant