KR101475284B1 - 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법 - Google Patents

작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법 Download PDF

Info

Publication number
KR101475284B1
KR101475284B1 KR1020110125967A KR20110125967A KR101475284B1 KR 101475284 B1 KR101475284 B1 KR 101475284B1 KR 1020110125967 A KR1020110125967 A KR 1020110125967A KR 20110125967 A KR20110125967 A KR 20110125967A KR 101475284 B1 KR101475284 B1 KR 101475284B1
Authority
KR
South Korea
Prior art keywords
speech
error
sentence
tree
closeness
Prior art date
Application number
KR1020110125967A
Other languages
English (en)
Other versions
KR20130059795A (ko
Inventor
김승환
김동남
이은숙
김성
Original Assignee
에스케이텔레콤 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에스케이텔레콤 주식회사 filed Critical 에스케이텔레콤 주식회사
Priority to KR1020110125967A priority Critical patent/KR101475284B1/ko
Priority to CN201280019540.3A priority patent/CN103493041B/zh
Priority to PCT/KR2012/008751 priority patent/WO2013081301A1/ko
Publication of KR20130059795A publication Critical patent/KR20130059795A/ko
Priority to US14/076,641 priority patent/US9336199B2/en
Application granted granted Critical
Publication of KR101475284B1 publication Critical patent/KR101475284B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/232Orthographic correction, e.g. spell checking or vowelisation

Abstract

본 발명은 작문 자동 평가를 위한 오류 검출에 관한 것으로, 작문한 입력 문장에 대하여 엔-그램을 이용한 품사열을 생성하고 생성한 품사열에 대하여 서로 인접하는 품사간 연결 관계에 따라 정의한 규칙(샬로우 파싱: shallow parsing)을 기반으로 파싱함으로써 단순 문법적 오류뿐만 아니라 구문 분석의 오류를 검출하고 검출한 오류에 대하여 교정안을 제시하여 작문 평가의 정확도를 높인, 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 시스템 및 방법을 제공한다.

Description

작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법{ERROR DETECTION APPARATUS AND METHOD BASED ON SHALLOW PARSER FOR ESTIMATING WRITING AUTOMATICALLY}
본 발명은 작문 자동 평가를 위한 오류 검출에 관한 것으로서, 상세하게는 작문한 입력 문장을 형태소 단위로 분리하여 품사를 태깅하고 태깅한 각 품사의 열에 대하여 단순 문법적인 영작 오류를 검출하는 동시에 서로 인접하는 품사간 연결 관계에 의해 정의된 규칙을 기반으로 파싱하여 구문 분석의 오류를 검출함으로써 작문 평가의 정확도를 높인 샬로우 파서를 이용한 오류 검출 시스템 및 방법에 관한 것이다.
최근 대학 입시 시험 및 국내 대기업들이 성적 위주의 평가에서 말하기/쓰기 위주의 실제 영어 능력 평가로 변화하고 있다.
즉, 영어 의사소통 능력 신장을 위해 교육과학 기술부가 NEAT(National English Ability Test, 인터넷을 기반으로 한 듣기, 독해, 말하기, 쓰기 평가)를 개발하여 2010년부터 시범 시행하고 있으며, 향후 공무원 시험(2014년 예정)이나 수능 영어 시험(2016년 예정) 등을 대체할 계획이다.
이러한 영어 능력 평가에서 쓰기 능력을 평가하기 위해 작문 자동 평가 시스템을 도입하고 있다.
작문 자동 평가 시스템은 작문한 문장을 문법적으로 분석하여 문법에 맞게 제대로 작성되었는지 오류 검출을 통해 평가한다. 이때, 작문한 문장을 분석하는 과정에서는 문장에 대한 형태소를 분리하고 각 형태소에 품사를 태깅하여 구문 분석하는 과정이 필수적으로 요구되는데, 종래 구문 분석은 주변 단어들의 어휘, 품사, 의미 및 문맥적인 연관 관계를 복합적으로 고려하지 않고 단순히 품사열 정보에만 의존하기 때문에 그 정확성이 크게 떨어지는 문제점이 있다.
특히, 자연 언어는 문맥상 서로 의존적인 관계를 갖는 현상들이 많기 때문에 일반적으로 정의된 문법으로는 구문 분석의 한계가 있다. 예를 들어, 문장에서 하나의 품사가 구문 분석을 통해 '동사'로 파싱되는데, 인접하는 품사에 의해 '동사'가 아닌 '명사'로도 파싱되는 경우가 존재할 수 있다. 이 경우 구문 분석을 통해 두 개 이상의 구문 트리가 추출되고 구문 분석이 모호해지는 문제점이 있다.
따라서, 품사를 태깅한 입력 문장에 대하여 구문 분석시 인접하는 품사간 연결 관계에 의해서도 올바른 구문 분석을 수행하여 자동 평가 시스템의 성능을 향상시킬 수 있는 방안이 필요하다.
본 발명은 상기의 필요성에 의해 창안된 것으로서, 작문한 입력 문장에 대하여 엔-그램을 이용한 품사열을 생성하고 생성한 품사열에 대하여 서로 인접하는 품사간 연결 관계에 따라 정의한 규칙(샬로우 파싱: shallow parsing)을 기반으로 파싱함으로써 단순 문법적 오류뿐만 아니라 구문 분석의 오류를 검출하고 검출한 오류에 대하여 교정안을 제시하여 작문 평가의 정확도를 높인, 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 시스템 및 방법을 제공하는 데 그 목적이 있다.
이를 위하여 본 발명의 제1 측면에 따르면, 본 발명의 작문 자동 평가 장치는, 작문한 입력 문장을 최소 단위인 형태소 단위로 분리하는 입력문장 분리부; 분리한 각 형태소에 품사를 태깅하는 품사 태깅부; 상기 품사에 기초하여 각 문장의 구문(syntax) 구조를 분석하고 그 분석한 결과로서 구문 트리를 출력하는 구문 분석부; 상기 구문 분석부를 통해 출력된 구문 트리를 이용하여 어법에 맞는 문장인지 평가하는 문장 평가부; 상기 품사 태깅부에서 태깅한 각 품사에 대하여 엔-그램(n-gram)을 이용하여 품사열을 생성하고 생성한 품사열을 상호 인접하는 품사간의 연결 관계에 따라 정의한 정규문법(regular grammar) 규칙 및 문맥자유문법(context Free Grammar) 규칙을 기반으로 분석하여 구문 분석의 오류를 검출하는 오류 검출 장치를 포함하는 것을 특징으로 한다.
본 발명의 제2 측면에 따르면, 본 발명의 오류 검출 장치는, 입력 문장에 태깅된 각 품사에 대하여 엔-그램(n-gram)을 이용하여 일정 윈도우 단위의 품사열을 생성하는 품사열 생성부; 상기 품사열에 대하여 문맥자유문법(context Free Grammar) 규칙 및 정규문법(regular grammar) 규칙을 기반으로 파싱하여 상기 품사열의 밀접도를 계산하는 샬로우 파서; 상기 샬로우 파서를 통해 계산한 밀접도에 따라 오류를 검출하는 오류 검출부; 및 상기 오류 검출부를 통해 검출한 오류에 대하여 교정안을 제시하는 오류 교정부를 포함하는 것을 특징으로 한다.
본 발명의 제3 측면에 따르면, 본 발명의 작문 자동 평가를 위한 오류 검출 방법은, 작문한 문장에 태깅된 각 품사에 대하여 엔-그램(n-gram)을 이용하여 일정 윈도우 단위의 품사열을 생성하는 단계; 상기 품사열에 대하여 문맥자유문법(context Free Grammar) 규칙 및 정규문법(regular grammar) 규칙을 기반으로 파싱하여 상기 품사열의 밀접도를 계산하는 단계; 상기 계산한 밀접도에 따라 오류를 검출하는 단계; 및 검출한 오류에 대하여 교정안을 제시하여 상기 작문한 문장의 구문 분석에 대한 오류를 교정하도록 제공하는 단계를 포함하는 것을 특징으로 한다.
본 발명에 따르면, 작문한 입력 문장의 구문 분석시 언어의 정형적인 규칙(rule)뿐만 아니라 인접 품사간 의존적인 관계로 인한 규칙까지 고려하여 분석함으로써 문법적인 오류 검출의 정확도를 높여 작문 자동 평가 시스템의 성능을 향상시키는 효과가 있다.
또한, 미리 정의된 패턴에 따라 품사열을 생성하고 생성한 품사열 단위로 분석함으로써 기존 풀 파싱(full parsing)에 비해 구문 분석의 속도가 빠르고, 구문 해석의 애매성을 줄일 수 있으며, 오류의 유형도 세부적으로 검출이 가능한 효과가 있다.
도 1은 본 발명의 실시 예에 따른 작문 자동 평가를 위해 오류 검출 장치를 적용한 구성을 나타낸 도면이다.
도 2는 본 발명의 실시 예에 따른 오류 검출 장치의 세부 구성을 나타낸 도면이다.
도 3은 정규 문법의 예를 나타낸 표이다.
도 4는 본 발명의 실시 예에 따른 오류 검출 장치를 이용하여 작문 자동 평가를 위한 방법을 나타낸 흐름도이다.
도 5는 오류 검출의 구체적인 과정을 나타낸 흐름도이다.
도 6은 도 4의 오류 검출 방법을 통해 품사열을 생성하는 처리 과정을 나타낸 예시표이다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 실시 예를 상세하게 설명한다. 본 발명의 구성 및 그에 따른 작용 효과는 이하의 상세한 설명을 통해 명확하게 이해될 것이다. 본 발명의 상세한 설명에 앞서, 동일한 구성요소에 대해서는 다른 도면 상에 표시되더라도 가능한 동일한 부호로 표시하며, 공지된 구성에 대해서는 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 구체적인 설명은 생략하기로 함에 유의한다.
도 1은 본 발명의 실시 예에 따른 작문 자동 평가를 위해 오류 검출 장치를 적용한 구성을 나타낸 도면이다.
본 발명은 작문한 입력 문장을 분석하여 올바르게 작문이 이루어졌는지 평가하는 작문 자동 평가 장치(100)와, 작문 자동 평가시 구문 분석의 오류를 검출하고 검출한 오류에 대하여 교정안을 제시해 주는 오류 검출 장치(200)를 포함한다.
도 1에서는 본 발명의 이해를 돕기 위해 오류 검출에 대한 구성 즉, 오류 검출 장치(200)를 작문 자동 평가 장치(100)로부터 독립적으로 구성한 예를 도시하였으나, 이에 한정되지 않고 작문 자동 평가 장치(100)에 포함하여 하나의 장치로도 구현할 수 있다.
작문 자동 평가 장치(100)는 작문한 입력 문장을 데이터로 입력 받고, 입력받은 작문을 평가하기 위한 구성으로서 입력문장 분리부(110), 품사 태깅부(120), 구문 분석부(130), 문장 평가부(140) 등을 포함한다.
입력문장 분리부(110)는 입력 받은 작문(이하, 입력 문장)을 문장 및 형태소 단위로 분리한다.
여기서, 문장 분리는 여러 문장에서 마침표나 물음표, 느낌표 등의 마침 기호를 통해 문장 단위로 분리하는 것을 의미한다.
형태소 분리는 문장 분리를 통해 분리된 각 문장을 의미있는 최소 단위인 형태소 단위로 분리하는 것을 의미한다. 영작의 경우, 언어 특성상 조사가 단어 옆에 정렬되지 않기 때문에 의미있는 최소 단위인 형태소는 곧 단어가 될 수 있다.
품사 태깅부(120)는 입력문장 분리부(110)에서 분리한 각 형태소에 대하여 해당 품사를 태깅한다. 품사 태깅은 기 저장된 품사 사전의 지식을 참조하여 수행할 수 있다. 예컨대, 품사의 종류는 명사, 동사, 전치사, 형용사, 부사, 관사, 감탄사 등이 있다.
구문 분석부(130)는 품사 태깅부(120)에서 태깅한 품사에 기초하여 각 문장의 구문(syntax) 구조를 분석하고 그 분석한 결과로서 구문 트리를 추출한다. 일반적으로 문장의 구문을 분석하는 것을 파싱(parsing)이라 하고, 문자열이 문법에 의하여 생성될 수 있는지 파악하기 위하여 구문 트리를 출력시키는 프로그램을 파서(parser)라고 한다.
파싱시, 구문 분석부(130)는 구문 분석의 오류를 최소화하기 위해 품사를 태깅한 문장을 오류 검출 장치(200)로 전달하고, 오류 검출 장치(200)로부터 검출된 오류 정보를 받아 구문 트리에 반영한다.
문장 평가부(140)는 구문 분석부(130)에서 추출한 구문 트리를 참조하여 작문이 문법에 맞게 올바르게 이루어졌는지를 평가한다. 작문 평가의 최종 결과는 점수로 환산하여 출력할 수 있으며, 또는 정오답으로 구분하여 출력할 수 있다.
오류 검출 장치(200)는 구문 분석부(130)에서 전달받은 문장에 대하여 엔-그램(n-gram)을 이용하여 품사 열을 생성하고, 생성한 품사 열에 대하여 단순 문법 규칙을 토대로 분석함과 동시에 서로 인접하는 품사간 연결 관계에 따라 정의한 문법 규칙을 기반으로 분석함으로써 단순 영작 오류뿐 아니라 인접 품사간 연결 관계에 따른 구문 분석의 오류를 검출한다.
또한, 오류 검출 장치(200)는 검출한 오류를 표시하고, 오류에 대한 교정안을 구문 분석부(130)로 제시한다.
도 2는 본 발명의 실시 예에 따른 오류 검출 장치의 세부 구성을 나타낸 도면이다.
본 발명의 실시 예에 따른 오류 검출 장치(200)는 도시한 바와 같이 품사열 생성부(210), 샬로우 파서(shallow parser: 220), 오류 검출부(230), 오류 교정부(240), 정규문법 지식 DB(250), 문맥자유 문법 지식 DB(260) 등을 포함한다.
품사열 생성부(210)는 품사 태깅부(120)에서 태깅한 각 품사에 대하여 임의의 윈도우 사이즈로 묶는 엔-그램(n-gram)을 이용하여 각 품사에 대한 품사 열을 생성한다.
예를 들어, 입력 문장 "I went to go to school."은 형태소 분리 및 품사 태깅에 의해 'I/명사', 'went/동사', 'to/전치사', 'go/동사', 'to/전치사', 'school/명사'로 추출되고, 품사열 생성부(210)에서는 트라이그램(Tri-gram)을 적용하여 각 품사에 대한 품사열로서 'I went to', 'went to go', ' go to school', 'to school (null)', ' school (null) (null)' 등으로 생성할 수 있다.
품사열 생성부(210)는 미리 윈도우 사이즈를 설정해 두고, 설정한 윈도우 사이즈에 해당하는 품사열을 생성하여 오류 검출에 활용할 수 있다. 세밀한 검출을 하기 위해서는 바이그램(bi-gram), 트라이그램(Tri-gram)과 같이 윈도우 사이즈를 가변하여 각각의 품사열을 생성하고 분석할 수 있다.
샬로우 파서(220)는 품사열 생성부(210)에서 생성한 품사열에 대하여 정규문법(regular grammar) 규칙 및 문맥자유문법(Context Free Grammar: CFG) 규칙을 기반으로 인접하는 품사간 연결 관계를 고려하여 구 구조를 파싱한다.
문맥자유문법 규칙은 일반적으로 영문법이라고 하여 일반적인 문법을 정의한 것으로, 맞춤법이나 관사, 시제 등에 관한 규칙을 포함한다.
예를 들면, 3인칭 단수 주어 다음에 나오는 현재시점의 동사에는 s를 불이고, 단수 가산 명사의 앞에는 a 또는 an를 붙이는데 모음으로 시작하는 명사 앞에는 an을 붙이는 등의 규칙을 포함한다.
이러한 문맥자유문법 규칙은 문맥자유문법 지식 DB(260)에 저장하고 샬로우 파서(220)의 파싱시 참조하도록 제공한다.
정규문법 규칙은 일반 문법 즉, 문맥자유문법을 규칙으로 정의할 수 없는 예외를 규칙으로 정의한 것으로, 서로 인접하는 품사간 연결 관계 또는 밀접도에 따라 추가적으로 정의할 수 있다. 구체적으로, 도 4에 나타낸 표와 같이 철자, 띄어쓰기, 관사 형태, 관사 중복, 수의 불일치, 품사 혼용, 동사 형태 오류, 잘못된 연어, 잘못된 어순, 전치사 누락, 인칭, 불필요한 한정사, 불필요한 전치사 등에 관하여 규칙을 정의할 수 있다.
예를 들어, 보통 자음 앞에는 관사 a가 붙지만 자음의 첫 음절이 묵음인 명사의 경우 관사 an을 붙이는 것으로 정의한 것은 문맥자유문법이지만, 자음 명사 hoest의 앞에는 관사 a가 아닌 an이 붙는 것은 정규 문법이다. 즉, 문맥자유문법 규칙에 예외로 적용되는 명사를 별개의 규칙으로 추가한 것이 정규 문법이다.
또한, 정규문법 규칙의 다른 예는 'beggining'라는 오타가 나오면 'beginning'을 잘못 쓴 것으로 분석하고 오류 검출과 함께 교정안 'beginning'을 검출할 수 있다.
이러한 정규문법 규칙은 정규문법 지식 DB(250)에 저장하고 샬로우 파서(220)의 파싱시 참조하도록 제공한다.
따라서, 샬로우 파서(220)는 기 저장된 문맥자유문법 규칙의 지식을 이용하여 단순 문법의 오류를 직접적으로 분석하고, 정규문법 규칙을 이용하여 상호 인접한 품사간 연결 관계에 따른 품사열의 밀접도를 계산한다. 각 품사열의 밀접도가 높으면 해당 품사열을 명사구, 복합어, 목적어구, 종속절 등의 유도 트리로 생성하고, 밀접도가 낮으면 각 품사열을 이루는 단어를 구가 아닌 독립적인 단어로 유도 트리를 생성할 수 있다.
밀접도가 높고 낮다는 판단은 판단할 기준치를 설정해 두고 기준치에 비해 높고 낮음에 따라 판단할 수 있다. 또는 하나의 품사열로부터 유도 가능한 여러 유도 트리에 대하여 밀접도를 계산하고 계산한 밀접도에서 상대적으로 가장 높고 낮은 것으로 판단할 수 있다. 이 경우, 밀접도가 상대적으로 가장 높은 유도 트리를 선택하여 오류를 검출할 수 있다.
또한, 샬로우 파서(220)는 태깅된 품사에 대하여 오른쪽에서 왼쪽 방향(right-to-left)으로 이동(shift)하는 상향식(bottom-up chart) 챠트 파싱을 수행한다. 상향식 챠트 파싱은 일반 구문 분석을 위한 파싱이 아니기 때문에 전체를 대상으로 문장(S)를 만드는 것을 목표로 하지 않는다. 즉, 더 이상 새로 만들어지는 노드가 없는 경우에 파싱 진행을 중단한다.
오류 검출부(230)는 샬로우 파서(220)를 통해 생성한 분석 결과를 기초로, 구문 분석부(도 1의 130)에서 분석한 구문 트리로부터 오류를 검출한다. 이때, 오류 검출부(230)는 입력 문장을 통째로 검색하기 보다는 일정 구간의 열로 구분하는 엔-그램을 이용하여 검색함으로써 오류 검출의 성능이 빠르면서 통째로 하는 분석 방법에 비해 오류 검출도 정확하게 이루어질 수 있다.
오류 교정부(150)는 오류 검출부(140)를 통해 검출한 오류에 대하여 문맥자유문법 규칙 및 정규문법 규칙을 기반으로 교정안을 제시한다.
도 4는 이상의 오류 검출 장치를 이용하여 작문 자동 평가시 구문 분석의 오류를 검출하는 방법을 나타낸 흐름도이다.
먼저 작문 자동 평가 장치는 작문의 평가를 위해, 작문한 입력 문장을 입력받으면 입력받은 문장을 문장 및 형태소 단위로 분리한다(S100).
이후, 작문 자동 평가 장치가 품사 사전을 기반으로 각 형태소에 품사를 태깅한다(S200).
이후, 작문 자동 평가 장치는 태깅한 품사에 기초하여 분리한 문장에 대하여 구문 분석을 수행하고 그 분석 결과로서 구문 트리를 추출한다(S300).
또한, 작문 자동 평가 장치는 추출한 구문 트리에 대하여 오류가 있는지를 판단하기 위해 샬로우 파서를 이용하여 각 품사에 대한 품사열을 생성하고 생성한 품사열을 단위로 오류를 검출한다(S400).
이후, 작문 자동 평가 장치는 검출한 오류를 교정하고 교정된 구문 트리를 이용하여 작문을 평가한다(S500, S600). 교정은 상기의 오류 검출 과정(S400)을 통해 획득한 교정안을 이용하여 수행할 수 있다.
도 5는 상기의 오류 검출 과정(S400)에 대한 세부 방법을 나타낸 흐름도이다.
상기의 오류 검출 과정(S400)은 작문 자동 평가 장치내 또는 작문 자동 평가 장치와 별개로 구비된 오류 검출 장치를 통해 구현할 수 있다.
즉, 품사 태깅 과정(S200)을 통해 태깅한 각 품사에 대하여 오류 검출 장치는 일정 윈도우 단위로 품사 열을 생성한다(S410).
일정 윈도우란 서로 인접하는 품사의 2개 또는 3개, 그 이상(n개)을 포함하여 그룹을 짓는 것을 의미하는 것으로, 서로 인접하는 품사마다 2개씩 그룹을 짓는 방식은 바이-그램(bi-gram)이고, 3개씩 그룹을 짓는 방식은 트라이-그램(tri-gram)이다.
오류 검출 장치는 이러한 엔-그램(바이-그램, 트라이-그램 등)을 이용하여 기 설정한 단위에 따라 품사 열을 생성한다.
이후, 오류 검출 장치는 품사열 단위로 샬로우 파싱을 수행한다(S420).
샬로우 파싱은 기 저장된 문맥자유문법(Context Free Grammar) 규칙 및 정규문법(regular grammar) 규칙을 기반으로 인접하는 품사간 밀접도에 고려하여 구문 구조를 분석한다.
구체적으로, 기 저장된 문맥자유문법(Context Free Grammar) 규칙의 지식을 이용하여 단순 문법의 오류를 직접적으로 분석하고, 이와 동시에 기 저장된 정규문법(regular grammar) 규칙을 이용하여 상호 인접한 품사간 연결 관계에 따른 품사열의 밀접도를 계산한다. 각 품사열의 밀접도가 높으면 해당 품사열을 명사구, 복합어, 목적어구, 종속절 등의 유도 트리로 생성하고, 밀접도가 낮으면 각 품사열을 이루는 단어를 구가 아닌 독립적인 단어로 유도 트리를 생성할 수 있다.
이후, 오류 검출 장치는 분석한 결과를 기초로 구문 분석을 통해 추출한 구문 트리의 오류를 검출하고 검출한 오류에 대하여 교정안을 제시한다(S430, S440).
도 6은 도 4의 오류 검출 방법을 통해 품사열을 생성하는 처리 과정을 나타낸 예시표이다.
이상의 설명은 본 발명을 예시적으로 설명한 것에 불과하며, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 본 발명의 기술적 사상에서 벗어나지 않는 범위에서 다양한 변형이 가능할 것이다. 따라서 본 발명의 명세서에 개시된 실시 예들은 본 발명을 한정하는 것이 아니다. 본 발명의 범위는 아래의 특허청구범위에 의해 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술도 본 발명의 범위에 포함되는 것으로 해석해야 할 것이다.
종래 작문 자동 평가는 구문 분석시 주변 단어들의 어휘, 품사, 의미 및 문맥적인 연관 관계를 복합적으로 고려하지 않고 단순히 품사열 정보에만 의존하기 때문에 그 정확성이 크게 떨어졌으나, 본 발명은 작문한 입력 문장에 대하여 엔-그램을 이용한 품사열을 생성하고 생성한 품사열에 대하여 단순 영작 오류 규칙과 함께 서로 인접하는 품사간 연결 관계에 따라 미리 정의된 규칙을 기반으로 분석함으로써 단순 문법적인 오류뿐 아니라 구문 분석의 오류를 검출하여 작문에 대한 자동 평가의 성능을 향상시킬 수 있다. 이러한 점에서 본 발명은 단순히 평가 알고리즘으로 적용하는 것이 아닌, 향후 대학 입시 시험이나 국내 대기업 등이 수행하는 영어 능력 평가, 주관식 평가 등에 적용하여 자동 평가가 가능하도록 함으로써 산업상 이용 가능성이 있는 유용한 발명이다.
100: 작문 자동 평가 장치 110: 입력문장 분리부
120: 품사 태깅부 130: 구문 분석부
140: 문장 평가부 200: 오류 검출 장치
210: 품사열 생성부 220: 샬로우 파서
230: 오류 검출부 240: 오류 교정부
250: 정규문법 지식 DB 260: 문맥자유문법 지식 DB

Claims (9)

  1. 작문한 입력 문장을 최소 단위인 형태소 단위로 분리하는 입력문장 분리부;
    분리한 각 형태소에 품사를 태깅하는 품사 태깅부;
    상기 품사에 기초하여 각 문장의 구문(syntax) 구조를 분석하고 그 분석한 결과로서 구문 트리를 출력하는 구문 분석부;
    상기 구문 분석부를 통해 출력된 구문 트리를 이용하여 어법에 맞는 문장인지 평가하는 문장 평가부;
    상기 품사 태깅부에서 태깅한 각 품사에 대하여 엔-그램(n-gram)을 이용하여 품사열을 생성하고 생성한 품사열을 상호 인접하는 품사간의 연결 관계에 따라 정의한 정규문법(regular grammar) 규칙 및 문맥자유문법(context Free Grammar) 규칙을 기반으로 밀접도를 분석하여, 상기 밀접도가 기 설정된 기준치보다 높으면 품사열의 연결 관계를 고려한 구문 트리를 생성하고, 그렇지 않을 경우 품사열의 연결 관계를 고려하지 않은 유도 트리를 생성하여, 생성된 상기 트리를 이용하여 구문 분석의 오류를 검출하며, 검출한 오류에 대하여 교정안을 상기 구문 분석부로 제공하는 오류 검출 장치
    를 포함하는 것을 특징으로 하는 작문 자동 평가 장치.
  2. 입력 문장에 태깅된 각 품사에 대하여 엔-그램(n-gram)을 이용하여 일정 윈도우 단위의 품사열을 생성하는 품사열 생성부;
    상기 품사열에 대하여 문맥자유문법(context Free Grammar) 규칙 및 정규문법(regular grammar) 규칙을 기반으로 파싱하여 상기 품사열의 밀접도를 계산하여, 상기 밀접도가 기 설정된 기준치보다 높으면 품사열의 연결 관계를 고려한 구문 트리를 생성하고, 그렇지 않을 경우 품사열의 연결 관계를 고려하지 않은 유도 트리를 생성하는 샬로우 파서;
    상기 샬로우 파서를 통해 생성된 트리를 이용하여 오류를 검출하는 오류 검출부; 및
    상기 오류 검출부를 통해 검출한 오류에 대하여 교정안을 제시하는 오류 교정부
    를 포함하는 것을 특징으로 하는 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치.
  3. 제 2 항에 있어서,
    상기 문맥자유문법 규칙은 맞춤법이나 관사, 시제를 포함한 일반 문법을 정규화한 규칙인 것을 특징으로 하는 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치.
  4. 제 2 항에 있어서,
    상기 정규문법 규칙은 상기 문맥자유문법 규칙으로 정의할 수 없는 예외 규칙, 서로 인접하는 품사간 연결 관계 또는 밀접도에 따라 정의할 수 있는 규칙을 포함하는 것을 특징으로 하는 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치.
  5. 제 2 항에 있어서,
    상기 샬로우 파서는
    상기 품사열에 대하여 계산한 밀접도가 기준치보다 높으면 명사구, 복합어, 목적어구, 종속절을 포함한 구문 트리 중 해당 트리를 생성하고, 밀접도가 기준치보다 낮으면 각 품사열을 이루는 단어를 구가 아닌 독립적인 단어로 유도 트리를 생성하는 것을 특징으로 하는 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치.
  6. 작문한 문장에 대한 자동 평가에서의 오류 검출 방법으로서,
    상기 작문한 문장에 태깅된 각 품사에 대하여 엔-그램(n-gram)을 이용하여 일정 윈도우 단위의 품사열을 생성하는 단계;
    상기 품사열에 대하여 문맥자유문법(context Free Grammar) 규칙 및 정규문법(regular grammar) 규칙을 기반으로 파싱하여 상기 품사열의 밀접도를 계산하는 단계;
    상기 밀접도가 기 설정된 기준치보다 높으면 품사열의 연결 관계를 고려한 구문 트리를 생성하고, 그렇지 않을 경우 품사열의 연결 관계를 고려하지 않은 유도 트리를 생성하여, 생성된 상기 트리를 이용하여 구문 분석의 오류를 검출하는 단계; 및
    검출한 오류에 대하여 교정안을 제시하여 상기 작문한 문장의 구문 분석에 대한 오류를 교정하도록 제공하는 단계
    를 포함하는 것을 특징으로 하는 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 방법.
  7. 제 6 항에 있어서,
    상기 문맥자유문법 규칙은 맞춤법이나 관사, 시제를 포함한 일반 문법을 정규화한 규칙인 것을 특징으로 하는 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 방법.
  8. 제 6 항에 있어서,
    상기 정규문법 규칙은 상기 문맥자유문법 규칙으로 정의할 수 없는 예외 규칙, 서로 인접하는 품사간 연결 관계 또는 밀접도에 따라 정의할 수 있는 규칙을 포함하는 것을 특징으로 하는 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 방법.
  9. 제 6 항에 있어서,
    상기 품사열의 밀접도를 계산하는 단계는,
    상기 품사열에 대하여 계산한 밀접도가 기준치보다 높으면 명사구, 복합어, 목적어구, 종속절을 포함한 구문 트리 중 해당 구문 트리를 생성하고, 밀접도가 기준치보다 낮으면 각 품사열을 이루는 단어를 구가 아닌 독립적인 단어로 유도 트리를 생성하는 것을 특징으로 하는 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 방법.
KR1020110125967A 2011-11-29 2011-11-29 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법 KR101475284B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020110125967A KR101475284B1 (ko) 2011-11-29 2011-11-29 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법
CN201280019540.3A CN103493041B (zh) 2011-11-29 2012-10-24 使用浅层句法分析器自动评估句子的自动句子评估装置及其错误检测设备和方法
PCT/KR2012/008751 WO2013081301A1 (ko) 2011-11-29 2012-10-24 작문 자동 평가를 위해 샬로우 파서를 이용한 문장 자동 평가 장치, 이를 위한 오류 검출 장치 및 이를 위한 방법
US14/076,641 US9336199B2 (en) 2011-11-29 2013-11-11 Automatic sentence evaluation device using shallow parser to automatically evaluate sentence, and error detection apparatus and method of the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110125967A KR101475284B1 (ko) 2011-11-29 2011-11-29 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20130059795A KR20130059795A (ko) 2013-06-07
KR101475284B1 true KR101475284B1 (ko) 2014-12-23

Family

ID=48535713

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110125967A KR101475284B1 (ko) 2011-11-29 2011-11-29 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법

Country Status (4)

Country Link
US (1) US9336199B2 (ko)
KR (1) KR101475284B1 (ko)
CN (1) CN103493041B (ko)
WO (1) WO2013081301A1 (ko)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140067394A1 (en) * 2012-08-28 2014-03-06 King Abdulaziz City For Science And Technology System and method for decoding speech
JP6235373B2 (ja) * 2013-03-02 2017-11-22 株式会社EduLab 言語解析方法及びシステム
US10452779B2 (en) * 2013-05-07 2019-10-22 Paul V. Haley System for knowledge acquisition
KR101482430B1 (ko) * 2013-08-13 2015-01-15 포항공과대학교 산학협력단 전치사 교정 방법 및 이를 수행하는 장치
US9747280B1 (en) * 2013-08-21 2017-08-29 Intelligent Language, LLC Date and time processing
KR102026967B1 (ko) * 2014-02-06 2019-09-30 한국전자통신연구원 n-gram 데이터 및 언어 분석에 기반한 문법 오류 교정장치 및 방법
KR101687116B1 (ko) * 2015-09-21 2017-01-12 주식회사 스토리유 자기소개서 케어 시스템
EP3472732A4 (en) 2016-06-21 2020-01-15 Pearson Education, Inc. SYSTEM AND METHOD FOR THE AUTOMATED EVALUATION OF SYSTEM ROUTING
US10242670B2 (en) * 2016-09-21 2019-03-26 Intel Corporation Syntactic re-ranking of potential transcriptions during automatic speech recognition
KR20190004525A (ko) * 2017-07-04 2019-01-14 주식회사 마인즈랩 문장 학습 시스템 및 문장 학습 방법
KR102008145B1 (ko) * 2017-09-20 2019-08-07 장창영 문장 습관 분석 장치 및 방법
US10740555B2 (en) * 2017-12-07 2020-08-11 International Business Machines Corporation Deep learning approach to grammatical correction for incomplete parses
US11520992B2 (en) 2018-03-23 2022-12-06 Servicenow, Inc. Hybrid learning system for natural language understanding
US10713441B2 (en) * 2018-03-23 2020-07-14 Servicenow, Inc. Hybrid learning system for natural language intent extraction from a dialog utterance
CN109086272B (zh) * 2018-08-01 2023-02-17 浙江蓝鸽科技有限公司 句型识别方法及其系统
CN110147546B (zh) * 2019-04-03 2023-05-26 苏州驰声信息科技有限公司 一种英语口语的语法校正方法及装置
CN110164422A (zh) * 2019-04-03 2019-08-23 苏州驰声信息科技有限公司 一种口语考试的多维度评估方法及装置
CN110245348B (zh) * 2019-05-17 2023-11-24 北京百度网讯科技有限公司 一种意图识别方法及系统
US11487945B2 (en) 2019-07-02 2022-11-01 Servicenow, Inc. Predictive similarity scoring subsystem in a natural language understanding (NLU) framework
CN110750989B (zh) * 2019-10-28 2023-09-19 北京金山数字娱乐科技有限公司 一种语句分析的方法及装置
US11481417B2 (en) 2019-11-06 2022-10-25 Servicenow, Inc. Generation and utilization of vector indexes for data processing systems and methods
US11468238B2 (en) 2019-11-06 2022-10-11 ServiceNow Inc. Data processing systems and methods
US11455357B2 (en) 2019-11-06 2022-09-27 Servicenow, Inc. Data processing systems and methods
CN111104789B (zh) * 2019-11-22 2023-12-29 华中师范大学 文本评分方法、装置和系统
US11393475B1 (en) * 2021-01-13 2022-07-19 Artificial Solutions Iberia S.L Conversational system for recognizing, understanding, and acting on multiple intents and hypotheses

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297585A (ja) * 2001-03-30 2002-10-11 Ricoh Co Ltd 英文名詞句の区分方法,英文構文情報生成方法および装置
KR100892004B1 (ko) * 2008-05-21 2009-04-07 주식회사 청담러닝 영어 작문 학습 시스템에서, 동사 중심의 자동 문법오류검출 및 교정정보 제공 장치 및 그 방법

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61217871A (ja) * 1985-03-25 1986-09-27 Toshiba Corp 翻訳処理装置
JPH02159674A (ja) * 1988-12-13 1990-06-19 Matsushita Electric Ind Co Ltd 意味解析装置と構文解析装置
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
KR100413784B1 (ko) * 1997-04-29 2004-02-14 삼성전자주식회사 절단위 분할기를 갖춘 영한 번역 장치 및 그영어 해석 방법
US6816830B1 (en) * 1997-07-04 2004-11-09 Xerox Corporation Finite state data structures with paths representing paired strings of tags and tag combinations
US6243669B1 (en) * 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6782505B1 (en) * 1999-04-19 2004-08-24 Daniel P. Miranker Method and system for generating structured data from semi-structured data sources
US6901360B1 (en) * 1999-12-16 2005-05-31 Xerox Corporation System and method for transferring packed linguistic structures
US20010047346A1 (en) * 2000-04-10 2001-11-29 Dejian Liu Artificial intelligence and computer interface
US7315809B2 (en) * 2000-04-24 2008-01-01 Microsoft Corporation Computer-aided reading system and method with cross-language reading wizard
WO2001086491A2 (en) * 2000-05-11 2001-11-15 University Of Southern California Machine translation techniques
US7003444B2 (en) * 2001-07-12 2006-02-21 Microsoft Corporation Method and apparatus for improved grammar checking using a stochastic parser
US7080004B2 (en) * 2001-12-05 2006-07-18 Microsoft Corporation Grammar authoring system
US7289948B1 (en) * 2002-01-07 2007-10-30 At&T Corp. Systems and methods for regularly approximating context-free grammars through transformation
US8849648B1 (en) * 2002-12-24 2014-09-30 At&T Intellectual Property Ii, L.P. System and method of extracting clauses for spoken language understanding
JP3998668B2 (ja) * 2004-07-14 2007-10-31 沖電気工業株式会社 形態素解析装置、方法及びプログラム
KR20080028655A (ko) * 2006-09-27 2008-04-01 한국전자통신연구원 품사 태깅 장치 및 태깅 방법
CN101013421B (zh) * 2007-02-02 2012-06-27 清华大学 基于规则的汉语基本块自动分析方法
US7908552B2 (en) * 2007-04-13 2011-03-15 A-Life Medical Inc. Mere-parsing with boundary and semantic driven scoping
JP2010048953A (ja) * 2008-08-20 2010-03-04 Toshiba Corp 対話文生成装置
KR101092356B1 (ko) * 2008-12-22 2011-12-09 한국전자통신연구원 상호 정보를 이용한 형태소 품사 태깅 장치 및 방법
KR101594057B1 (ko) * 2009-08-19 2016-02-15 삼성전자주식회사 텍스트 데이터의 처리 방법 및 장치
CN102214166B (zh) * 2010-04-06 2013-02-20 三星电子(中国)研发中心 基于句法分析和层次模型的机器翻译系统和方法
US8781810B2 (en) * 2011-07-25 2014-07-15 Xerox Corporation System and method for productive generation of compound words in statistical machine translation
US8713031B1 (en) * 2011-09-06 2014-04-29 Bryant Christopher Lee Method and system for checking citations
US20140082003A1 (en) * 2012-09-17 2014-03-20 Digital Trowel (Israel) Ltd. Document mining with relation extraction

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297585A (ja) * 2001-03-30 2002-10-11 Ricoh Co Ltd 英文名詞句の区分方法,英文構文情報生成方法および装置
KR100892004B1 (ko) * 2008-05-21 2009-04-07 주식회사 청담러닝 영어 작문 학습 시스템에서, 동사 중심의 자동 문법오류검출 및 교정정보 제공 장치 및 그 방법

Also Published As

Publication number Publication date
US20140067379A1 (en) 2014-03-06
US9336199B2 (en) 2016-05-10
CN103493041A (zh) 2014-01-01
KR20130059795A (ko) 2013-06-07
CN103493041B (zh) 2016-01-27
WO2013081301A1 (ko) 2013-06-06

Similar Documents

Publication Publication Date Title
KR101475284B1 (ko) 작문 자동 평가를 위해 샬로우 파서를 이용한 오류 검출 장치 및 방법
KR101629415B1 (ko) 문법 오류 검출 방법 및 이를 위한 오류검출장치
Rozovskaya et al. Annotating ESL errors: Challenges and rewards
US7424675B2 (en) Language input architecture for converting one text form to another text form with tolerance to spelling typographical and conversion errors
US9542383B2 (en) Example-based error detection system for automatic evaluation of writing, method for same, and error detection apparatus for same
Janssen NeoTag: a POS Tagger for Grammatical Neologism Detection.
Tesfaye A rule-based Afan Oromo Grammar Checker
Lease et al. Recognizing disfluencies in conversational speech
CN110147546B (zh) 一种英语口语的语法校正方法及装置
Duran et al. Some issues on the normalization of a corpus of products reviews in Portuguese
Lee et al. Building an automated English sentence evaluation system for students learning English as a second language
Antonsen Improving feedback on L2 misspellings–an FST approach
Kutuzov et al. Semi-automated typical error annotation for learner English essays: Integrating frameworks
Beaufort et al. Automation of dictation exercises. A working combination of CALL and NLP.
Ab Aziz et al. Automated marking system for short answer examination (AMS-SAE)
Rosen Building and Using Corpora of Non-Native Czech.
Kabra et al. Auto spell suggestion for high quality speech synthesis in hindi
Bexte et al. LeSpell-A Multi-Lingual Benchmark Corpus of Spelling Errors to Develop Spellchecking Methods for Learner Language
Ehsan et al. Statistical Machine Translation as a Grammar Checker for Persian Language
Laki Investigating the Possibilities of Using SMT for Text Annotation
KR101747924B1 (ko) 한국어 철자 검사 방법 및 이를 실행하는 장치
Durst et al. Using automatic morphological tools to process data from a learner corpus of hungarian
KR102604758B1 (ko) 사용자 정보를 이용한 맞춤법 검사 시스템 및 방법
Hassanali et al. Measuring language development in early childhood education: a case study of grammar checking in child language transcripts
Guirao et al. A “toolbox” for tagging the Spanish C-ORAL-ROM corpus

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right