KR20110068491A - 문법 오류 시뮬레이션 장치 및 방법 - Google Patents
문법 오류 시뮬레이션 장치 및 방법 Download PDFInfo
- Publication number
- KR20110068491A KR20110068491A KR1020090125470A KR20090125470A KR20110068491A KR 20110068491 A KR20110068491 A KR 20110068491A KR 1020090125470 A KR1020090125470 A KR 1020090125470A KR 20090125470 A KR20090125470 A KR 20090125470A KR 20110068491 A KR20110068491 A KR 20110068491A
- Authority
- KR
- South Korea
- Prior art keywords
- error
- grammar
- grammatical
- sentence
- learner
- Prior art date
Links
- 238000004088 simulation Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000014509 gene expression Effects 0.000 claims description 28
- 238000005070 sampling Methods 0.000 claims description 10
- 238000011161 development Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 210000002683 foot Anatomy 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000013179 statistical model Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
- G06Q50/2053—Education institution selection, admissions, or financial aid
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
- G06Q50/2057—Career enhancement or continuing education service
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Mathematical Optimization (AREA)
- Computational Mathematics (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
Abstract
본 발명은 문법 오류 시뮬레이션 장치 및 방법에 관한 것으로서, 이 장치는, 기본 문장을 이루는 각 단어에 대해 문법 오류 확률을 부여하는 오류 확률 부여부, 기본 문장을 이루는 각 단어에 대해 문법 오류 타입을 결정하는 오류 타입 결정부, 그리고 결정된 문법 오류 타입에 따른 오류를 기본 문장을 이루는 각 단어에 적용하여 문법 오류가 반영된 오류 문장을 생성하는 오류 문장 생성부를 포함한다. 본 발명에 의하면, 학습자 수준별 문법적 지식을 반영한 실질적 문법 오류가 포함된 문장을 생성할 수 있다.
문법 오류 시뮬레이션, 사용자 시뮬레이션, 마코프 로직망, 대화 시스템
Description
본 발명은 문법 오류 시뮬레이션 장치 및 방법에 관한 것으로, 보다 상세하게는 학습자 수준에 맞는 문법 오류를 생성시키는 문법 오류 시뮬레이션 장치 및 방법에 관한 것이다.
외국어 교육의 중요성이 계속적으로 강조되면서 이를 위한 다양한 교육 방법론이 개발되고 있다. 그런데 현재 존재하는 대부분의 외국어 교육 방법은 문제 풀이 및 암기 위주로 되어 있고, 읽기나 쓰기 부분에 특화되어 있다. 이와 같은 외국어 교육 방법의 한계를 극복하기 위한 하나의 방안으로 대화 시스템을 이용한 외국어 교육 방법이 개발되어 이용되고 있다.
외국어 학습자는 대화 시스템과 대화를 통해 실생활에 필요한 다양한 표현을 자연스럽게 습득할 수 있다. 이러한 대화 시스템의 개발 및 평가는 실제 사용자가 대화 시스템을 반복적으로 사용하는 과정을 거쳐 이루어진다. 그러나 실제 사용자를 이용하여 대화 시스템을 개발한다면 실제 사용자를 고용하여야 하므로 금전적, 시간적인 비용이 많이 소요되고 개발자가 원하는 시간이나 장소에서 사용자가 대화 시스템을 사용하는 것이 어려울 수 있다.
따라서 실제 사용자를 대신하여 대화 시스템과 대화를 주고 받을 수 있는 사용자 시뮬레이터가 개발되어 사용되고 있다. 사용자 시뮬레이터는 사용자의 의도를 추측하고 사용자 의도를 실제 자연어로 발화한다. 그러나 실제 사용자는 다양한 문법적 오류가 포함된 문장을 발화하지만, 사용자 시뮬레이터는 문법적 오류가 없는 문장을 생성하여 발화하므로 현실성이 떨어지고, 결국 이러한 사용자 시뮬레이터에 의하면 대화 시스템의 올바른 개발이나 평가가 이루어질 수 없게 된다.
본 발명이 해결하고자 하는 과제는 문법 오류가 포함된 문장을 생성하는 문법 오류 시뮬레이션 장치 및 방법을 제공하는 것이다.
이러한 기술적 과제를 해결하기 위한 본 발명의 실시예에 따른 문법 오류 시뮬레이션 장치는, 기본 문장을 이루는 각 단어에 대해 문법 오류 확률을 부여하는 오류 확률 부여부, 상기 기본 문장을 이루는 각 단어에 대해 문법 오류 타입을 결정하는 오류 타입 결정부, 그리고 상기 결정된 문법 오류 타입에 따른 오류를 상기 기본 문장을 이루는 각 단어에 적용하여 문법 오류가 반영된 오류 문장을 생성하는 오류 문장 생성부를 포함한다.
상기 오류 확률 부여부는 마코프 로직망(Markov Logic Network)에 따라 상기 문법 오류 확률을 부여할 수 있다.
상기 마코프 로직망은 복수의 논리식에 기초하여 생성되며, 학습자 수준에 따라 분류되어 있는 학습자 발화 말뭉치를 이용하여 상기 학습자 수준별로 훈련될 수 있다.
상기 복수의 논리식은 상기 기본 문장을 이루는 각 단어의 품사를 기초로 생성되는 기초 논리식을 포함할 수 있다.
상기 복수의 논리식은 상기 학습자 발화 말뭉치에 포함되어 있는 학습자 문법 오류를 기초로 생성되는 분석적 논리식을 포함할 수 있다.
상기 학습자 문법 오류는 대상 언어의 문법 규칙을 과도하게 사용하여 생성되는 오류, 상기 대상 언어의 문법 규칙에 대한 지식 부족으로 생성되는 오류 및 학습자 언어의 문법 규칙을 상기 대상 언어에 사용하여 생성되는 오류 중 적어도 하나를 포함할 수 있다.
상기 복수의 논리식은 확률적 샘플링에 의하여 발생할 수 있는 중첩된 문법 오류를 제한하는 오류 제한 논리식을 포함할 수 있다.
상기 오류 타입 결정부는 상기 문장을 이루는 각 단어에 대해 샘플링 기법을 통하여 상기 문법 오류 타입을 결정할 수 있다.
본 발명의 다른 태양에 따른 사용자 시뮬레이션 장치는 상기한 문법 오류 시뮬레이션 장치 중 어느 하나를 포함한다.
본 발명의 다른 태양에 따른 언어 학습 시스템은 상기한 문법 오류 시뮬레이션 장치 중 어느 하나를 포함한다.
본 발명의 다른 태양에 따른 문법 오류 시뮬레이션 방법은, 기본 문장을 이루는 각 단어에 대해 문법 오류 확률을 부여하는 단계, 상기 기본 문장을 이루는 각 단어에 대해 문법 오류 타입을 결정하는 단계, 그리고 상기 결정된 문법 오류 타입에 따른 오류를 상기 기본 문장을 이루는 각 단어에 적용하여 문법 오류가 반영된 오류 문장을 생성하는 단계를 포함한다.
상기 오류 확률 부여 단계는 마코프 로직망(Markov Logic Network)에 따라 상기 문법 오류 확률을 부여하는 단계를 포함할 수 있다.
상기 오류 타입 결정 단계는 상기 문장을 이루는 각 단어에 대해 샘플링 기 법을 통하여 상기 문법 오류 타입을 결정하는 단계를 포함할 수 있다.
본 발명의 다른 태양에 따른 사용자 시뮬레이션 방법은 상기한 문법 오류 시뮬레이션 방법 중 어느 하나를 포함한다.
본 발명의 다른 태양에 따른 언어 학습 제공 방법은 상기한 문법 오류 시뮬레이션 방법 중 어느 하나를 포함한다.
본 발명의 다른 태양에 따른 컴퓨터로 읽을 수 있는 매체는 상기한 문법 오류 시뮬레이션 방법 중 어느 하나를 컴퓨터에 실행시키기 위한 프로그램을 기록한다.
이와 같이 본 발명에 의하면, 학습자 수준별 문법적 지식을 반영한 실질적 문법 오류가 포함된 문장을 생성할 수 있다. 또한 이를 이용하여 언어 학습 대화 시스템을 개발하거나 평가함으로써 언어 학습 대화 시스템의 개발 효율성 및 신뢰성을 높일 수 있다.
그러면 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다.
먼저, 도 1을 참고하여 본 발명의 실시예에 따른 문법 오류 시뮬레이션 장치에 대하여 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 문법 오류 시뮬레이션 장치를 설명하기 위 한 블록도이다.
본 발명의 실시예에 따른 문법 오류 시뮬레이션 장치(10)는 오류 확률 부여부(11), 오류 타입 결정부(13) 및 오류 문장 생성부(15)를 포함하며, 대화 시스템(30)에 연결되어 있는 사용자 시뮬레이션 장치(20)와 연결되어 있다.
문법 오류 시뮬레이션 장치(10)는 사용자 시뮬레이션 장치(20)로부터 문법 오류가 없는 문장(이하, 사용자 시뮬레이션 장치(20)로부터의 문법 오류가 없는 문장을 '기본 문장'이라 함)을 제공받고, 기본 문장에 기초하여 학습자의 외국어 수준에 따라 문법 오류가 반영된 문장(이하, 문법 오류가 반영된 문장을 '오류 문장'이라 함)을 생성하며, 오류 문장을 다시 사용자 시뮬레이션 장치(20)에 제공한다. 이때, 오류 문장은 문법 오류가 포함되어 있지 않을 수도 있으며, 오류 문장에 문법 오류가 포함되는지 여부는 오류 문장을 생성할 때의 확률에 따라 결정된다.
대화 시스템(30)은 실제로는 예를 들면 ARS 시스템, 안내 시스템, 언어 학습 시스템 등과 같이 사용자와 음성이나 문자 등을 이용하여 의사 소통을 함으로써 사용자에게 해당 서비스를 제공하는 시스템이다. 대화 시스템(30)은 사용자 단말기(도시하지 않음)와 통신망을 통하여 연결되거나 사용자와 직접 대면하여 사용자로부터 입력된 음성 또는 문자를 인식하고 인식된 음성이나 문자에 기초하여 사용자의 의도를 파악하며, 사용자 의도에 적합한 응답을 결정하여 이에 맞는 시스템 발화를 생성한 후 생성된 시스템 발화를 음성으로 합성하여 스피커로 출력하거나 텍스트로 변환하여 모니터 등을 통해 출력한다.
그러나 본 발명의 실시예에서의 대화 시스템(30)은 대화 시스템(30)의 개발 이나 평가를 위하여 실제 사용자 대신 사용자 시뮬레이션 시스템(20)과 연결되어 사용된다. 그러나 그렇다 하더라도 대화 시스템(30)은 실제 사용자와 대화하는 것과 동일한 방식으로 사용자 시뮬레이션 시스템(20)과 의사 소통을 한다. 즉 대화 시스템(30)은 사용자 시뮬레이션 장치(20)로부터 출력되는 음성 또는 문자를 인식하고 이에 대한 응답을 생성하여 사용자 시뮬레이션 장치(20)에 제공하며 서로 대화를 주고 받는다.
사용자 시뮬레이션 장치(20)는 실제 사용자를 대신하여 대화 시스템(30)과 서로 대화를 주고 받는 장치로서, 사용자의 의도를 시뮬레이션하고 사용자 발화를 시뮬레이션하여 대화 시스템(30)과 대화를 주고받는다. 좀더 상세하게 설명하면, 사용자 시뮬레이션 장치(20)는 대화 시스템(30)으로부터 음성 또는 문자로 이루어진 시스템 발화를 입력 받은 후 사용자가 현재 대화 상황에서 다음 발화 차례에 어떠한 의도를 표현할 것인가를 시뮬레이션 하여 사용자 의도를 생성하고, 사용자 의도에 맞는 자연어 발화를 생성한다. 이때 자연어 발화는 문법 오류가 없는 문장으로 형성된다. 사용자 시뮬레이션 장치(20)는 문법 오류 시뮬레이션 장치(10)에 이 기본 문장을 제공하고 문법 오류 시뮬레이션 장치(10)로부터 오류 문장을 제공받는다. 그런 후 사용자 시뮬레이션 장치(20)는 오류 문장을 음성으로 합성하여 출력하거나 텍스트로 변환하여 대화 시스템(30)에 제공한다. 이와 달리, 문법 오류 시뮬레이션 장치(10)가 오류 문장을 사용자 시뮬레이션 장치(20)에 전달하지 않고, 직접 음성으로 합성하여 출력하거나 텍스트로 변환하여 대화 시스템(30)에 제공할 수도 있다.
그러면 도 2를 도 1과 함께 참고하여 본 발명의 실시예에 따른 문법 오류 시뮬레이션 장치(10)에 대하여 좀 더 상세하게 설명한다.
도 2는 본 발명의 실시예에 따라 문장에 문법 오류를 반영하는 예를 설명하기 위한 도면이다.
오류 확률 부여부(11)는 마코프 로직(Markov Logic)을 이용하여 기본 문장을 이루는 각 단어에 대해 문법 오류 확률을 부여한다. 마코프 로직은 통계적 모델과 지식 모델을 하나의 틀 안에서 다룰 수 있는 기계 학습 기법 중 하나로서, 오류 확률 부여부(11)는 비원어민이 흔히 범하는 문법적 오류를 다양한 유형으로 나누어 디자인된 논리식을 통하여 생성된 마코프 로직망(Markov Logic Network)으로부터 확률적 추론을 수행한다.
도 2를 참고하면, 오류 확률 부여부(11)는 예를 들어 기본 문장('He wants to go to a movie theater')(OS)을 이루는 각 단어(He, wants, to, go, to, a, movie, theater)에 대해 문법 오류 타입별로 문법 오류 확률(EP)을 부여한다. 즉, 'wants'라는 단어에는 'v_agr_sub'라는 문법 오류가 일어날 확률은 0.371이고 문법 오류가 안 일어날 확률(none)은 0.449이며, 'a' 단어는 'at_del'라는 문법 오류가 일어날 확률은 0.355이고 문법 오류가 안 일어날 확률(none)은 0.506이다. 물론 이러한 확률은 각 단어가 문장 내에서 어느 위치에서 주위 단어와 어떠한 연계를 가지고 사용되었는가에 따라 달라질 수 있으며, 도 2에서는 다만 예를 든 것에 불과하다.
오류 타입 결정부(13)는 기본 문장(OS)을 이루는 각 단어가 가지는 확률에 따라 샘플링 기법 등을 통하여 어떠한 문법 오류 타입이 적용될지 결정한다. 문법 오류 타입은 학습자가 실제로 일으킬 수 있는 모든 문법 오류에 대하여 정의되어 사용되며, 그 예로서 도 2의 'v_agr_sub'는 동사의 수 일치 오류, 'prp_lex_del'는 전치사 삭제 오류, 'at_del'는 관사 삭제 오류를 나타내며, 'none'는 문법 오류가 없는 것을 나타낸다.
도 2의 경우, 오류 타입 결정부(13)는 각 단어가 가지는 문법 오류 확률에 따라 단어 'He'는 문법 오류 타입 'none', 단어 'wants'는 문법 오류 타입 'v_agr_sub', 단어 'to'는 문법 오류 타입 'prp_lex_del', 단어 'go'는 문법 오류 타입 'none', 단어 'to'는 문법 오류 타입 'none', 단어 'a'는 문법 오류 타입 'at_del', 단어 'movie'는 문법 오류 타입 'none', 단어 'theater'는 문법 오류 타입 'none'으로 각 단어에 대한 문법 오류 타입을 결정한 것이다(ET).
오류 문장 생성부(15)는 기본 문장을 이루는 각 단어에 대해 결정된 문법 오류 타입에 따라 문법 오류가 포함된 문장을 생성한다. 도 2를 참고하면, 오류 문장 생성부(15)는 각 단어에 대해 결정된 문법 오류 타입에 따라 단어 'wants'를 단수 형태로 바꾸고 단어 'to'와 'a'는 삭제하여 문법 오류가 포함된 문장('He want go to movie theater')(ES)을 생성한다.
그러면 각 단어별로 문법 오류 확률을 부여하기 위한 마코프 로직에 대하여 좀 더 상세하게 설명한다.
우선, 마코프 로직을 위한 훈련 데이터로서 학습자의 다양한 발화 말뭉치가 수집되어 있으며, 이 발화 말뭉치는 각 발화 문장마다 어떠한 문법 오류가 포함되 어 있는지, 어떠한 수준의 문장인지 개발자나 전문가에 의하여 분석되어 있는 것으로 가정한다. 문장 수준(또는 학습자 수준)은 예를 들면 초급, 중급, 상급과 같이 3단계로 나뉠 수도 있으나 필요에 따라 단계는 가감될 수 있다. 따라서 마코프 로직은 문장 수준에 따라 독립적으로 훈련될 수 있으며, 이에 따라 마코프 로직에 의한 추론 시 학습자 수준별로 문법 오류를 생성할 수 있다. 즉, 오류 확률 부여부(11)는 기본 문장과 학습자 수준을 입력으로 받고 학습자 수준에 따른 오류 문장을 생성할 수 있다. 도 2의 경우 학습자 수준에 따라 문법 오류 확률은 달라질 수 있고, 예를 들면 학습자 수준이 초급인 경우 문법 오류 확률이 높아지고, 상급인 경우 낮게 되어 학습자 수준에 따른 오류 문장을 생성할 수 있다.
마코프 로직 망은 기초 논리식(basic formulas), 분석적 논리식(analytic formulas) 및 오류 제한 논리식(error limiting formulas)의 세가지 논리식에 의해 이루어진다.
첫 번째, 기초 논리식은 문장을 이루는 각 단어의 품사(part of speech)를 기초로 생성되는 논리식을 나타낸다. 기초 논리식은 다음과 같이 표현된다.
여기서, 모든 자유 변수는 전칭 한정(universally quantified)되어 있다고 가정한다. '+pt'와 '+et' 표현은 기초 논리식으로 표현되는 마코프 로직 망이 각각의 품사(pt)와 문법 오류 타입(et)을 포함하는 형태로 이루어져 있음을 나타낸다.
PosTag(s, i, +pt) 술어는 문장 s의 i번째 단어의 품사가 pt인 경우에 참이 되고 그 이외의 경우에는 거짓이 된다. 질의 술어에 해당하는 ErrorType(s, i, +et)은 문장 s의 i번째 단어의 문법 오류 타입이 et인 경우에 참이 되고 그 이외의 경우에는 거짓이 된다. 이러한 기초 논리식을 통해서 문장을 이루는 단어와 그 단어가 가지는 문법적 오류를 확률적으로 모델링할 수 있다.
두 번째, 분석적 논리식은 실질적으로 학습자가 쉽게 일으킬 수 있는 문법적 오류를 논리식으로 표현한 것으로서, 기초 논리식을 기반으로 학습자의 발화 말뭉치를 언어학적으로 분석함으로써 생성할 수 있다. 비원어민인 학습자가 문법 오류를 일으키는 원인은 다양하게 구분될 수 있으나, 다음 3가지 오류 원인을 예를 들어 설명한다. 물론 이외에도 더욱 다양한 오류 원인에 의하여 문법 오류가 발생할 수 있다.
학습자가 문법 오류를 일으키는 경우로서 학습자가 제2 언어의 문법 규칙을 과도하게 사용하여 오류가 발생하는 경우(이하, '제1 오류 원인'이라 함), 제2 언어의 문법 규칙에 대한 지식 부족으로 오류가 발생하는 경우(이하, '제2 오류 원인'이라 함), 제1 언어의 문법 규칙을 제2 언어에 사용하여 오류가 발생하는 경우(이하, '제3 오류 원인'이라 함)를 들 수 있다. 여기서 제1 언어는 학습자의 모국어를 나타내고, 제2 언어는 학습 대상 언어를 나타낸다. 예를 들어, 제1 언어는 한국어이고 제2 언어는 영어를 나타낼 수 있으나, 이에 한정되지 않는다.
제1 오류 원인에 해당하는 한 예로서 '복수'에 대한 문법적 오류를 들 수 있다. 예를 들면, 학습 대상 언어가 영어인 경우 'feet'는 이미 복수임에도 불구하고 영어의 복수화 규칙을 과도하게 적용하여 'feets'나 'feetes'로 표현하는 것을 말한다. 이러한 타입의 문법 오류는 다음과 같은 분석적 논리식으로 표현된다.
여기서, IrregularPluralNoum(s, i) 술어는 문장 s의 i번째 단어가 '잘못된 복수화'일 경우에 참이 되고 그 이외의 경우에는 거짓이 된다. 'NNS'는 명사를 나타내고, 'N_NUM_SUM'은 문법 오류 타입 'noun number error'를 나타낸다. 물론 제1 오류 원인으로 '복수'에 대한 문법 오류 이외에도 다양한 문법 오류가 있을 수 있다.
제2 오류 원인에 해당하는 한 예로서 'every'에 대한 문법적 오류를 들 수 있다. 예를 들어, 학습 대상 언어가 영어인 경우 'every' 다음에는 단수 형태의 명사가 와야 문법적으로 올바르지만 복수 형태의 명사가 와서 오류가 발생하는 것을 말한다. 이러한 타입의 문법 오류는 다음과 같은 분석적 논리식으로 표현된다.
여기서, Word(s, di, every) 술어는 문장 s의 di번째 단어가 'every'인 경우에 참이 되고 그 이외의 경우에는 거짓이 된다. DeterminerRel(s, di, ni) 술어는 문장 s의 ni번째 한정사(determiner)가 di번째 단어인 경우에 참이 되고 그 이외의 경우에는 거짓이 된다. 물론 제2 오류 원인으로 'every'에 대한 문법 오류 이외에도 다양한 문법 오류가 있을 수 있다.
제3 오류 원인에 해당하는 한 예로서 한국어, 일본어 등을 모국어로 하는 학습자가 영어 등을 학습하려고 하는 경우에 자주 범하는 문법 오류로서, 문장의 '주어'를 생략하여 발생하는 오류를 들 수 있다. 즉, 제3 오류 원인은 주어가 생략되는 경우가 많다는 등의 1차 언어의 문법 규칙을 2차 언어에도 동일하게 적용함으로 써 나타나는 오류를 나타낸다. 이러한 타입의 문법 오류는 [식 4]와 같은 분석적 논리식으로 표현된다.
여기서, Subject(s, i) 술어는 문장 s의 i번째 단어가 주어인 경우에 참이 되고 그 이외의 경우에는 거짓이 된다. N_LXC_DEL은 문법 오류 타입 'deletion by noun lexis(명사 어휘 삭제)'를 나타낸다. 물론 제3 오류 원인으로 '주어 삭제' 문법 오류 이외에도 다양한 문법 오류가 있을 수 있다.
세 번째, 오류 제한 논리식은 실제로는 나타나지 않는 오류임에도 통계 모델에 의해 생성될 수 있는 오류를 억제시키는 논리식을 나타낸다. 오류 제한 논리식은 명백하게 나타나지 않아야 하는 문법 오류임에도 확률적 샘플링에 의해서 나타날 수 있는 중첩된 문법 오류를 제한하는 논리식의 집합으로 이루어진다. 이러한 오류 제한을 하는 경우의 예로서 특정 문법 오류가 발생할 확률과 또 다른 문법 오류가 발생할 확률이 각각 어느 정도 있지만 이 두 가지 오류가 동시에 일어날 가능성이 없는 경우를 들 수 있다. 예를 들면 주어 생략 오류와 동사의 수 일치 오류는 동시에 발생하는 것이 무의미한데, 이는 주어가 생략된 상태에서 동사의 수 일치를 따지는 것이 무의미하기 때문이다. 따라서 이러한 오류 제한 논리식에 의하면 학습자의 발화에서 실질적으로 일어날 수 없는 문법 오류를 제한할 수 있다.
이러한 기초 논리식, 분석적 논리식 및 오류 제한 논리식을 마코프 로직망에 적용함으로써 실질적 문법 오류를 시뮬레이션 할 수 있다. 결국 본 발명에 의하면, 학습자 수준에 맞는 자연스러우면서도 다양한 문법 오류가 포함된 문장을 생성 할 수 있으며, 이에 따라 대화 시스템 등과 같은 대화를 이용한 언어 학습 시스템의 개발 및 평가의 신뢰성 및 편의성을 향상시킬 수 있다.
한편 지금까지 본 발명의 실시예에 따른 문법 오류 시뮬레이션 장치(10)가 사용자 시뮬레이션 장치(20)와 독립적인 별도의 장치인 것으로 설명하였으나, 문법 오류 시뮬레이션 장치(10)는 사용자 시뮬레이션 장치(20)에 포함되어 구현될 수도 있으며, 이 경우 사용자 시뮬레이션 장치(20)는 본 발명의 다른 실시예가 된다. 그리고 본 발명의 실시예에 따른 문법 오류 시뮬레이션 장치(10)가 외국어 학습에 사용되는 것으로 설명하였지만 이에 한정되지 않으며, 실제 사용자의 발화와 같이 문법 오류가 포함되어 있는 발화가 필요한 곳에서 사용될 수 있다. 또한 오류 확률 부여부(11), 오류 타입 결정부(13) 및 오류 문장 생성부(15)를 구분하여 설명하였으나, 이들은 하나의 기능 요소로서 고려될 수 있으며 따라서 구분되지 않고 하나의 모듈로 구현될 수도 있다.
그러면, 도 3을 참고하여 본 발명의 실시예에 따른 문법 오류 시뮬레이션 방법에 대해 설명한다.
도 3은 본 발명의 실시예에 따른 문법 오류 시뮬레이션 방법을 설명하기 위한 흐름도이다.
먼저, 문법 오류 시뮬레이션 장치(10)는 사용자 시뮬레이션 장치(20)로부터 문법 오류가 없는 기본 문장을 수신한다(S41). 그리고 마코프 로직 망을 이용하여 기본 문장을 이루고 있는 각 단어에 대해 문법 오류 타입별로 문법 오류 확률을 부여한다(S43).
그런 후 문법 오류 시뮬레이션 장치(10)는 기본 문장을 이루고 있는 각 단어가 가지는 문법 오류 확률에 따라 샘플링 기법 등을 통하여 어떠한 문법 오류 타입이 적용될지 결정한다(S45).
문법 오류 시뮬레이션 장치(10)는 각 단어에 대해 결정된 문법 오류 타입에 따른 오류를 해당 단어에 적용하여 문법 오류가 반영된 오류 문장을 생성하고(S47), 생성된 오류 문장을 사용자 시뮬레이션 장치(20) 또는 대화 시스템(30)에 제공한다(S49).
본 발명의 실시예에 따른 문법 오류 시뮬레이션 방법은 사용자 시뮬레이션 방법, 대화형 교육 방법 등의 언어 학습을 위한 다양한 방법에 포함될 수 있으며, 언어 학습 이외에도 문법 오류가 반영된 문장이 요구되는 곳에서 사용될 수 있다. 또한 지금까지 한 예로서 영어에 관한 문법 오류에 대하여 설명하였으나 영어뿐만 아니라 중국어, 일본어, 한국어, 독어 등 어느 언어라도 동일한 원리로 적용할 수 있다.
본 발명의 실시예는 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터로 읽을 수 있는 매체를 포함한다. 이 매체는 지금까지 설명한 문법 오류 시뮬레이션 방법을 실행시키기 위한 프로그램을 기록한다. 이 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 이러한 매체의 예에는 하드디스크, 플로피디스크 및 자기 테이프와 같은 자기 매체, CD 및 DVD와 같은 광기록 매체, 플롭티컬 디스크(Floptical Disk)와 자기-광 매체, 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수 행하도록 구성된 하드웨어 장치 등이 있다. 또는 이러한 매체는 프로그램 명령, 데이터 구조 등을 지정하는 신호를 전송하는 반송파를 포함하는 광 또는 금속선, 도파관 등의 전송 매체일 수 있다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상에서 본 발명의 바람직한 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.
도 1은 본 발명의 실시예에 따른 문법 오류 시뮬레이션 장치를 설명하기 위한 블록도이다.
도 2는 본 발명의 실시예에 따라 문장에 문법 오류를 반영하는 예를 설명하기 위한 도면이다.
도 3은 본 발명의 실시예에 따른 문법 오류 시뮬레이션 방법을 설명하기 위한 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
10: 문법 오류 시뮬레이션 장치, 11: 오류 확률 부여부,
13: 오류 타입 결정부, 15: 오류 문장 생성부,
20: 사용자 시뮬레이션 장치, 30: 대화 시스템
Claims (21)
- 기본 문장을 이루는 각 단어에 대해 문법 오류 확률을 부여하는 오류 확률 부여부,상기 기본 문장을 이루는 각 단어에 대해 문법 오류 타입을 결정하는 오류 타입 결정부, 그리고상기 결정된 문법 오류 타입에 따른 오류를 상기 기본 문장을 이루는 각 단어에 적용하여 문법 오류가 반영된 오류 문장을 생성하는 오류 문장 생성부를 포함하는 문법 오류 시뮬레이션 장치.
- 제1항에서,상기 오류 확률 부여부는 마코프 로직망(Markov Logic Network)에 따라 상기 문법 오류 확률을 부여하는 문법 오류 시뮬레이션 장치.
- 제2항에서,상기 마코프 로직망은 복수의 논리식에 기초하여 생성되며, 학습자 수준에 따라 분류되어 있는 학습자 발화 말뭉치를 이용하여 상기 학습자 수준별로 훈련되는 문법 오류 시뮬레이션 장치.
- 제3항에서,상기 복수의 논리식은 상기 기본 문장을 이루는 각 단어의 품사를 기초로 생성되는 기초 논리식을 포함하는 문법 오류 시뮬레이션 장치.
- 제3항에서,상기 복수의 논리식은 상기 학습자 발화 말뭉치에 포함되어 있는 학습자 문법 오류를 기초로 생성되는 분석적 논리식을 포함하는 문법 오류 시뮬레이션 장치.
- 제5항에서,상기 학습자 문법 오류는 대상 언어의 문법 규칙을 과도하게 사용하여 생성되는 오류, 상기 대상 언어의 문법 규칙에 대한 지식 부족으로 생성되는 오류 및 학습자 언어의 문법 규칙을 상기 대상 언어에 사용하여 생성되는 오류 중 적어도 하나를 포함하는 문법 오류 시뮬레이션 장치.
- 제3항에서,상기 복수의 논리식은 확률적 샘플링에 의하여 발생할 수 있는 중첩된 문법 오류를 제한하는 오류 제한 논리식을 포함하는 문법 오류 시뮬레이션 장치.
- 제1항에서,상기 오류 타입 결정부는 상기 문장을 이루는 각 단어에 대해 샘플링 기법을 통하여 상기 문법 오류 타입을 결정하는 문법 오류 시뮬레이션 장치.
- 제1항 내지 제8항 중 어느 한 항의 문법 오류 시뮬레이션 장치를 포함하는 사용자 시뮬레이션 장치.
- 제1항 내지 제8항 중 어느 한 항의 문법 오류 시뮬레이션 장치를 포함하는 언어 학습 시스템.
- 기본 문장을 이루는 각 단어에 대해 문법 오류 확률을 부여하는 단계,상기 기본 문장을 이루는 각 단어에 대해 문법 오류 타입을 결정하는 단계, 그리고상기 결정된 문법 오류 타입에 따른 오류를 상기 기본 문장을 이루는 각 단어에 적용하여 문법 오류가 반영된 오류 문장을 생성하는 단계를 포함하는 문법 오류 시뮬레이션 방법.
- 제11항에서,상기 오류 확률 부여 단계는 마코프 로직망(Markov Logic Network)에 따라 상기 문법 오류 확률을 부여하는 단계를 포함하는 문법 오류 시뮬레이션 방법.
- 제12항에서,상기 마코프 로직망은 복수의 논리식에 기초하여 생성되며, 학습자 수준에 따라 분류되어 있는 학습자 발화 말뭉치를 이용하여 상기 학습자 수준별로 훈련되는 문법 오류 시뮬레이션 방법.
- 제13항에서,상기 복수의 논리식은 상기 기본 문장을 이루는 각 단어의 품사를 기초로 생성되는 기초 논리식을 포함하는 문법 오류 시뮬레이션 방법.
- 제13항에서,상기 복수의 논리식은 상기 학습자 발화 말뭉치에 포함되어 있는 학습자 문법 오류를 기초로 생성되는 분석적 논리식을 포함하는 문법 오류 시뮬레이션 방법.
- 제15항에서,상기 학습자 문법 오류는 대상 언어의 문법 규칙을 과도하게 사용하여 생성되는 오류, 상기 대상 언어의 문법 규칙에 대한 지식 부족으로 생성되는 오류 및 학습자 언어의 문법 규칙을 상기 대상 언어에 사용하여 생성되는 오류 중 적어도 하나를 포함하는 문법 오류 시뮬레이션 방법.
- 제13항에서,상기 복수의 논리식은 확률적 샘플링에 의하여 발생할 수 있는 중첩된 문법 오류를 제한하는 오류 제한 논리식을 포함하는 문법 오류 시뮬레이션 방법.
- 제11항에서,상기 오류 타입 결정 단계는 상기 문장을 이루는 각 단어에 대해 샘플링 기법을 통하여 상기 문법 오류 타입을 결정하는 단계를 포함하는 문법 오류 시뮬레이션 방법.
- 제11항 내지 제18항 중 어느 한 항의 문법 오류 시뮬레이션 방법을 포함하는 사용자 시뮬레이션 방법.
- 제11항 내지 제18항 중 어느 한 항의 문법 오류 시뮬레이션 방법을 포함하는 언어 학습 제공 방법.
- 컴퓨터에 제11항 내지 제18항 중 어느 한 항의 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090125470A KR20110068491A (ko) | 2009-12-16 | 2009-12-16 | 문법 오류 시뮬레이션 장치 및 방법 |
PCT/KR2010/007074 WO2011074772A2 (ko) | 2009-12-16 | 2010-10-15 | 문법 오류 시뮬레이션 장치 및 방법. |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090125470A KR20110068491A (ko) | 2009-12-16 | 2009-12-16 | 문법 오류 시뮬레이션 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20110068491A true KR20110068491A (ko) | 2011-06-22 |
Family
ID=44167798
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090125470A KR20110068491A (ko) | 2009-12-16 | 2009-12-16 | 문법 오류 시뮬레이션 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR20110068491A (ko) |
WO (1) | WO2011074772A2 (ko) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013172531A1 (ko) * | 2012-05-17 | 2013-11-21 | 포항공과대학교 산학협력단 | 어학 학습 시스템 및 학습 방법 |
WO2014092265A1 (ko) * | 2012-12-13 | 2014-06-19 | 포항공과대학교 산학협력단 | 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법 |
KR101521281B1 (ko) * | 2014-10-20 | 2015-05-19 | 포항공과대학교 산학협력단 | 어학 학습 시스템 및 학습 방법 |
KR20200044208A (ko) * | 2018-10-11 | 2020-04-29 | 주식회사 엔씨소프트 | 음절 기반의 벡터를 이용한 한글 오류 보정 방법 및 한글 오류 보정 시스템 |
KR20200096187A (ko) * | 2020-07-27 | 2020-08-11 | 주식회사 엔씨소프트 | 음절 기반의 벡터를 이용한 한글 오류 보정 방법 및 한글 오류 보정 시스템 |
KR102365341B1 (ko) * | 2021-03-04 | 2022-02-23 | 주식회사 팀플백 | 인공지능 기반의 글쓰기 첨삭 시스템 및 그 방법 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3413487B1 (de) * | 2017-06-07 | 2019-09-25 | Siemens Aktiengesellschaft | Kanal-adaptive fehlererkennende codes mit garantierter restfehlerwahrscheinlichkeit |
CN114626365B (zh) * | 2022-03-14 | 2024-09-06 | 腾讯科技(深圳)有限公司 | 作文纠错模型的缺陷确定方法、装置、设备及存储介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100639931B1 (ko) * | 2004-11-24 | 2006-11-01 | 한국전자통신연구원 | 대화형 음성인식 시스템의 인식오류 수정장치 및 그 방법 |
KR100766058B1 (ko) * | 2005-12-08 | 2007-10-11 | 한국전자통신연구원 | 대화형 음성 인터페이스 시스템에서의 예외 상황 처리 방법및 장치 |
-
2009
- 2009-12-16 KR KR1020090125470A patent/KR20110068491A/ko not_active Application Discontinuation
-
2010
- 2010-10-15 WO PCT/KR2010/007074 patent/WO2011074772A2/ko active Application Filing
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013172531A1 (ko) * | 2012-05-17 | 2013-11-21 | 포항공과대학교 산학협력단 | 어학 학습 시스템 및 학습 방법 |
WO2014092265A1 (ko) * | 2012-12-13 | 2014-06-19 | 포항공과대학교 산학협력단 | 문법 오류 정정 시스템 및 이를 이용한 문법 오류 정정 방법 |
KR101521281B1 (ko) * | 2014-10-20 | 2015-05-19 | 포항공과대학교 산학협력단 | 어학 학습 시스템 및 학습 방법 |
KR20200044208A (ko) * | 2018-10-11 | 2020-04-29 | 주식회사 엔씨소프트 | 음절 기반의 벡터를 이용한 한글 오류 보정 방법 및 한글 오류 보정 시스템 |
KR20200096187A (ko) * | 2020-07-27 | 2020-08-11 | 주식회사 엔씨소프트 | 음절 기반의 벡터를 이용한 한글 오류 보정 방법 및 한글 오류 보정 시스템 |
KR102365341B1 (ko) * | 2021-03-04 | 2022-02-23 | 주식회사 팀플백 | 인공지능 기반의 글쓰기 첨삭 시스템 및 그 방법 |
Also Published As
Publication number | Publication date |
---|---|
WO2011074772A2 (ko) | 2011-06-23 |
WO2011074772A3 (ko) | 2011-09-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110782870B (zh) | 语音合成方法、装置、电子设备及存储介质 | |
Chen et al. | Automated scoring of nonnative speech using the speechrater sm v. 5.0 engine | |
San-Segundo et al. | Design, development and field evaluation of a Spanish into sign language translation system | |
Pietquin | A framework for unsupervised learning of dialogue strategies | |
Lee et al. | Recent approaches to dialog management for spoken dialog systems | |
KR20110068491A (ko) | 문법 오류 시뮬레이션 장치 및 방법 | |
Jung et al. | Data-driven user simulation for automated evaluation of spoken dialog systems | |
CN110797010A (zh) | 基于人工智能的问答评分方法、装置、设备及存储介质 | |
Wu et al. | Research on business English translation framework based on speech recognition and wireless communication | |
US20090070112A1 (en) | Automatic reading tutoring | |
KR20110120552A (ko) | 자연어 대화 기술을 이용한 외국어 학습 게임 시스템 및 방법 | |
López-Cózar et al. | Testing the performance of spoken dialogue systems by means of an artificially simulated user | |
Rodrigues et al. | Analyzing the performance of ASR systems: The effects of noise, distance to the device, age and gender | |
Desot et al. | End-to-End Spoken Language Understanding: Performance analyses of a voice command task in a low resource setting | |
CN112951207B (zh) | 口语评测方法、装置及相关产品 | |
House | Phrase-final rises as a prosodic feature in wh-questions in Swedish human–machine dialogue | |
Gaizauskas | Evaluation in language and speech technology | |
Hillmann et al. | Simulation-based usability evaluation of spoken and multimodal dialogue systems | |
Minker et al. | Spoken dialogue systems technology and design | |
KR20200101891A (ko) | 복합 문장 분석 장치, 이를 위한 기록매체 | |
Lhioui et al. | Towards a Hybrid Approach to Semantic Analysis of Spontaneous Arabic Speech. | |
Griol et al. | Measuring the differences between human-human and human-machine dialogs | |
Carson-Berndsen | Multilingual time maps: portable phonotactic models for speech technology | |
Popat et al. | Alexis: A Voicebased Chatbot using Natural Language Processing | |
US20240265200A1 (en) | Conversation device and training device therefor |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |