WO2022060060A1

WO2022060060A1 - 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치

Info

Publication number: WO2022060060A1
Application number: PCT/KR2021/012529
Authority: WO
Inventors: 이형종
Original assignee: 주식회사 렉스퍼
Priority date: 2020-09-16
Filing date: 2021-09-14
Publication date: 2022-03-24
Also published as: KR102251554B1

Abstract

본 발명은 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치에 관한 것이다. 본 발명에 따르면, 온라인 또는 오프라인 상에 현존하는 임의의 외국어 지문들을 대상으로 사용자가 희망하는 타겟 난이도에 맞도록 변환된 교육용 외국어 지문으로 제공이 가능하다. 즉, 외국어 문제 작성의 경우 지문 창작 비용이 매우 높은 편이나, 본 발명에 의하면 수능과 토익 등 각종 영어 시험용 또는 영어 교육용 지문을 저비용으로 창작이 가능하다. 또한, 다양한 난이도별로 교육용 외국어 지문 생성이 가능하며, 이를 통해 저비용으로 문제 은행 생성이 가능하다는 장점이 있다.

Description

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치

본 발명은 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치에 관한 것이다.

과거뿐만 아니라 최근에도 지속적으로 외국어 학습에 대한 필요성이 증가하고 있으며, 이에 따른 다양한 학습자료의 제공이 필요하다. 그러나, 외국어 지문을 가지고 다양한 학습자료를 만들기 위해서는 문서 편집도구를 이용하여 출제자가 문제를 일일이 출제하고 편집하는 노고를 거쳐야 한다. 따라서, 이러한 노고를 줄일 수 있는 방안이 필요하다.

한편, 지난 10년~20년간 특정 문단에 자동으로 가독성 지수를 부여하거나, 특정 난이도의 문단을 선별해내는 연구가 다수 이루어졌으며 이에 대한 성과도 거두고 있는 실정이다. 하지만, 문단 자체의 난이도를 낮추어 가독성을 높이는 연구는 상대적으로 많이 진행되지 못한 상태이다. 또한, 학습자나 사용자의 요구에 맞춰 난이도를 높여주는 연구 역시 미흡한 실정이다.

대부분의 텍스트 단순화(Text Simplification)에 대한 연구는 텍스트의 난이도를 가장 쉬운 수준으로 단순화시키는 것에 있다. 하지만, 무분별하게 가장 단순한 수준으로 텍스트를 변경한 것을 곧바로 교육용 지문으로 사용할 경우, 지문의 난이도가 너무 쉬워질 수 있기 때문에 적합하지 않다는 문제가 있다. 반대로, 구조가 간단한 텍스트라도 그 주제나 소재 등이 적합하여 상위 학습자 또는 사용자에게 활용가치가 있을 상황도 존재한다.

따라서, 사용자의 언어 수준에 맞추어 외국어 지문을 단순화시키거나 또는 난이도를 상향시킨 후 이를 사용자에게 제공할 수 있는 방안이 필요하다.

본 발명이 해결하고자 하는 과제는 난이도가 높은 외국어 지문을 입력받거나 난이도가 낮은 외국어 지문을 입력받은 경우, 어휘 단순화와 구문 단순화 또는 그 반대의 과정을 통해 사용자가 원하는 난이도를 갖는 교육용 외국어 지문으로 변환하여 사용자에게 제공하는 방법, 그 컴퓨터 프로그램 및 그 장치를 제공하는 것이다.

다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.

상술한 기술적 과제를 해결하기 위한 본 발명에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법은, a) 하나 이상의 외국어 문장으로 구성된 지문(이하, 대상 지문)이 입력되면, 상기 입력된 대상 지문의 난이도를 측정하는 단계와, b) 상기 대상 지문의 외국어 문장에 대한 난이도를 조정하는 단계와, c) 상기 난이도의 조정 결과에 따라, 상기 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정하는 단계, 및 d) 상기 대체 후보군 지문 중에서 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력하는 단계를 포함하며, 상기 b) 단계는 b-1) 상기 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정하는 단계 및 b-2) 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정하는 단계를 포함하고, 상기 b-1) 단계는 b-1-1) 상기 대상 지문에 포함된 어느 해당 단어에 대한 모든 동의어를 추출하여 제1 리스트를 생성하는 단계와, b-1-2) 미리 학습된 언어 모델에 기초하여, 상기 해당 단어의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 단계와, b-1-3) 상기 제1 리스트 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정하는 단계, 및 b-1-4) 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 가장 낮은 또는 높은 단어로 대체하는 단계를 포함하고, 상기 b-1-2) 단계는 상기 해당 단어와 연결된 전후 단어들의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 것을 특징으로 한다.

이때, 본 발명에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법은, e) 상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상에서 상기 해당 단어보다 더 높은 난이도의 단어로 대체하는 단계를 더 포함할 수 있다.

한편, 상기 b-2) 단계는 b-2-1) 상기 대상 지문의 외국어 문장에 대하여 동격어절, 결합절 및 관계사절 중 어느 하나에 해당하는지 여부를 판단하는 단계와, b-2-2) 상기 어느 하나에 해당하는 외국어 문장을 복수의 세부 외국어 문장으로 단순화하거나 단순화된 복수의 세부 외국어 문장을 결합하여 난이도를 상향시켜 난이도를 조정하는 단계, 및 b-2-3) 상기 난이도가 조정된 외국어 문장 중 수동태형의 외국어 문장을 능동태형의 외국어 문장으로 단순화하거나, 또는 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 변경하여 난이도를 상향시키는 단계를 포함할 수 있다.

또한, 상기 b-2) 단계는 b-2-4) 상기 대상 지문의 외국어 문장을 의존 구문 분석 모델에 기초하여 토큰화하는 단계 및 b-2-5) 상기 토큰화된 외국어 문장이 결합절 또는 관계사절에 해당하는지 여부를 판별하여 해당 부분에 마킹을 수행하는 단계를 더 포함할 수 있다.

또한, 상기 b-2) 단계는 b-2-6) 상기 난이도가 조정된 외국어 문장에 대하여 트루케이싱(truecasing) 과정 및 미사용 가능한 문장부호를 제거하는 과정 중 적어도 하나를 수행하는 단계를 더 포함할 수 있다.

또한, 상기 b-2) 단계는 b-2-7) 상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 복수의 세부 외국어 문장 중 적어도 둘 이상의 세부 외국어 문장을 재결합시키거나, 또는 상기 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 재변환하는 단계를 더 포함할 수 있다.

또한, 상기 a) 단계는 a-1) 상기 대상 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하는 단계 및 a-2) 상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대상 지문에 대한 각 난이도를 측정하는 단계를 포함하되, 상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함할 수 있다.

또한, 상기 c) 단계는 c-1) 상기 대체 후보군 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하는 단계 및 c-2) 상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대체 후보군 지문에 대한 각 난이도를 측정하는 단계를 포함하되, 상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함할 수 있다.

또한, 상기 d) 단계는 d-1) 상기 대체 후보군 지문에 대한 난이도 측정 결과에 따른 난이도 조정 가능 범위를 제공하는 단계 및 d-2) 상기 난이도 조정 가능 범위 내에 상기 타겟 난이도가 포함되는 경우, 상기 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력하는 단계를 포함할 수 있다.

또한, 본 발명은 컴퓨터와 결합되어, 본 발명에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법을 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램을 구비할 수 있다.

또한, 본 발명에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치는, 하나 이상의 외국어 문장으로 구성된 지문(이하, 대상 지문)을 수신하는 통신모듈과, 상기 대상 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 프로그램이 저장된 메모리, 및 상기 프로그램이 실행됨에 따라, 상기 대상 지문의 난이도를 측정하고, 상기 대상 지문의 외국어 문장에 대한 난이도를 조정하고, 상기 난이도의 조정 결과에 따라, 상기 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정하고, 상기 대체 후보군 지문 중에서 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력하는 프로세서를 포함하고, 상기 프로세서는 상기 대상 지문의 외국어 문장에 대한 난이도를 조정 시에, 상기 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정하고, 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정하고, 상기 프로세서는 상기 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정 시에, 상기 대상 지문에 포함된 어느 해당 단어에 대한 모든 동의어를 추출하여 제1 리스트를 생성하고, 미리 학습된 언어 모델에 기초하여, 상기 해당 단어의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하고, 상기 제1 리스트 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정하며, 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 가장 낮은 또는 높은 단어로 대체하고, 상기 프로세서는 상기 제2 리스트를 생성 시에, 상기 해당 단어와 연결된 전후 단어들의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성할 수 있다.

이때, 상기 프로세서는 상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상에서 상기 해당 단어보다 더 높은 난이도의 단어로 대체할 수 있다.

또한, 상기 프로세서는 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에, 상기 대상 지문의 외국어 문장에 대하여 동격어절, 결합절 및 관계사절 중 어느 하나에 해당하는지 여부를 판단하고, 상기 어느 하나에 해당하는 외국어 문장을 복수의 세부 외국어 문장으로 단순화하거나 단순화된 복수의 세부 외국어 문장을 결합하여 난이도를 상향시켜 난이도를 조정하며, 상기 난이도가 조정된 외국어 문장 중 수동태형의 외국어 문장을 능동태형의 외국어 문장으로 단순화하거나, 또는 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 변경하여 난이도를 상향시킬 수 있다.

또한, 상기 프로세서는 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에, 상기 대상 지문의 외국어 문장을 의존 구문 분석 모델에 기초하여 토큰화하고, 상기 토큰화된 외국어 문장이 결합절 또는 관계사절에 해당하는지 여부를 판별하여 해당 부분에 마킹을 수행할 수 있다.

또한, 상기 프로세서는 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에, 상기 난이도가 조정된 외국어 문장에 대하여 트루케이싱(truecasing) 과정 및 미사용 가능한 문장부호를 제거하는 과정 중 적어도 하나를 수행할 수 있다.

또한, 상기 프로세서는 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에, 상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 복수의 세부 외국어 문장 중 적어도 둘 이상의 세부 외국어 문장을 재결합시키거나, 또는 상기 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 재변환할 수 있다.

또한, 상기 프로세서는 상기 대상 지문의 난이도를 측정 시에, 상기 대상 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하고, 상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대상 지문에 대한 각 난이도를 측정하되, 상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함할 수 있다.

또한, 상기 프로세서는 상기 대체 후보군 지문에 대한 각 난이도를 측정 시에, 상기 대체 후보군 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하고, 상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대체 후보군 지문에 대한 각 난이도를 측정하되, 상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함할 수 있다.

또한, 상기 프로세서는 상기 대체 후보군 지문 중에서 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력 시에, 상기 대체 후보군 지문에 대한 난이도 측정 결과에 따른 난이도 조정 가능 범위를 제공하고, 상기 난이도 조정 가능 범위 내에 상기 타겟 난이도가 포함되는 경우, 상기 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력할 수 있다.

상술한 본 발명에 의하면, 온라인 또는 오프라인 상에 현존하는 임의의 외국어 지문들을 대상으로 사용자가 희망하는 타겟 난이도에 맞도록 변환된 교육용 외국어 지문으로 제공이 가능하다.

즉, 외국어 문제 작성의 경우 지문 창작 비용이 매우 높은 편이나, 본 발명에 의하면 수능과 토익 등 각종 영어 시험용 또는 영어 교육용 지문을 저비용으로 창작이 가능하다.

또한, 다양한 난이도별로 교육용 외국어 지문 생성이 가능하며, 이를 통해 저비용으로 문제 은행 생성이 가능하다는 장점이 있다.

본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 방법의 순서도이다.

도 2는 본 발명의 일 실시예에서의 어휘를 대상으로 난이도를 조정하는 과정을 설명하기 위한 순서도이다.

도 3은 어휘를 대상으로 난이도를 조정하는 과정의 일 예시를 설명하기 위한 도면이다.

도 4는 본 발명의 일 실시예에서의 구문을 대상으로 난이도를 조정하는 과정을 설명하기 위한 순서도이다.

도 5는 구문을 대상으로 난이도를 조정하는 과정의 일 예시를 설명하기 위한 도면이다.

도 6은 본 발명의 일 실시예에서의 난이도 측정 기준을 설명하기 위한 도면이다.

도 7은 타겟 난이도에 부합하는 대체 지문을 선택하는 내용을 설명하기 위한 도면이다.

도 8은 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 서버 장치를 설명하기 위한 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치(400)에 의해 수행되는 방법(이하, 교육용 외국어 지문 생성 방법)을 상세하게 설명한다.

한편, 도 1에 도시된 단계들은 교육용 외국어 지문 생성 방법을 제공하는 서비스 업체의 플랫폼 서버 장치(이하, 서버)에 의해 수행되는 것으로 이해될 수 있지만, 이에 제한되는 것은 아니다.

먼저, 서버는 하나 이상의 외국어 문장으로 구성된 지문(이하, 대상 지문)을 입력받는다(S110).

본 발명의 일 실시예에서 외국어는 영어로 한정되는 것이 아니라, 일본어, 중국어 등 모국어가 아닌 모든 외국어가 그 대상이 될 수 있다. 또한, 본 발명의 일 실시예는 한국어를 배제하는 것이 아닌 바 외국인을 대상으로 할 경우에는 한국어도 외국어로 적용될 수 있음은 물론이다.

다음으로, 서버는 입력된 대상 지문의 난이도를 측정한다(S120). 이때, 본 발명의 일 실시예는 난이도가 높은 텍스트를 사용자의 언어 수준에 맞게 단순화시키기 위한 것이므로, 서버는 대상 지문의 난이도가 사용자에 의해 미리 설정된 타겟 난이도보다 높을 경우 난이도를 낮추기 위하여 다음 단계를 수행할 수도 있으나, 사용자의 타겟 난이도는 가변될 수 있는바 반드시 이에 한정되는 것은 아니다. 또한, 본 발명의 일 실시예는 대상 지문의 난이도를 낮추는 것으로 한정되는 것은 아니며, 서버는 대상 지문의 난이도가 사용자에 의해 미리 설정된 타겟 난이도보다 낮을 경우 난이도를 높이기 위해 어휘 단순화와 구문 단순화의 반대 과정을 수행할 수도 있다.

즉, 서버는 대상 지문의 난이도가 사용자에 의해 설정된 타겟 난이도보다 높을 경우 난이도를 낮추기 위한 과정, 반대로 난이도를 높이기 위한 과정을 수행할 수 있으며, 이러한 과정을 복합적으로 수행할 수도 있다.

한편, 사용자는 소정의 단말 장치를 이용하여 타겟 난이도를 설정할 수 있다. 예를 들어 사용자의 단말 장치는 스마트폰, 태블릿, PDA, 랩톱, 데스크톱 등과 같은 컴퓨터 장치 또는 전기 통신 장치일 수 있으나, 이에 제한되는 것은 아니다.

다음으로, 서버는 대상 지문의 외국어 문장에 대한 난이도를 조정하는 과정을 수행한다(S130).

이때, 서버는 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정하는 과정(이하, 어휘 난이도 조정 과정)과, 대상 지문의 외국어 문장에 포함된 구문을 대상으로 난이도를 조정하는 과정(이하, 구문 난이도 조정 과정)을 통해 대상 지문의 외국어 문장에 대한 난이도를 조정하는 과정을 수행한다.

이하에서는 본 발명의 일 실시예에 따른 어휘 난이도 조정과정과 구문 난이도 조정 과정을 구체적으로 설명하도록 한다.

도 2는 본 발명의 일 실시예에서의 어휘를 대상으로 난이도를 조정하는 과정을 설명하기 위한 순서도이다. 도 3은 어휘를 대상으로 난이도를 조정하는 과정의 일 예시를 설명하기 위한 도면이다.

어휘 난이도 조정 과정을 수행하는 목적은 어휘를 더 단순한 것으로 대체하거나 단순한 어휘를 보다 난이도가 높은 어휘로 대체하기 위한 것이다.

일 예로 어휘를 단순화하기 위해 종래에는 특정 텍스트의 모든 단어들에 대하여 WordNet을 통해 동의어(Synonym)들을 찾았다. 그리고 모든 동의어들에 대해 심리 언어학 사전(Psycholinguistic Dictionary)에서 kucera francis frequency를 산출하였다. 이는 더 많이 쓰이는 단어가 덜 쓰이는 단어들보다 심리적으로 난이도가 더 낮은 것으로 간주되므로, kucera francis frequency가 높게 산출될수록 해당 단어의 난이도는 더 낮게 평가된다. 이 과정을 통해 특정 텍스트의 단어들이 kucera francis frequency가 더 높은 것으로 대체되는 방식으로 어휘 단순화 과정이 진행되었다. 하지만, kucera francis frequency는 1967년도 자료에 기반한 연구로, 현재 사용되기에는 부적절하다.

한편, 사용 빈도수에만 의존하는 방식을 통한 어휘 단순화 과정은 원래 텍스트가 가지고 있던 의미를 그대로 전달하지 못할 수 있다. 이는 하나의 단어라 할지라도 여러 의미를 가질 수 있기 때문에, 동의어 중 빈도수가 높은 것만을 선택해 단순화를 진행한다면 기존 언어와는 전혀 다른 뜻의 동의어로 대체될 수 있기 때문이다.

이와 같이 종래의 언어 단순화 과정은 대부분 모든 동의어 중 난이도가 가장 낮은 것만을 사용하여 단순화를 진행하였기 때문에 문맥에 적합하지 않은 경우가 빈번하였다.

이러한 문제를 해결하기 위하여, 본 발명은 동의어를 추출하여 비슷한 의미의 단어를 검출하는 것과 더불어, 언어 모델을 사용하여 해당 단어가 문맥에 맞는지도 고려하는 과정을 통해 자연스러운 난이도 조정이 가능하다.

이를 위해, 서버는 대상 지문에 포함된 어느 해당 단어에 대한 모든 동의어를 추출하여 제1 리스트를 생성한다(S210). 일 실시예로, 서버는 워드넷(WordNet)을 이용하여 해당 단어에 대한 동의어를 추출할 수 있다.

다음으로, 서버는 미리 학습된 언어 모델(Language Model)에 기초하여, 해당 단어의 문맥적 의미를 고려하여 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성한다(S220).

이때, 미리 학습된 언어 모델은 베이지안 네트워크(Bayesian Network) 기반의 잠재 단어 언어 모델(Latent Words Language Model)일 수 있다. 서버는 잠재 단어 언어 모델에 기초하여, 해당 단어와 연결된 전후 단어들의 문맥적 의미를 고려한 후 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성할 수 있다.

본 발명에서의 잠재 단어 언어 모델은 특정 단어와 전후로 연결된 단어들을 고려하여 해당 단어의 문맥적 의미 파악을 가능하게 한다. 이러한 잠재 단어 언어 모델을 이용하여 서버는 라벨링되지 않은 상태의 말뭉치를 학습할 수 있다. 또한, 서버는 잠재 단어 언어 모델을 통해 해당 단어에 대한 모든 동의어와 관련된 단어에 대한 확률 세트(Probability Set)를 학습하는바, 워드넷에서 단순히 동의어를 가져와서 대체하는 것보다 정확한 어휘 난이도 조정이 가능하다.

그 다음, 서버는 제1 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정한다(S230). 즉, 서버는 교집합에 속하는 단어들을 해당 단어의 의미와 문맥까지 고려한 후보군인 것으로 간주한다.

다음으로, 서버는 해당 단어를 후보군에 속하는 단어 중 미리 정의된 교육과정 상에서 난이도가 가장 낮은 단어로 대체하거나 또는 난이도가 가장 높은 단어로 대체한다(S240). 일 실시예로, 서버는 후보군 단어 중 어느 단어로 대체하는 것이 더욱 단순화하거나 난이도를 상향시킬 수 있는지를 확인하기 위해, 한국 영어 교육 과정에서 단어 난이도를 정리한 것 중 가장 최신 자료인 CoKEC-word를 이용할 수 있다. CoKEC-word에는 약 50,000개의 단어가 Level A부터 E까지 카테고리 별로 정리되어 있다.

도 3은 어휘를 대상으로 난이도를 조정하는 과정의 일 예시로, 예를 들어 “A Japanese electronic executive was kidnapped here.”이라는 문장 중 'executive' 단어를 대상으로 어휘 난이도 조정 과정을 수행하는 경우, 'executive' 단어의 모든 동의어를 추출하여 제1 리스트로 생성하고, 언어 모델에 기초하여 'executive'를 대체 가능한 단어들의 집합인 제2 리스트를 생성한다.

그리고 제1 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정한 후, CoKEC-word를 이용하여 해당 단어를 후보군에 속하는 단어 중 상대적으로 난이도가 낮은 또는 높은 단어로 대체하여 난이도를 조정할 수 있다.

한편, 본 발명에 따라 서버는 해당 단어를 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 가장 높은 단어 또는 현재 난이도보다 높은 난이도를 갖도록 하는 단어로 대체할 수도 있다.

일 예로, 어휘 단순화 과정을 통해 대상 지문의 난이도가 사용자의 타겟 난이도보다 낮아졌으나, 사용자의 교육 수준에 비하여 너무 낮은 것으로 판단시, 현재 난이도보다 높은 난이도를 갖는 단어로 대체할 수 있다. 이때, 사용자의 교육 수준은 사용자의 현재 학년 정보에 상응하도록 결정되나 반드시 이에 한정되는 것은 아니며 수동 설정도 가능함은 물론이다.

도 4는 본 발명의 일 실시예에서의 구문을 대상으로 난이도를 조정하는 과정을 설명하기 위한 순서도이다. 도 5는 구문을 대상으로 난이도를 조정하는 과정의 일 예시를 설명하기 위한 도면이다.

텍스트 난이도 조정 과정은 어휘 난이도 조정 과정과 더불어 구문 난이도 조정 과정이 필요하다. 어휘 난이도 조정 과정의 경우 이미 다수 연구된 바가 있으며, 기존 규칙 베이스 코딩없이 딥러닝만을 통해 난이도 조정 작업을 진행하는 연구도 많다.

하지만, 아직까지 구체적으로 구문 난이도 조정을 위한 오픈소스 연구는 거의 없는 실정이다. 이는 구문이 어휘와는 달리 일일이 대응할 수 있는 요소가 없어 딥러닝만을 가지고 난이도를 조정하기에는 난이도가 너무 높기 때문이다.

또한, 딥러닝 방식만을 채택하면 오류 발생시 정확히 어느 부분을 추가 수정해야 하는지 전혀 알 수 없다. 이와 관련하여, 심플 위키피디아(Simple Wikipedia)와 노멀 위키피디아(Normal Wikipedia)를 활용하여 어휘와 구문을 크게 구분하지 않고 난이도 조정을 진행하려는 시도는 있었지만, 이는 특수한 학습 소스만 적용 가능하여 활용도가 극히 낮다는 문제가 있었다.

이러한 문제점을 해소하기 위하여, 본 발명에서는 구문 난이도 조정 과정을 통해 대상 지문 내 외국어 문장을 결합절(Conjoint Clauses), 관계사절(Relative Clauses), 동격어절(Appositive Clauses)에 따라 분할하고, 수동태형을 능동태형 또는 그 반대로 변환하여 텍스트에 대한 난이도를 조정한다.

구체적으로, 서버는 분석 모듈을 통해 대상 지문의 외국어 문장을 의존 구문 분석 모델(Dependency Parsing)에 기초하여 토큰화(Tokenization)한 후(S310), 토큰화된 외국어 문장이 결합절 또는 관계사절에 해당하는지 여부를 판별하여 해당 부분에 마킹을 수행한다(S320).

본 발명에서는 구문의 난이도를 낮추기 위하여 의존 구문 분석 모델로 보편적 의존성(Universal Dependencies) 부분에서 가장 높은 점수를 가진 Stanford NLP Parser(CoreNLP)를 적용할 수 있다.

분석 모듈에서는 한 문장에서 결합절이나 관계사절에 해당하여 구문 난이도 조정이 필요한 부분이 있는지 마킹하는 과정을 진행한다. 이때, 서버는 결합절을 마킹하는 과정에서는 'and'와 'when'과 같이 문맥의 의미에 따라 구분하여 마킹할 수 있다.

다음으로, 서버는 변환 모듈을 통해 대상 지문의 외국어 문장에 대하여 동격어절, 결합절 및 관계사절 중 어느 하나에 해당하는지 여부를 판단하고(S330), 어느 하나에 해당하는 외국어 문장을 복수의 세부 외국어 문장으로 단순화하거나 단순화된 복수의 세부 외국어 문장을 결합하여 난이도를 상향시켜 난이도를 조정한다(S340). 그 다음, 서버는 단순화된 외국어 문장 중 수동태형의 외국어 문장을 능동태형의 외국어 문장으로 단순화하거나, 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 변경하여 난이도를 상향시킨다(S350).

서버는 변환 모듈을 통한 구문 난이도 조정 과정을 더 이상 적용할 규칙이 존재하지 않을 때까지 계속하여 반복한다. 일 예로, 본 발명에서의 모든 구문 단순화 과정은 보편성 의존성에 기반하여 훈련된 CoreNLP에서 도출된 결과 값을 기반으로 진행될 수 있다.

예를 들어 구문 난이도를 낮추기 위한 과정과 관련하여 도 5를 참조하면, "The problem was handled by myself and won't give you more trouble."이라는 문장이 있는 경우, 분석 모듈에서의 의존 구문 분석 모델을 통한 파싱 과정을 거친 위 문장은 분석 모듈로 전달된 후 담화 표지어(Discourse Marker)가 확인된다.

위 예시 문장에서는 'and'가 담화 표지어에 해당하며, 분석 모듈은 결합절 함수를 실행시킨다. 결합절 함수는 부사절 수식어(ADVL, Adverbial Clause Modifier)인지 동위 접속사(CC, Coordinating Conjunction) 태그인지를 먼저 확인하며, 위 예시 문장은 'and'와 'give'에서 동위 접속사 관계가 있다.

그 다음, 접합(conjunction) 태그를 검출하며, 위 예시 문장에서는 'and'와 동위 접속사 관계에 있는 'give'와 'handled'가 접합 관계에 있다. 이에 따라 "The problem was handled by myself.”, “And won't give you more trouble."과 같이 두 문장으로 분할된다.

난이도를 낮추기 위한 구문 단순화 과정을 거친 위 두 문장은 다시 동일한 과정을 반복하게 되며, "And won't give you more trouble." 문장의 경우 더 이상 적용할 단순화 규칙이 존재하지 않으므로 구문 단순화 과정을 종료한다.

반면, "The problem was handled by myself." 문장의 경우 수동태형 문장이기 때문에 구문 단순화 과정을 통해 "Myself handled the problem."과 같은 능동태형 문장으로 다시 단순화된다.

다음으로, 서버는 형성 모듈을 통해 난이도가 조정 외국어 문장에 대하여 트루케이싱(truecasing) 과정 및 미사용 가능한 문장부호를 제거하는 과정 중 적어도 하나를 수행한다(S360). 본 발명의 일 실시예에서 형성 모듈의 목적은 난이도가 조정된 문장들을 문법에 맞도록 재배열하는 것에 있다. 일 실시예로, 트루케이싱은 파이썬 구현 모델을 통해 실행될 수 있으며, 영어 외 타 언어 학습시 해당 언어의 말뭉치로 다시 학습시키면 된다.

일 예로, 결합절을 두 문장으로 분할하는 경우, 형성 모듈은 새로운 담화 표지어가 필요한지 여부에 대해 확인하는 과정을 진행한다. 예를 들어, 'although'라는 담화 표지어를 통해 두 문장으로 분할해야 하는 경우, 뒷 문장에는 'but'을 추가해야 한다. 또한, 동격어절을 나누는 경우에도 주어와 동격어를 이어주는 동사를 시제와 단수, 복수 문법에 맞도록 변형해주어야 한다.

한편, 구문 난이도 조정 과정을 통해 복수 개의 문장으로 분할 또는 이들을 결합하거나 능동태형 문장으로 단순화하거나 수동태형 문장으로 난이도를 상향시킴에 따라, 후술하는 난이도 측정 결과 사용자의 타겟 난이도보다 더 난이도가 낮거나 또는 높아져 사용자의 교육 수준에 부합하지 않는 경우 구문 단순화 과정을 추가적으로 수행하거나, 또는 다시 분할된 문장을 결합하는 과정, 또는 능동태형을 수동태형으로 변환하는 과정 중 적어도 하나를 수행하여 다시 난이도를 높일 수도 있다.

다시 도 1을 참조하면, 서버는 어휘 난이도 조정 과정과 구문 난이도 조정 과정을 수행한 결과, 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정한다(S140). 그리고 대체 후보군 지문 중에서 사용자에 의해 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력한다(S150).

구문 난이도 조정 과정을 완료하면 대상 지문에 포함된 모든 문장들에 대해 대체 가능한 형태(Potential Solutions)가 생성된다. 서버는 이러한 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 난이도를 계산한다.

지문의 난이도를 측정하기 위한 기존의 가장 대표적인 시도로 Flesch-Kincaid Readability Test가 있다. 이는 지문의 전체 단어 개수, 문장 개수, 음절 수에 따라 학년 별로 난이도를 구분하려는 시도였다. 하지만, 세 가지 기준 만으로는 사람이 느끼는 지문의 어려움 정도를 측정하기 어려웠으며 그 오차범위도 크다는 문제가 있었다.

현재는 파싱 기술이 많이 발전하여 외국어 지문을 보다 세분화할 수 있게 되었으며, 동사구 수, 종속절 수, 전치사구 수 등의 분류도 가능하다. 이에 따라, 본 발명의 일 실시예는 기존 Flesch-Kincaid Readability Test 한계에서 벗어나 더욱 구체화된 난이도 측정 기준(LXPER Index)을 설정하였다. 특히, 본 발명의 일 실시예는 눈으로 보이는 기준뿐만 아니라 사람이 심리학적으로 느낄 수 있는 어려움을 보다 정확히 측정하기 위한 어휘 체인(Lexical Chain)을 고려하는 것을 특징으로 한다.

도 6은 본 발명의 일 실시예에서의 난이도 측정 기준을 설명하기 위한 도면이다. 이때, 도 6에 도시된 난이도 측정 기준은 Berkeley Neural Parser를 적용하여 측정 가능한 거의 모든 항목들을 도출한 것이다.

도 6에 도시된 바와 같이, 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함할 수 있다.

서버는 대상 지문 및 대체 후보군 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하고, 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법(Linear Regression)을 적용하여 입력된 대상 지문의 난이도와 대체 후보군 지문에 대한 각 난이도를 측정한다. 이때, 서버는 이하의 수학식 1을 이용하여 난이도를 측정할 수 있다.

수학식 1에서 a, b, c 등의 파리미터들에 대한 최적화 과정을 수행하고 나면, 대상 지문의 모든 문장들에 대하여 난이도 측정기준에 따른 결과에 선형 회귀 기법을 적용하여, 대체 후보군 지문에 대한 각 난이도를 측정할 수 있다.

한편, 본 발명의 일 실시예에서 선형 회귀 모델을 위한 훈련 모델(Training Model)은 다양한 옵션이 있을 수 있으며, 이를 위한 훈련 데이터로 정규 교육 과정에서 사용되는 모든 텍스트를 적용할 수 있다.

대체 후보군 지문에 대한 난이도를 측정한 후, 서버는 대체 후보군 지문에 대한 난이도 측정 결과에 따른 난이도 조정 가능 범위를 제공한다. 그리고 서버는 난이도 조정 가능 범위 내에 타겟 난이도가 포함되는 경우, 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력한다.

예를 들어, 서버는 도 7에서 대체 후보군 지문인 'solution 1~solution 6'의 각 난이도를 비교하여 난이도 조정 가능 범위를 제공할 수 있다. 서버는 가장 단순화시킬 수 있는 범위(low point)에서부터 사용자의 타겟 난이도(User reference), 그리고 가장 난이도가 높은 범위(high point)까지 구분하여 사용자에게 제공할 수 있다.

기본적으로, 서버는 사용자의 타겟 난이도가 설정된 경우 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력할 수 있다. 만약 타겟 난이도가 설정되지 않은 경우에는 가장 단순화된 범위(low point)를 교육용 외국어 지문으로 제공할 수도 있다. 또는 그 반대로 가장 난이도가 상향된 범위를 교육용 외국어 지문으로 제공할 수도 있다.

한편, 상술한 설명에서, 단계 S110 내지 S360은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 후술하는 도 8의 내용은 도 1 내지 도 7의 교육용 외국어 지문 생성 방법에도 적용될 수 있다.

이하에서는 본 발명의 일 실시예에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 장치(400, 이하 교육용 외국어 지문 생성 서버 장치)에 대하여 설명하도록 한다.

도 8은 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 서버 장치 (400)를 설명하기 위한 도면이다.

도 8을 참조하면, 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 서버 장치(400)는 통신모듈(410), 메모리(420) 및 프로세서(430)를 포함한다.

통신모듈(410)은 사용자 단말 기타 외국어 지문을 제공하는 단말과 데이터를 송수신하여, 하나 이상의 외국어 문장으로 구성된 대상 지문을 수신한다.

메모리(420)에는 통신모듈(410)로부터 수신한 데이터에 기초하여 사용자의 타겟 난이도에 부합하는 교육용 외국어 지문을 출력하기 위한 프로그램이 저장된다.

프로세서(430)는 메모리(420)에 저장된 프로그램을 실행시킴에 따라, 입력된 대상 지문의 난이도를 측정하고, 대상 지문의 외국어 문장에 대한 난이도 조정 과정을 수행하며, 난이도 조정 과정 수행 결과, 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정한 후, 대체 후보군 지문 중에서 사용자에 의해 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력한다. 이때, 프로세서(430)는 대상 지문의 외국어 문장에 대한 난이도 조정 과정으로 어휘 난이도 조정 과정 및 구문 난이도 조정 과정을 수행한다.

도 8을 참조하여 설명한 교육용 외국어 지문 생성 서버 장치(400)는 상술한 서버의 구성요소로 제공될 수 있다.

이상에서 전술한 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.

상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.

상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims

교육용 외국어 지문(text)을 생성하는 장치에 의해 수행되는 방법에 있어서,

a) 하나 이상의 외국어 문장으로 구성된 지문(이하, 대상 지문)이 입력되면, 상기 입력된 대상 지문의 난이도를 측정하는 단계;

b) 상기 대상 지문의 외국어 문장에 대한 난이도를 조정하는 단계;

c) 상기 난이도의 조정 결과에 따라, 상기 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정하는 단계; 및

d) 상기 대체 후보군 지문 중에서 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력하는 단계를 포함하며,

상기 b) 단계는,

b-1) 상기 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정하는 단계; 및

b-2) 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정하는 단계를 포함하고,

상기 b-1) 단계는,

b-1-1) 상기 대상 지문에 포함된 어느 해당 단어에 대한 모든 동의어를 추출하여 제1 리스트를 생성하는 단계;

b-1-2) 미리 학습된 언어 모델에 기초하여, 상기 해당 단어의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 단계;

b-1-3) 상기 제1 리스트 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정하는 단계; 및

b-1-4) 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 가장 낮은 또는 높은 단어로 대체하는 단계를 포함하고,

상기 b-1-2) 단계는,

상기 해당 단어와 연결된 전후 단어들의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 것을 특징으로 하는,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
제1항에 있어서,

e) 상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상에서 상기 해당 단어보다 더 높은 난이도의 단어로 대체하는 단계를 더 포함하는,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
제1항에 있어서,

상기 b-2) 단계는,

b-2-1) 상기 대상 지문의 외국어 문장에 대하여 동격어절, 결합절 및 관계사절 중 어느 하나에 해당하는지 여부를 판단하는 단계;

b-2-2) 상기 어느 하나에 해당하는 외국어 문장을 복수의 세부 외국어 문장으로 단순화하거나 단순화된 복수의 세부 외국어 문장을 결합하여 난이도를 상향시켜 난이도를 조정하는 단계; 및

b-2-3) 상기 난이도가 조정된 외국어 문장 중 수동태형의 외국어 문장을 능동태형의 외국어 문장으로 단순화하거나, 또는 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 변경하여 난이도를 상향시키는 단계를 포함하는,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
제3항에 있어서,

상기 b-2) 단계는,

b-2-4) 상기 대상 지문의 외국어 문장을 의존 구문 분석 모델에 기초하여 토큰화하는 단계; 및

b-2-5) 상기 토큰화된 외국어 문장이 결합절 또는 관계사절에 해당하는지 여부를 판별하여 해당 부분에 마킹을 수행하는 단계를 더 포함하는,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
제3항에 있어서,

상기 b-2) 단계는,

b-2-6) 상기 난이도가 조정된 외국어 문장에 대하여 트루케이싱(truecasing) 과정 및 미사용 가능한 문장부호를 제거하는 과정 중 적어도 하나를 수행하는 단계를 더 포함하는,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
제3항에 있어서,

상기 b-2) 단계는,

b-2-7) 상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 복수의 세부 외국어 문장 중 적어도 둘 이상의 세부 외국어 문장을 재결합시키거나, 또는 상기 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 재변환하는 단계를 더 포함하는,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
제1항에 있어서,

상기 a) 단계는,

a-1) 상기 대상 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하는 단계; 및

a-2) 상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대상 지문에 대한 각 난이도를 측정하는 단계를 포함하되,

상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함하는 것인,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
제1항에 있어서,

상기 c) 단계는,

c-1) 상기 대체 후보군 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하는 단계; 및

c-2) 상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대체 후보군 지문에 대한 각 난이도를 측정하는 단계를 포함하되,

상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함하는 것인,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
제1항에 있어서,

상기 d) 단계는,

d-1) 상기 대체 후보군 지문에 대한 난이도 측정 결과에 따른 난이도 조정 가능 범위를 제공하는 단계; 및

d-2) 상기 난이도 조정 가능 범위 내에 상기 타겟 난이도가 포함되는 경우, 상기 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력하는 단계를 포함하는,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
컴퓨터와 결합되어, 제1항 내지 제9항 중 어느 하나의 항의 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법을 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램.
하나 이상의 외국어 문장으로 구성된 지문(이하, 대상 지문)을 수신하는 통신모듈;

상기 대상 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 프로그램이 저장된 메모리; 및

상기 프로그램이 실행됨에 따라, 상기 대상 지문의 난이도를 측정하고, 상기 대상 지문의 외국어 문장에 대한 난이도를 조정하고, 상기 난이도의 조정 결과에 따라, 상기 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정하고, 상기 대체 후보군 지문 중에서 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력하는 프로세서;를 포함하고,

상기 프로세서는, 상기 대상 지문의 외국어 문장에 대한 난이도를 조정 시에, 상기 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정하고, 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정하고,

상기 프로세서는, 상기 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정 시에, 상기 대상 지문에 포함된 어느 해당 단어에 대한 모든 동의어를 추출하여 제1 리스트를 생성하고, 미리 학습된 언어 모델에 기초하여, 상기 해당 단어의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하고, 상기 제1 리스트 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정하며, 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 가장 낮은 또는 높은 단어로 대체하고,

상기 프로세서는, 상기 제2 리스트를 생성 시에, 상기 해당 단어와 연결된 전후 단어들의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 것을 특징으로 하는,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
제11항에 있어서,

상기 프로세서는,

상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상에서 상기 해당 단어보다 더 높은 난이도의 단어로 대체하는,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
제11항에 있어서,

상기 프로세서는, 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에,

상기 대상 지문의 외국어 문장에 대하여 동격어절, 결합절 및 관계사절 중 어느 하나에 해당하는지 여부를 판단하고,

상기 어느 하나에 해당하는 외국어 문장을 복수의 세부 외국어 문장으로 단순화하거나 단순화된 복수의 세부 외국어 문장을 결합하여 난이도를 상향시켜 난이도를 조정하며,

상기 난이도가 조정된 외국어 문장 중 수동태형의 외국어 문장을 능동태형의 외국어 문장으로 단순화하거나, 또는 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 변경하여 난이도를 상향시키는,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
제13항에 있어서,

상기 프로세서는, 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에,

상기 대상 지문의 외국어 문장을 의존 구문 분석 모델에 기초하여 토큰화하고,

상기 토큰화된 외국어 문장이 결합절 또는 관계사절에 해당하는지 여부를 판별하여 해당 부분에 마킹을 수행하는,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
제13항에 있어서,

상기 프로세서는, 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에,

상기 난이도가 조정된 외국어 문장에 대하여 트루케이싱(truecasing) 과정 및 미사용 가능한 문장부호를 제거하는 과정 중 적어도 하나를 수행하는,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
제13항에 있어서,

상기 프로세서는, 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정 시에,

상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 복수의 세부 외국어 문장 중 적어도 둘 이상의 세부 외국어 문장을 재결합시키거나, 또는 상기 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 재변환하는,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
제11항에 있어서,

상기 프로세서는, 상기 대상 지문의 난이도를 측정 시에,

상기 대상 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하고,

상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대상 지문에 대한 각 난이도를 측정하되,

상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함하는 것인,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
제11항에 있어서,

상기 프로세서는, 상기 대체 후보군 지문에 대한 각 난이도를 측정 시에,

상기 대체 후보군 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하고,

상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대체 후보군 지문에 대한 각 난이도를 측정하되,

상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중2 ~ 중3 수준의 단어 수, 단어 당 중2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3 ~ 고2 수준의 단어 수, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 고2 ~ 고3 수준의 단어, 단어 당 중3 ~ 고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함하는 것인,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.
제11항에 있어서,

상기 프로세서는, 상기 대체 후보군 지문 중에서 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력 시에,

상기 대체 후보군 지문에 대한 난이도 측정 결과에 따른 난이도 조정 가능 범위를 제공하고,

상기 난이도 조정 가능 범위 내에 상기 타겟 난이도가 포함되는 경우, 상기 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력하는,

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 서버 장치.