KR102251554B1 - 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법 - Google Patents

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법 Download PDF

Info

Publication number
KR102251554B1
KR102251554B1 KR1020200118978A KR20200118978A KR102251554B1 KR 102251554 B1 KR102251554 B1 KR 102251554B1 KR 1020200118978 A KR1020200118978 A KR 1020200118978A KR 20200118978 A KR20200118978 A KR 20200118978A KR 102251554 B1 KR102251554 B1 KR 102251554B1
Authority
KR
South Korea
Prior art keywords
fingerprint
difficulty
foreign language
level
server
Prior art date
Application number
KR1020200118978A
Other languages
English (en)
Inventor
이형종
Original Assignee
주식회사 렉스퍼
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 렉스퍼 filed Critical 주식회사 렉스퍼
Priority to KR1020200118978A priority Critical patent/KR102251554B1/ko
Application granted granted Critical
Publication of KR102251554B1 publication Critical patent/KR102251554B1/ko
Priority to PCT/KR2021/012529 priority patent/WO2022060060A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법이 제공된다. 상기 방법은 하나 이상의 외국어 문장으로 구성된 지문(이하, 대상 지문)을 입력받는 단계; 상기 입력된 대상 지문의 난이도를 측정하는 단계; 상기 대상 지문의 외국어 문장에 대한 난이도를 조정하는 과정을 수행하는 단계; 상기 난이도 조정 과정을 수행한 결과, 상기 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정하는 단계; 및 상기 대체 후보군 지문 중에서 사용자에 의해 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력하는 단계를 포함하며, 상기 대상 지문의 외국어 문장에 대한 난이도를 조정하는 단계는, 상기 대상 지문의 외국어 문장에 포함된 어휘를 난이도를 조정하는 단계; 및 상기 대상 지문의 외국어 문장에 대한 구문을 난이도를 조정하는 단계를 포함한다.

Description

지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법{METHOD FOR GENERATING EDUCATIONAL FOREIGN LANGUAGE TEXT BY ADJUSTING TEXT DIFFICULTY}
본 발명은 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법에 관한 것이다.
과거뿐만 아니라 최근에도 지속적으로 외국어 학습에 대한 필요성이 증가하고 있으며, 이에 따른 다양한 학습자료의 제공이 필요하다. 그러나, 외국어 지문을 가지고 다양한 학습자료를 만들기 위해서는 문서 편집도구를 이용하여 출제자가 문제를 일일이 출제하고 편집하는 노고를 거쳐야 한다. 따라서, 이러한 노고를 줄일 수 있는 방안이 필요하다.
한편, 지난 10년~20년간 특정 문단에 자동으로 가독성 지수를 부여하거나, 특정 난이도의 문단을 선별해내는 연구가 다수 이루어졌으며 이에 대한 성과도 거두고 있는 실정이다. 하지만, 문단 자체의 난이도를 낮추어 가독성을 높이는 연구는 상대적으로 많이 진행되지 못한 상태이다. 또한, 학습자나 사용자의 요구에 맞춰 난이도를 높여주는 연구 역시 미흡한 실정이다.
대부분의 텍스트 단순화(Text Simplification)에 대한 연구는 텍스트의 난이도를 가장 쉬운 수준으로 단순화시키는 것에 있다. 하지만, 무분별하게 가장 단순한 수준으로 텍스트를 변경한 것을 곧바로 교육용 지문으로 사용할 경우, 지문의 난이도가 너무 쉬워질 수 있기 때문에 적합하지 않다는 문제가 있다. 반대로, 구조가 간단한 텍스트라도 그 주제나 소재 등이 적합하여 상위 학습자 또는 사용자에게 활용가치가 있을 상황도 존재한다.
따라서, 사용자의 언어 수준에 맞추어 외국어 지문을 단순화시키거나 또는 난이도를 상향시킨 후 이를 사용자에게 제공할 수 있는 방안이 필요하다.
등록특허공보 제10-2018786호, 2019.09.06.
본 발명이 해결하고자 하는 과제는 난이도가 높은 외국어 지문을 입력받거나 난이도가 낮은 외국어 지문을 입력받은 경우, 어휘 단순화와 구문 단순화 또는 그 반대의 과정을 통해 사용자가 원하는 난이도를 갖는 교육용 외국어 지문으로 변환하여 사용자에게 제공하는 방법을 제공하는 것이다.
다만, 본 발명이 해결하고자 하는 과제는 상기된 바와 같은 과제로 한정되지 않으며, 또다른 과제들이 존재할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 일 면에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법은 하나 이상의 외국어 문장으로 구성된 지문(이하, 대상 지문)을 입력받는 단계; 상기 입력된 대상 지문의 난이도를 측정하는 단계; 상기 대상 지문의 외국어 문장에 대한 난이도를 조정하는 단계; 상기 난이도 조정 결과, 상기 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정하는 단계; 및 상기 대체 후보군 지문 중에서 사용자에 의해 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력하는 단계를 포함한다. 이때, 상기 대상 지문의 외국어 문장에 대한 난이도를 조정하는 단계는, 상기 대상 지문의 외국어 문장에 포함된 어휘를 난이도를 조정하는 단계; 및 상기 대상 지문의 외국어 문장에 대한 구문을 난이도를 조정하는 단계를 포함한다.
본 발명의 일부 실시예에서, 상기 대상 지문의 외국어 문장에 포함된 어휘를 난이도를 조정하는 단계는, 상기 대상 지문에 포함된 어느 해당 단어에 대한 모든 동의어를 추출하여 제1 리스트를 생성하는 단계; 미리 학습된 언어 모델에 기초하여, 상기 해당 단어의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 단계; 상기 제1 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정하는 단계; 및 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 가장 낮은 또는 높은 단어로 대체하는 단계를 포함한다.
본 발명의 일부 실시예에서, 상기 미리 학습된 언어 모델에 기초하여, 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 단계는, 베이지안 네트워크 기반의 잠재 단어 언어 모델에 기초하여, 상기 해당 단어와 연결된 전후 단어들의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성할 수 있다.
본 발명의 일부 실시예는, 상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 상기 해당 단어보다 더 높은 단어로 대체하는 단계를 더 포함할 수 있다.
본 발명의 일부 실시예에서, 상기 대상 지문의 외국어 문장에 대한 구문을 난이도를 조정하는 단계는, 상기 대상 지문의 외국어 문장에 대하여 동격어절, 결합절 및 관계사절 중 어느 하나에 해당하는지 여부를 판단하는 단계; 상기 어느 하나에 해당하는 외국어 문장을 복수의 세부 외국어 문장으로 단순화하거나 단순화된 복수의 세부 외국어 문장을 결합하여 난이도를 상향시켜 난이도를 조정하는 단계; 및 상기 난이도가 조정된 외국어 문장 중 수동태형의 외국어 문장을 능동태형의 외국어 문장으로 단순화하거나, 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 변경하여 난이도를 상향시키는 단계를 포함할 수 있다.
본 발명의 일부 실시예에서, 상기 대상 지문의 외국어 문장에 대한 구문을 난이도를 조정하는 단계는, 상기 대상 지문의 외국어 문장을 의존 구문 분석 모델에 기초하여 토큰화하는 단계; 및 상기 토큰화된 외국어 문장이 결합절 또는 관계사절에 해당하는지 여부를 판별하여 해당 부분에 마킹을 수행하는 단계를 더 포함할 수 있다.
본 발명의 일부 실시예에서, 상기 대상 지문의 외국어 문장에 대한 구문을 난이도를 조정하는 단계는, 상기 난이도가 조정된 외국어 문장에 대하여 트루케이싱(truecasing) 과정 및 미사용 가능한 문장부호를 제거하는 과정 중 적어도 하나를 수행하는 단계를 더 포함할 수 있다.
본 발명의 일부 실시예에서, 상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우, 상기 복수의 세부 외국어 문장 중 적어도 둘 이상의 세부 외국어 문장을 재결합시키거나, 또는 상기 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 재변환하는 단계를 더 포함할 수 있다.
본 발명의 일부 실시예서, 상기 입력된 대상 지문의 난이도를 측정하는 단계; 및 상기 대체 후보군 지문에 대한 각 난이도를 측정하는 단계는, 상기 대상 지문 및 대체 후보군 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하고, 상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대상 지문 및 대체 후보군 지문에 대한 각 난이도를 측정하되, 상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중 2 ~ 중3 수준의 단어 수, 단어 당 중 2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3~고2 수준의 단어 수, 단어 당 중3~고2 수준의 단어 수, 지문 전체에서의 고2~고3 수준의 단어, 단어 당 중3~고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함할 수 있다.
본 발명의 일부 실시예에서, 상기 대체 후보군 지문 중에서 사용자에 의해 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력하는 단계는, 상기 대체 후보군 지문에 대한 난이도 측정 결과에 따른 난이도 조정 가능 범위를 제공하는 단계; 및 상기 난이도 조정 가능 범위 내에 상기 타겟 난이도가 포함되는 경우, 상기 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력하는 단계를 포함할 수 있다.
상술한 과제를 해결하기 위한 본 발명의 다른 면에 따른 컴퓨터 프로그램은, 하드웨어인 컴퓨터와 결합되어 상기 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법을 실행하며, 컴퓨터 판독가능 기록매체에 저장된다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
상술한 본 발명에 의하면, 온라인 또는 오프라인 상에 현존하는 임의의 외국어 지문들을 대상으로 사용자가 희망하는 타겟 난이도에 맞도록 변환된 교육용 외국어 지문으로 제공이 가능하다.
즉, 외국어 문제 작성의 경우 지문 창작 비용이 매우 높은 편이나, 본 발명에 의하면 수능과 토익 등 각종 영어 시험용 또는 영어 교육용 지문을 저비용으로 창작이 가능하다.
또한, 다양한 난이도별로 교육용 외국어 지문 생성이 가능하며, 이를 통해 저비용으로 문제 은행 생성이 가능하다는 장점이 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 방법의 순서도이다.
도 2는 본 발명의 일 실시예에서의 어휘를 대상으로 난이도를 조정하는 과정을 설명하기 위한 순서도이다.
도 3은 어휘를 대상으로 난이도를 조정하는 과정의 일 예시를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에서의 구문을 대상으로 난이도를 조정하는 과정을 설명하기 위한 순서도이다.
도 5는 구문을 대상으로 난이도를 조정하는 과정의 일 예시를 설명하기 위한 도면이다.
도 6은 본 발명의 일 실시예에서의 난이도 측정 기준을 설명하기 위한 도면이다.
도 7은 타겟 난이도에 부합하는 대체 지문을 선택하는 내용을 설명하기 위한 도면이다.
도 8은 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 장치를 설명하기 위한 도면이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야의 통상의 기술자에게 본 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다. 명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이하, 첨부된 도면을 참조하여 본 발명의 실시예에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 시스템(400)에 의해 수행되는 방법(이하, 교육용 외국어 지문 생성 방법)을 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 방법의 순서도이다.
한편, 도 1에 도시된 단계들은 교육용 외국어 지문 생성 방법을 제공하는 서비스 업체의 플랫폼 서버(이하, 서버)에 의해 수행되는 것으로 이해될 수 있지만, 이에 제한되는 것은 아니다.
먼저, 서버는 하나 이상의 외국어 문장으로 구성된 지문(이하, 대상 지문)을 입력받는다(S110).
본 발명의 일 실시예에서 외국어는 영어로 한정되는 것이 아니라, 일본어, 중국어 등 모국어가 아닌 모든 외국어가 그 대상이 될 수 있다. 또한, 본 발명의 일 실시예는 한국어를 배제하는 것이 아닌바 외국인을 대상으로 할 경우에는 한국어도 외국어로 적용될 수 있음은 물론이다.
다음으로, 서버는 입력된 대상 지문의 난이도를 측정한다(S120). 이때, 본 발명의 일 실시예는 난이도가 높은 텍스트를 사용자의 언어 수준에 맞게 단순화시키기 위한 것이므로, 서버는 대상 지문의 난이도가 사용자에 의해 미리 설정된 타겟 난이도보다 높을 경우 난이도를 낮추기 위하여 다음 단계를 수행할 수도 있으나, 사용자의 타겟 난이도는 가변될 수 있는바 반드시 이에 한정되는 것은 아니다. 또한, 본 발명의 일 실시예는 대상 지문의 난이도를 낮추는 것으로 한정되는 것은 아니며, 서버는 대상 지문의 난이도가 사용자에 의해 미리 설정된 타겟 난이도보다 낮을 경우 난이도를 높이기 어휘 단순화와 구문 단순화의 반대 과정을 수행할 수도 있다.
즉, 서버는 대상 지문의 난이도가 사용자에 의해 설정된 타겟 난이도보다 높을 경우 난이도를 낮추기 위한 과정, 반대로 난이도를 높이기 위한 과정을 수행할 수 있으며, 이러한 과정을 복합적으로 수행할 수도 있다.
한편, 사용자는 소정의 단말 장치를 이용하여 타겟 난이도를 설정할 수 있다. 예를 들어 사용자의 단말 장치는 스마트폰, 태블릿, PDA, 랩톱, 데스크톱 등과 같은 컴퓨터 장치 또는 전기 통신 장치일 수 있으나, 이에 제한되는 것은 아니다.
다음으로, 서버는 대상 지문의 외국어 문장에 대한 난이도를 조정하는 과정을 수행한다(S130).
이때, 서버는 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정하는 과정(이하, 어휘 난이도 조정 과정)과, 대상 지문의 외국어 문장에 포함된 구문을 대상으로 난이도를 조정하는 과정(이하, 구문 난이도 조정 과정)을 통해 대상 지문의 외국어 문장에 대한 난이도를 조정하는 과정을 수행한다.
이하에서는 본 발명의 일 실시예에 따른 어휘 난이도 조정과정과 구문 난이도 조정 과정을 구체적으로 설명하도록 한다.
도 2는 본 발명의 일 실시예에서의 어휘를 대상으로 난이도를 조정하는 과정을 설명하기 위한 순서도이다. 도 3은 어휘를 대상으로 난이도를 조정하는 과정의 일 예시를 설명하기 위한 도면이다.
어휘 난이도 조정 과정을 수행하는 목적은 어휘를 더 단순한 것으로 대체하거나 단순한 어휘를 보다 난이도가 높은 어휘로 대체하기 위한 것이다.
일 예로 어휘를 단순화하기 위해 종래에는 특정 텍스트의 모든 단어들에 대하여 WordNet을 통해 동의어(Synonym)들을 찾았다. 그리고 모든 동의어들에 대해 심리 언어학 사전(Psycholinguistic Dictionary)에서 kucera francis frequency를 산출하였다. 이는 더 많이 쓰이는 단어가 덜 쓰이는 단어들보다 심리적으로 난이도가 더 낮은 것으로 간주되므로, kucera francis frequency가 높게 산출될수록 해당 단어의 난이도는 더 낮게 평가된다. 이 과정을 통해 특정 텍스트의 단어들이 kucera francis frequency가 더 높은 것으로 대체되는 방식으로 어휘 단순화 과정이 진행되었다. 하지만, kucera francis frequency는 1967년도 자료에 기반한 연구로, 현재 사용되기에는 부적절하다.
한편, 사용 빈도수에만 의존하는 방식을 통한 어휘 단순화 과정은 원래 텍스트가 가지고 있던 의미를 그대로 전달하지 못할 수 있다. 이는 하나의 단어라 할지라도 여러 의미를 가질 수 있기 때문에, 동의어 중 빈도수가 높은 것만을 선택해 단순화를 진행한다면 기존 언어와는 전혀 다른 뜻의 동의어로 대체될 수 있기 때문이다.
이와 같이 종래의 언어 단순화 과정은 대부분 모든 동의어 중 난이도가 가장 낮은 것만을 사용하여 단순화를 진행하였기 때문에 문맥에 적합하지 않은 경우가 빈번하였다.
이러한 문제를 해결하기 위하여, 본 발명의 일 실시예는 동의어를 추출하여 비슷한 의미의 단어를 검출하는 것과 더불어, 언어 모델을 사용하여 해당 단어가 문맥에 맞는지도 고려하는 과정을 통해 자연스러운 난이도 조정이 가능하게끔 할 수 있다.
이를 위해, 서버는 대상 지문에 포함된 어느 해당 단어에 대한 모든 동의어를 추출하여 제1 리스트를 생성한다(S210). 일 실시예로, 서버는 워드넷(WordNet)을 이용하여 해당 단어에 대한 동의어를 추출할 수 있다.
다음으로, 서버는 미리 학습된 언어 모델(Language Model)에 기초하여, 해당 단어의 문맥적 의미를 고려하여 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성한다(S220).
이때, 미리 학습된 언어 모델은 베이지안 네트워크(Bayesian Network) 기반의 잠재 단어 언어 모델(Latent Words Language Model)일 수 있다. 서버는 잠재 단어 언어 모델에 기초하여, 해당 단어와 연결된 전후 단어들의 문맥적 의미를 고려한 후 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성할 수 있다.
본 발명의 일 실시예에서의 잠재 단어 언어 모델은 특정 단어와 전후로 연결된 단어들을 고려하여 해당 단어의 문맥적 의미 파악을 가능하게 한다. 이러한 잠재 단어 언어 모델을 이용하여 서버는 라벨링되지 않은 상태의 말뭉치를 학습할 수 있다. 또한, 서버는 잠재 단어 언어 모델을 통해 해당 단어에 대한 모든 동의어와 관련된 단어에 대한 확률 세트(Probability Set)를 학습하는바, 워드넷에서 단순히 동의어를 가져와서 대체하는 것보다 정확한 어휘 난이도 조정이 가능하다.
그 다음, 서버는 제1 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정한다(S230). 즉, 서버는 교집합에 속하는 단어들을 해당 단어의 의미와 문맥까지 고려한 후보군인 것으로 간주한다.
다음으로, 서버는 해당 단어를 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 가장 낮은 단어로 대체하거나 난이도가 가장 높은 단어로 대체한다(S240). 일 실시예로, 서버는 후보군 단어 중 어느 단어로 대체하는 것이 더욱 단순화하거나 난이도를 상향시킬 수 있는지를 확인하기 위해, 한국 영어 교육 과정에서 단어 난이도를 정리한 것 중 가장 최신 자료인 CoKEC-word를 이용할 수 있다. CoKEC-word에는 약 50,000개의 단어가 Level A부터 E까지 카테고리 별로 정리되어 있다.
도 3은 어휘를 대상으로 난이도를 조정하는 과정의 일 예시로, 예를 들어 “A Japanese electronic executive was kidnapped here.”이라는 문장 중 'executive' 단어를 대상으로 어휘 난이도 조정 과정을 수행하는 경우, 'executive' 단어의 모든 동의어를 추출하여 제1 리스트로 생성하고, 언어 모델에 기초하여 'executive'를 대체 가능한 단어들의 집합인 제2 리스트를 생성한다.
그리고 제1 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정한 후, CoKEC-word를 이용하여 해당 단어를 후보군에 속하는 단어 중 상대적으로 난이도가 낮은 또는 높은 단어로 대체하여 난이도를 조정할 수 있다.
한편, 실시예에 따라 서버는 해당 단어를 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 가장 높은 단어 또는 현재 난이도보다 높은 난이도를 갖도록 하는 단어로 대체할 수도 있다. 일 예로, 어휘 단순화 과정을 통해 대상 지문의 난이도가 사용자의 타겟 난이도보다 낮아졌으나, 사용자의 교육 수준에 비하여 너무 낮은 것으로 판단시, 현재 난이도보다 높은 난이도를 갖는 단어로 대체할 수 있다. 이때, 사용자의 교육 수준은 사용자의 현재 학년 정보에 상응하도록 결정되나 반드시 이에 한정되는 것은 아니며 수동 설정도 가능함은 물론이다.
도 4는 본 발명의 일 실시예에서의 구문을 대상으로 난이도를 조정하는 과정을 설명하기 위한 순서도이다. 도 5는 구문을 대상으로 난이도를 조정하는 과정의 일 예시를 설명하기 위한 도면이다.
텍스트 난이도 조정 과정은 어휘 난이도 조정 과정과 더불어 구문 난이도 조정 과정이 필요하다. 어휘 난이도 조정 과정의 경우 이미 다수 연구된 바가 있으며, 기존 규칙 베이스 코딩없이 딥러닝만을 통해 난이도 조정 작업을 진행하는 연구도 많다.
하지만, 아직까지 구체적으로 구문 난이도 조정을 위한 오픈소스 연구는 거의 없는 실정이다. 이는 구문이 어휘와는 달리 일일이 대응할 수 있는 요소가 없어 딥러닝만을 가지고 난이도를 조정하기에는 난이도가 너무 높기 때문이다. 또한, 딥러닝 방식만을 채택하면 오류 발생시 정확히 어느 부분을 추가 수정해야 하는지 전혀 알 수 없다. 이와 관련하여, 심플 위키피디아(Simple Wikipedia)와 노멀 위키피디아(Normal Wikipedia)를 활용하여 어휘와 구문을 크게 구분하지 않고 난이도 조정을 진행하려는 시도는 있었지만, 이는 특수한 학습 소스만 적용 가능하여 활용도가 극히 낮다는 문제가 있었다.
이러한 문제점을 해소하기 위하여, 본 발명의 일 실시예는 구문 난이도 조정 과정을 통해 대상 지문 내 외국어 문장을 결합절(Conjoint Clauses), 관계사절(Relative Clauses), 동격어절(Appositive Clauses)에 따라 분할하고, 수동태형을 능동태형 또는 그 반대로 변환하여 텍스트에 대한 난이도를 조정한다.
구체적으로, 서버는 분석 모듈을 통해 대상 지문의 외국어 문장을 의존 구문 분석 모델(Dependency Parsing)에 기초하여 토큰화(Tokenization)한 후(S310), 토큰화된 외국어 문장이 결합절 또는 관계사절에 해당하는지 여부를 판별하여 해당 부분에 마킹을 수행한다(S320).
본 발명의 일 실시예는 구문의 난이도를 낮추기 위하여 의존 구문 분석 모델로 보편적 의존성(Universal Dependencies) 부분에서 가장 높은 점수를 가진 Stanford NLP Parser(CoreNLP)를 적용할 수 있다.
분석 모듈에서는 한 문장에서 결합절이나 관계사절에 해당하여 구문 난이도 조정이 필요한 부분이 있는지 마킹하는 과정을 진행한다. 이때, 서버는 결합절을 마킹하는 과정에서는 'and'와 'when'과 같이 문맥의 의미에 따라 구분하여 마킹할 수 있다.
다음으로, 서버는 변환 모듈을 통해 대상 지문의 외국어 문장에 대하여 동격어절, 결합절 및 관계사절 중 어느 하나에 해당하는지 여부를 판단하고(S330), 어느 하나에 해당하는 외국어 문장을 복수의 세부 외국어 문장으로 단순화하거나 단순화된 복수의 세부 외국어 문장을 결합하여 난이도를 상향시켜 난이도를 조정한다(S340). 그 다음, 서버는 단순화된 외국어 문장 중 수동태형의 외국어 문장을 능동태형의 외국어 문장으로 단순화하거나, 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 변경하여 난이도를 상향시킨다(S350).
서버는 변환 모듈을 통한 구문 난이도 조정 과정을 더 이상 적용할 규칙이 존재하지 않을 때까지 계속하여 반복한다. 일 예로, 본 발명의 일 실시예에서의 모든 구문 단순화 과정은 보편성 의존성에 기반하여 훈련된 CoreNLP에서 도출된 결과 값을 기반으로 진행될 수 있다.
예를 들어 구문 난이도를 낮추기 위한 과정과 관련하여 도 5를 참조하면, “The problem was handled by myself and won't give you more trouble.”이라는 문장이 있는 경우, 분석 모듈에서의 의존 구문 분석 모델을 통한 파싱 과정을 거친 위 문장은 분석 모듈로 전달된 후 담화 표지어(Discourse Marker)가 확인된다.
위 예시 문장에서는 'and'가 담화 표지어에 해당하며, 분석 모듈은 결합절 함수를 실행시킨다. 결합절 함수는 부사절 수식어(ADVL, Adverbial Clause Modifier)인지 동위 접속사(CC, Coordinating Conjunction) 태그인지를 먼저 확인하며, 위 예시 문장은 'and'와 'give'에서 동위 접속사 관계가 있다.
그 다음, 접합(conjunction) 태그를 검출하며, 위 예시 문장에서는 'and'와 동위 접속사 관계에 있는 'give'와 'handled'가 접합 관계에 있다. 이에 따라 “The problem was handled by myself.”, “And won't give you more trouble.”과 같이 두 문장으로 분할된다.
난이도를 낮추기 위한 구문 단순화 과정을 거친 위 두 문장은 다시 동일한 과정을 반복하게 되며, “And won't give you more trouble.” 문장의 경우 더 이상 적용할 단순화 규칙이 존재하지 않으므로 구문 단순화 과정을 종료한다.
반면, “The problem was handled by myself.” 문장의 경우 수동태형 문장이기 때문에 구문 단순화 과정을 통해 “Myself handled the problem.”과 같은 능동태형 문장으로 다시 단순화된다.
다음으로, 서버는 형성 모듈을 통해 난이도가 조정 외국어 문장에 대하여 트루케이싱(truecasing) 과정 및 미사용 가능한 문장부호를 제거하는 과정 중 적어도 하나를 수행한다(S360). 본 발명의 일 실시예에서 형성 모듈의 목적은 난이도가 조정된 문장들을 문법에 맞도록 재배열하는 것에 있다. 일 실시예로, 트루케이싱은 파이썬 구현 모델을 통해 실행될 수 있으며, 영어 외 타 언어 학습시 해당 언어의 말뭉치로 다시 학습시키면 된다.
일 예로, 결합절을 두 문장으로 분할하는 경우, 형성 모듈은 새로운 담화 표지어가 필요한지 여부에 대해 확인하는 과정을 진행한다. 예를 들어, 'although'라는 담화 표지어를 통해 두 문장으로 분할해야 하는 경우, 뒷 문장에는 'but'을 추가해야 한다. 또한, 동격어절을 나누는 경우에도 주어와 동격어를 이어주는 동사를 시제와 단수, 복수 문법에 맞도록 변형해주어야 한다.
한편, 구문 난이도 조정 과정을 통해 복수 개의 문장으로 분할 또는 이들을 결합하거나 능동태형 문장으로 단순화하거나 수동태형 문장으로 난이도를 상향시킴에 따라, 후술하는 난이도 측정 결과 사용자의 타겟 난이도보다 더 난이도가 낮거나 또는 높아져 사용자의 교육 수준에 부합하지 않는 경우 구문 단순화 과정을 추가적으로 수행하거나, 또는 다시 분할된 문장을 결합하는 과정, 또는 능동태형을 수동태형으로 변환하는 과정 중 적어도 하나를 수행하여 다시 난이도를 높일 수도 있다.
다시 도 1을 참조하면, 서버는 어휘 난이도 조정 과정과 구문 난이도 조정 과정을 수행한 결과, 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정한다(S140). 그리고 대체 후보군 지문 중에서 사용자에 의해 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력한다(S150).
구문 난이도 조정 과정을 완료하면 대상 지문에 포함된 모든 문장들에 대해 대체 가능한 형태(Potential Solutions)가 생성된다. 서버는 이러한 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 난이도를 계산한다.
지문의 난이도를 측정하기 위한 기존의 가장 대표적인 시도로 Flesch-Kincaid Readability Test가 있다. 이는 지문의 전체 단어 개수, 문장 개수, 음절 수에 따라 학년 별로 난이도를 구분하려는 시도였다. 하지만, 세 가지 기준 만으로는 사람이 느끼는 지문의 어려움 정도를 측정하기 어려웠으며 그 오차범위도 크다는 문제가 있었다.
현재는 파싱 기술이 많이 발전하여 외국어 지문을 보다 세분화할 수 있게 되었으며, 동사구 수, 종속절 수, 전치사구 수 등의 분류도 가능하다. 이에 따라, 본 발명의 일 실시예는 기존 Flesch-Kincaid Readability Test 한계에서 벗어나 더욱 구체화된 난이도 측정 기준(LXPER Index)을 설정하였다. 특히, 본 발명의 일 실시예는 눈으로 보이는 기준뿐만 아니라 사람이 심리학적으로 느낄 수 있는 어려움을 보다 정확히 측정하기 위한 어휘 체인(Lexical Chain)을 고려하는 것을 특징으로 한다.
도 6은 본 발명의 일 실시예에서의 난이도 측정 기준을 설명하기 위한 도면이다. 이때, 도 6에 도시된 난이도 측정 기준은 Berkeley Neural Parser를 적용하여 측정 가능한 거의 모든 항목들을 도출한 것이다.
도 6에 도시된 바와 같이, 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중 2 ~ 중3 수준의 단어 수, 단어 당 중 2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3~고2 수준의 단어 수, 단어 당 중3~고2 수준의 단어 수, 지문 전체에서의 고2~고3 수준의 단어, 단어 당 중3~고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함할 수 있다.
서버는 대상 지문 및 대체 후보군 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하고, 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법(Linear Regression)을 적용하여 입력된 대상 지문의 난이도와 대체 후보군 지문에 대한 각 난이도를 측정한다. 이때, 서버는 식 1을 이용하여 난이도를 측정할 수 있다.
[식 1]
Figure 112020098257197-pat00001
식 1에서 a, b, c 등의 파리미터들에 대한 최적화 과정을 수행하고 나면, 대상 지문의 모든 문장들에 대하여 난이도 측정기준에 따른 결과에 선형 회귀 기법을 적용하여, 대체 후보군 지문에 대한 각 난이도를 측정할 수 있다.
한편, 본 발명의 일 실시예에서 선형 회귀 모델을 위한 훈련 모델(Training Model)은 다양한 옵션이 있을 수 있으며, 이를 위한 훈련 데이터로 정규 교육 과정에서 사용되는 모든 텍스트를 적용할 수 있다.
도 7은 타겟 난이도에 부합하는 대체 지문을 선택하는 내용을 설명하기 위한 도면이다.
대체 후보군 지문에 대한 난이도를 측정한 후, 서버는 대체 후보군 지문에 대한 난이도 측정 결과에 따른 난이도 조정 가능 범위를 제공한다. 그리고 서버는 난이도 조정 가능 범위 내에 타겟 난이도가 포함되는 경우, 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력한다.
예를 들어, 서버는 도 7에서 대체 후보군 지문인 'solution 1~solution 6'의 각 난이도를 비교하여 난이도 조정 가능 범위를 제공할 수 있다. 서버는 가장 단순화시킬 수 있는 범위(low point)에서부터 사용자의 타겟 난이도(User reference), 그리고 가장 난이도가 높은 범위(high point)까지 구분하여 사용자에게 제공할 수 있다.
기본적으로, 서버는 사용자의 타겟 난이도가 설정된 경우 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력할 수 있다. 만약 타겟 난이도가 설정되지 않은 경우에는 가장 단순화된 범위(low point)를 교육용 외국어 지문으로 제공할 수도 있다. 또는 그 반대로 가장 난이도가 상향된 범위를 교육용 외국어 지문으로 제공할 수도 있다.
한편, 상술한 설명에서, 단계 S110 내지 S360은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 후술하는 도 8의 내용은 도 1 내지 도 7의 교육용 외국어 지문 생성 방법에도 적용될 수 있다.
이하에서는 본 발명의 일 실시예에 따른 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 장치(400, 이하 교육용 외국어 지문 생성 장치)에 대하여 설명하도록 한다.
도 8은 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 장치 (400)를 설명하기 위한 도면이다.
도 8을 참조하면, 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 장치(400)는 통신모듈(410), 메모리(420) 및 프로세서(430)를 포함한다.
통신모듈(410)은 사용자 단말 기타 외국어 지문을 제공하는 단말과 데이터를 송수신하여, 하나 이상의 외국어 문장으로 구성된 대상 지문을 입력받는다.
메모리(420)에는 통신모듈(410)로부터 수신한 데이터에 기초하여 사용자의 타겟 난이도에 부합하는 교육용 외국어 지문을 출력하기 위한 프로그램이 저장된다.
프로세서(430)는 메모리(420)에 저장된 프로그램을 실행시킴에 따라, 입력된 대상 지문의 난이도를 측정하고, 대상 지문의 외국어 문장에 대한 난이도 조정 과정을 수행하며, 난이도 조정 과정 수행 결과, 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정한 후, 대체 후보군 지문 중에서 사용자에 의해 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력한다. 이때, 프로세서(430)는 대상 지문의 외국어 문장에 대한 난이도 조정 과정으로 어휘 난이도 조정 과정 및 구문 난이도 조정 과정을 수행한다.
도 8을 참조하여 설명한 교육용 외국어 지문 생성 장치(400)는 상술한 서버의 구성요소로 제공될 수 있다.
이상에서 전술한 본 발명의 일 실시예에 따른 교육용 외국어 지문 생성 방법은, 하드웨어인 컴퓨터와 결합되어 실행되기 위해 프로그램(또는 어플리케이션)으로 구현되어 매체에 저장될 수 있다.
상기 전술한 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C, C++, JAVA, Ruby, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
400 : 교육용 외국어 지문 생성 장치
410 : 통신모듈
420 : 메모리
430 : 프로세서

Claims (11)

  1. 서버에 의해 수행되는 방법에 있어서,
    상기 서버가 하나 이상의 외국어 문장으로 구성된 지문(이하, 대상 지문)을 입력받는 단계;
    상기 서버가 상기 입력된 대상 지문의 난이도를 측정하는 단계;
    상기 서버가 상기 대상 지문의 외국어 문장에 대한 난이도를 조정하는 단계;
    상기 서버가 상기 난이도 조정 결과, 상기 대상 지문의 외국어 문장에 대하여 각각 대체 가능한 문장으로 구성된 대체 후보군 지문에 대한 각 난이도를 측정하는 단계; 및
    상기 서버가 상기 대체 후보군 지문 중에서 사용자에 의해 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력하는 단계를 포함하며,
    상기 대상 지문의 외국어 문장에 대한 난이도를 조정하는 단계는,
    상기 서버가 상기 대상 지문의 외국어 문장에 포함된 어휘를 대상으로 난이도를 조정하는 단계; 및
    상기 서버가 상기 대상 지문의 외국어 문장에 대한 구문을 대상으로 난이도를 조정하는 단계를 포함하고,
    상기 대상 지문의 외국어 문장에 포함된 어휘를 난이도를 조정하는 단계는,
    상기 서버가 상기 대상 지문에 포함된 어느 해당 단어에 대한 모든 동의어를 추출하여 제1 리스트를 생성하는 단계;
    상기 서버가 미리 학습된 언어 모델에 기초하여, 상기 해당 단어의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 단계;
    상기 서버가 상기 제1 및 제2 리스트의 교집합에 속하는 단어를 후보군으로 설정하는 단계; 및
    상기 서버가 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 가장 낮은 또는 높은 단어로 대체하는 단계를 포함하고,
    상기 미리 학습된 언어 모델에 기초하여, 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 단계는,
    상기 해당 단어와 연결된 전후 단어들의 문맥적 의미를 고려하여 상기 해당 단어에 대하여 대체 가능한 단어를 포함하는 제2 리스트를 생성하는 것인,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우,
    상기 서버가 상기 해당 단어를 상기 후보군에 속하는 단어 중 미리 정의된 교육과정 상 난이도가 상기 해당 단어보다 더 높은 단어로 대체하는 단계를 더 포함하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  5. 제1항에 있어서,
    상기 대상 지문의 외국어 문장에 대한 구문을 난이도를 조정하는 단계는,
    상기 서버가 상기 대상 지문의 외국어 문장에 대하여 동격어절, 결합절 및 관계사절 중 어느 하나에 해당하는지 여부를 판단하는 단계;
    상기 서버가 상기 어느 하나에 해당하는 외국어 문장을 복수의 세부 외국어 문장으로 단순화하거나 단순화된 복수의 세부 외국어 문장을 결합하여 난이도를 상향시켜 난이도를 조정하는 단계; 및
    상기 서버가 상기 난이도가 조정된 외국어 문장 중 수동태형의 외국어 문장을 능동태형의 외국어 문장으로 단순화하거나, 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 변경하여 난이도를 상향시키는 단계를 포함하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  6. 제5항에 있어서,
    상기 대상 지문의 외국어 문장에 대한 구문을 난이도를 조정하는 단계는,
    상기 서버가 상기 대상 지문의 외국어 문장을 의존 구문 분석 모델에 기초하여 토큰화하는 단계; 및
    상기 서버가 상기 토큰화된 외국어 문장이 결합절 또는 관계사절에 해당하는지 여부를 판별하여 해당 부분에 마킹을 수행하는 단계를 더 포함하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  7. 제5항에 있어서,
    상기 대상 지문의 외국어 문장에 대한 구문을 난이도를 조정하는 단계는,
    상기 서버가 상기 난이도가 조정된 외국어 문장에 대하여 트루케이싱(truecasing) 과정 및 미사용 가능한 문장부호를 제거하는 과정 중 적어도 하나를 수행하는 단계를 더 포함하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  8. 제5항에 있어서,
    상기 출력된 교육용 외국어 지문의 난이도가 상기 타겟 난이도보다 낮은 경우,
    상기 서버가 상기 복수의 세부 외국어 문장 중 적어도 둘 이상의 세부 외국어 문장을 재결합시키거나, 또는 상기 능동태형의 외국어 문장을 수동태형의 외국어 문장으로 재변환하는 단계를 더 포함하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  9. 제1항에 있어서,
    상기 서버가 상기 입력된 대상 지문의 난이도를 측정하는 단계; 및
    상기 서버가 상기 대체 후보군 지문에 대한 각 난이도를 측정하는 단계는,
    상기 대상 지문 및 대체 후보군 지문에 대하여 미리 설정된 난이도 측정 기준을 적용하고, 상기 미리 설정된 난이도 측정 기준에 따른 결과에 선형 회귀 기법을 적용하여 상기 대상 지문 및 대체 후보군 지문에 대한 각 난이도를 측정하되,
    상기 미리 설정된 난이도 측정 기준은, 문장 당 평균 단어 수, 문장 당 평균 명사구 수, 문장 당 평균 명사수, 문장 당 평균 동사구 수, 문장 당 평균 형용사 수, 문장 당 평균 종속절 수, 문장 당 평균 전치사구 수, 문장 당 독립체 수, 문장 당 고유 독립체 수, 문장 당 어휘 체인 수, 단어 당 평균 음절 수, 단어 당 어휘 체인 수, 명사구 당 어휘 체인 수, 지문 전체에서의 3음절 초과 단어 비율, 지문 전체에서의 명사구 수, 지문 전체에서의 명사 수, 지문 전체에서의 동사구 수, 지문 전체에서의 형용사 수, 지문 전체에서의 종속절 수, 지문 전체에서의 전치사구 수, 지문 전체에서의 고유 독립체 수, 지문 전체에서의 어휘 체인 수, 지문 전체에서의 중 2 ~ 중3 수준의 단어 수, 단어 당 중 2 ~ 중3 수준의 단어 수, 지문 전체에서의 중3~고2 수준의 단어 수, 단어 당 중3~고2 수준의 단어 수, 지문 전체에서의 고2~고3 수준의 단어, 단어 당 중3~고2 수준의 단어 수, 지문 전체에서의 대학 수준의 단어 수 및 단어 당 대학 수준의 단어 수 중 하나 이상을 포함하는 것인,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  10. 제9항에 있어서,
    상기 대체 후보군 지문 중에서 사용자에 의해 미리 설정된 타겟 난이도에 부합하는 지문을 교육용 외국어 지문으로 출력하는 단계는,
    상기 서버가 상기 대체 후보군 지문에 대한 난이도 측정 결과에 따른 난이도 조정 가능 범위를 제공하는 단계; 및
    상기 서버가 상기 난이도 조정 가능 범위 내에 상기 타겟 난이도가 포함되는 경우, 상기 타겟 난이도에 부합하는 대체 지문을 교육용 외국어 지문으로 출력하는 단계를 포함하는,
    지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법.
  11. 컴퓨터와 결합되어, 제1항, 제4항 내지 제10항 중 어느 하나의 항의 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법을 실행시키기 위하여 컴퓨터 판독가능 기록매체에 저장된 컴퓨터 프로그램.
KR1020200118978A 2020-09-16 2020-09-16 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법 KR102251554B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200118978A KR102251554B1 (ko) 2020-09-16 2020-09-16 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법
PCT/KR2021/012529 WO2022060060A1 (ko) 2020-09-16 2021-09-14 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200118978A KR102251554B1 (ko) 2020-09-16 2020-09-16 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법

Publications (1)

Publication Number Publication Date
KR102251554B1 true KR102251554B1 (ko) 2021-05-13

Family

ID=75913236

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200118978A KR102251554B1 (ko) 2020-09-16 2020-09-16 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법

Country Status (2)

Country Link
KR (1) KR102251554B1 (ko)
WO (1) WO2022060060A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022060060A1 (ko) * 2020-09-16 2022-03-24 주식회사 렉스퍼 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12061873B2 (en) * 2020-10-30 2024-08-13 Microsoft Technology Licensing, Llc Determining lexical difficulty in textual content

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120050804A (ko) * 2010-11-11 2012-05-21 (주)컴퍼스미디어 외국어 지문 편집 시스템 및 외국어 지문 편집 서비스 제공 방법
JP2013072973A (ja) * 2011-09-27 2013-04-22 Hitachi Solutions Ltd 語学学習教材提供システム、文章変換方法及びプログラム
KR20140087951A (ko) * 2013-01-01 2014-07-09 주홍찬 이미지 데이터 및 원어민의 발음 데이터를 이용한 영어 문법 학습장치 및 방법
KR102018786B1 (ko) 2018-09-18 2019-09-06 유인에듀닉스 주식회사 지문을 이용한 외국어 학습자료 제공방법 및 그 시스템
KR102050266B1 (ko) * 2018-11-19 2019-12-02 이형종 영어 학습 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
KR20200083111A (ko) * 2018-12-31 2020-07-08 주식회사 엘솔루 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102251554B1 (ko) * 2020-09-16 2021-05-13 주식회사 렉스퍼 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20120050804A (ko) * 2010-11-11 2012-05-21 (주)컴퍼스미디어 외국어 지문 편집 시스템 및 외국어 지문 편집 서비스 제공 방법
JP2013072973A (ja) * 2011-09-27 2013-04-22 Hitachi Solutions Ltd 語学学習教材提供システム、文章変換方法及びプログラム
KR20140087951A (ko) * 2013-01-01 2014-07-09 주홍찬 이미지 데이터 및 원어민의 발음 데이터를 이용한 영어 문법 학습장치 및 방법
KR102018786B1 (ko) 2018-09-18 2019-09-06 유인에듀닉스 주식회사 지문을 이용한 외국어 학습자료 제공방법 및 그 시스템
KR102050266B1 (ko) * 2018-11-19 2019-12-02 이형종 영어 학습 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
KR20200083111A (ko) * 2018-12-31 2020-07-08 주식회사 엘솔루 언어 교정 시스템 및 그 방법과, 그 시스템에서의 언어 교정 모델 학습 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
박영기. 통계 언어모델 기반 객관식 빈칸 채우기 문제 생성. 정보교육학회 논문지. 2016.04., 제20권, 제2호, pp.197-206 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022060060A1 (ko) * 2020-09-16 2022-03-24 주식회사 렉스퍼 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법, 그 컴퓨터 프로그램 및 그 장치

Also Published As

Publication number Publication date
WO2022060060A1 (ko) 2022-03-24

Similar Documents

Publication Publication Date Title
Correia et al. Automatic generation of cloze question stems
US8364470B2 (en) Text analysis method for finding acronyms
US20110270603A1 (en) Method and Apparatus for Language Processing
Evans Comparing methods for the syntactic simplification of sentences in information extraction
KR102552811B1 (ko) 클라우드 기반 문법 교정 서비스 제공 시스템
CN111832278B (zh) 文档流畅度的检测方法、装置、电子设备及介质
KR102251554B1 (ko) 지문의 난이도 조정을 통하여 교육용 외국어 지문을 생성하는 방법
KR20230061001A (ko) 문서 교정 장치 및 방법
US20100094615A1 (en) Document translation apparatus and method
Aliero et al. Systematic review on text normalization techniques and its approach to non-standard words
Hao et al. SCESS: a WFSA-based automated simplified chinese essay scoring system with incremental latent semantic analysis
Imperial et al. Application of Lexical Features Towards Improvement of Filipino Readability Identification of Children's Literature
Rytting et al. Spelling correction for dialectal Arabic dictionary lookup
Gamon et al. Using learner corpora for automatic error detection and correction
US8977538B2 (en) Constructing and analyzing a word graph
Rauf et al. Automated grammatical error correction: A comprehensive review
Tang Assessing the Effectiveness of Corpus-Based Methods in Solving SAT Sentence Completion Questions.
Asenbrener Katic et al. Comparison of two versions of formalization method for text expressed knowledge
Dashti et al. PERCORE: A Deep Learning-Based Framework for Persian Spelling Correction with Phonetic Analysis
Alosaimy Ensemble Morphosyntactic Analyser for Classical Arabic
Nishy Reshmi et al. Textual entailment classification using syntactic structures and semantic relations
CN113822053A (zh) 一种语法错误检测方法、装置、电子设备及存储介质
Fu et al. A corpus-based Japanese translation model using fuzzy semantic optimal control technique
CN114003733B (zh) 一种应用于电力文本的数据增强方法及系统
Wang Research on College English curriculum algorithm based on hierarchical model

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant