KR102201709B1 - 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템 - Google Patents

국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템 Download PDF

Info

Publication number
KR102201709B1
KR102201709B1 KR1020200100213A KR20200100213A KR102201709B1 KR 102201709 B1 KR102201709 B1 KR 102201709B1 KR 1020200100213 A KR1020200100213 A KR 1020200100213A KR 20200100213 A KR20200100213 A KR 20200100213A KR 102201709 B1 KR102201709 B1 KR 102201709B1
Authority
KR
South Korea
Prior art keywords
text
index
level
words
analysis
Prior art date
Application number
KR1020200100213A
Other languages
English (en)
Inventor
강호준
Original Assignee
주식회사 대교
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 대교 filed Critical 주식회사 대교
Priority to KR1020200100213A priority Critical patent/KR102201709B1/ko
Priority to KR1020200156703A priority patent/KR102484007B1/ko
Application granted granted Critical
Publication of KR102201709B1 publication Critical patent/KR102201709B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 국어 텍스트의 난이도를 자동으로 분석하고 독해지수를 측정할 수 있는 보다 객관화된 기술적 방법 및 이를 위한 시스템을 제공한다. 본 발명의 실시 예에 따른 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템에 의하면, 국어군 학습, 독서 과정에서 객관화된 기준인 독해지수(KReaD 지수)를 도입함으로써, 국어 학습 또는 독서를 하고자 하는 학습자/독서자의 학년 수준 또는/및 독해수준에 맞춘 차별화된 맞춤형 학습/독서 서비스 제공이 가능하게 되는 효과가 있다.

Description

국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템{METHOD AND SYSTEM FOR ESTIMATING A READING INDEX USING AUTOMATIC ANALYSIS PROGRAM FOR TEXT OF KOREAN LANGUAGE}
본 발명은 텍스트 난이도 분석 방법에 관한 것으로, 구체적으로 국어 텍스트를 자동으로 분석하여 독해 지수(가독성 지수, 독해 가능 지수)를 산출하는 방법 및 시스템에 관한 것이다.
독자의 수준을 고려한 텍스트 선정은 읽기 교육에서 중요한 과제이자 난제이다. 독자는 자신의 수준에 적합한 텍스트를 읽을 때 성공적인 독서 경험을 축적할 수 있을 뿐만 아니라 유능한 독자로 성장할 수 있다. 반면에 독자의 수준에 부합하지 않는 텍스트는 독자의 읽기 경험에 부정적 영향을 미친다. 독자의 읽기 능력에 비해 텍스트 난이도가 낮으면, 독자는 흥미를 느끼지 못한다. 반대로 텍스트가 지나치게 어려울 경우, 독자는 책을 읽다가 포기하거나 읽어도 의미를 이해하지 못한다. 이러한 점에서 독자에게 적합한 텍스트 선정은 성공적인 독서 경험의 필수 요건이라 할 수 있다.
독자에게 적합한 텍스트 선정의 필요성 인식을 바탕으로 국어 교육 분야에서 여러 연구를 진행해 왔다. 대부분의 연구물은 텍스트 선정을 위한 과학적이고 객관적인 준거를 마련하는 것에 초점이 있었다. 기초 연구를 바탕으로 현재는 독해지수를 개발하는 연구 성과로 이어지고 있다. 독해지수란 텍스트의 쉽고 어려운 정도를 측정하여 정량적으로 수치화한 것이다. 텍스트 선정 과정에서 독해지수를 활용하면, 평가자의 주관적 판단으로 인한 편향의 한계를 극복할 수 있다. 뿐만 아니라 독해지수는 교재에 필요한 텍스트 선정 과정에서 합리적인 기준으로 활용할 수도 있다. 따라서 연구자들은 타당도와 신뢰도를 갖춘 독해지수를 개발하기 위해 노력하고 있으며, 의미 있는 연구 성과를 축적하였다.
하지만 학계의 연구 축적에도 불구하고, 텍스트 선정에 대한 교육 현장의 어려움은 여전히 지속되고 있다. 이러한 상황을 독해지수와 관련지어 진단해 보면, 그 원인을 두 가지로 구분할 수 있다. 첫째, 독해지수의 기술적 완성도가 부족하였다. 독해지수의 완성도를 높이려면, 많은 표본을 누적하여 독해지수에 영향을 주는 요인별로 가중치를 부여하는 과정이 필요하다. 그런데 기존의 연구물에서는 독해지수의 기술적 완성도에 세밀한 조정이 미흡했을 뿐만 아니라 텍스트 특성을 파악하는 일부 독해지수를 제공하는 데 그쳤다. 그 결과, 텍스트의 분석에 대해 납득할 수 있는 측정 결과를 사용자들에게 보여 주지 못하는 실정이다.
둘째, 대중성을 확보한 텍스트 분석 프로그램의 개발 노력이 부족하였다. 독해지수 산출의 효율성을 높이기 위해 컴퓨터 프로그래밍을 통한 자동화가 요구된다. 이에 따라 일부 연구자들은 독해지수를 자동적으로 산출하는 컴퓨터 프로그램의 개발을 시도하였다. 문제는 텍스트 분석 프로그램의 규칙과 알고리즘이 복잡하다는 점이다. 컴퓨터 프로그래밍에 대한 기술적 소양을 갖추고 있지 않을 경우, 텍스트 분석을 시도하기 어려울 뿐만 아니라 측정 결과에 대한 이해도가 떨어질 수밖에 없다. 이는 독해지수의 적극적인 활용을 어렵게 만드는 원인이 되고 있다.
따라서, 독해지수가 교육적으로 유의미하게 활용될 수 있도록, 기술적 완성도와 사용의 편의성을 갖춘 국어 텍스트 분석 프로그램의 개발이 요구된다.
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로서, 국어 텍스트의 난이도를 자동으로 분석하고 독해지수를 측정할 수 있는 보다 객관화된 기술적 방법 및 이를 위한 시스템을 제공하고자 한다.
본 발명의 일 측면에 따르면, 독해지수 측정 시스템으로서, 국어 텍스트에 관한 텍스트 원본 파일을 입력받는 텍스트 입력부; 상기 텍스트 원본 파일에 따른 국어 텍스트에 관한 전처리를 수행하여 분석용 텍스트를 생성하는 텍스트 전처리부; 국어 텍스트 분석에 사용하기 위해 사전 구축된 어휘목록을 저장하는 어휘목록 데이터베이스; 상기 사전 구축된 어휘목록과 사전 지정된 텍스트 분석 기준을 적용하여, 상기 분석용 텍스트에 포함된 단어 수준, 문장 수준, 문단 수준, 텍스트 수준을 나타내는 사전 지정된 항목의 독해지수를 산출하는 텍스트 분석부;를 포함하는 독해지수 측정 시스템이 제공된다.
일 실시 예에서, 상기 텍스트 전처리부는, 상기 제1 기준에 따라 해당 국어 텍스트에서 공백 및 특수기호를 제거하고, 상기 제2 기준에 따라 동형어 분석이 가능한 형태소 분석기를 이용하여 해당 국어 텍스트에 포함된 단어에 관한 형태소 분석을 수행하며, 상기 제3 기준에 따라 접사 및 품사통용어 처리를 수행함으로써, 상기 텍스트 원본 파일에 따른 국어 텍스트를 정제하여 상기 분석용 텍스트를 생성한다.
여기서, 상기 접사 처리는 접두사 또는 접미사가 붙은 단어에 대하여 사전 선택된 국어 사전에 등재된 단어를 기준으로 단일 단어로 처리하거나 2개 이상의 품사를 갖는 복수의 단어로 처리하는 전처리를 나타내고, 상기 품사통용어 처리는 2개 이상의 품사로 사용되는 단어에 관해서 해당 단어의 쓰임새에 따른 품사를 결정하는 전처리를 나타낸다.
일 실시 예에서, 상기 어휘목록 데이터베이스에는 등급별 어휘목록이 포함되고, 상기 등급별 어휘목록은 빈도 지표 및 분포 지표를 이용하여 결정되는 등급별 어휘들이 포함되며, 상기 빈도 지표는 하기 수학식 1에 의해 산출되고, 상기 분포 지표는 하기 수학식 2에 의해 산출될 수 있다.
[수학식 1]
Figure 112020084074403-pat00001
여기서, m은 해당 어휘의 출현 확률임.
[수학식 2]
Figure 112020084074403-pat00002
여기서, n은 학년별 교재의 수이고, pi는 해당 교재에서의 해당 단어의 출현 빈도를 바탕으로 한 확률임.
일 실시 예에서, 상기 텍스트 분석부는, 상기 단어 수준을 나타내는 사전 지정된 항목의 독해지수를 산출함에 있어서, 단어 수, 단어의 평균 등급, 단어의 빈도, 어려운 단어의 수, 어려운 단어의 비율, 타입/토큰의 비율 중 적어도 2개에 따른 지수를 산출한다.
여기서, 상기 단어 수는 해당 텍스트에 포함되어 있는 전체 단어의 수를 나타내고, 상기 단어의 평균 등급은 상기 어휘목록 데이터베이스에 저장된 등급별 어휘목록을 기준으로 해당 텍스트에 포함되어 있는 단어 각각의 등급에 따른 평균을 나타내고, 상기 단어의 빈도는 해당 텍스트에 포함되어 있는 각 단어가 출현하는 빈도를 나타내고, 상기 어려운 단어의 수는 사전 구축된 쉬운 어휘목록을 기준으로 하여 확인되는 어려운 단어의 개수 또는 사전 구축된 상기 등급별 어휘목록을 기준으로 사전 지정된 소정 등급 이상의 어려운 단어의 개수를 나타내고, 상기 어려운 단어의 비율은 해당 텍스트에 포함되어 있는 전체 단어의 수 중 상기 어려운 단어의 수의 비율을 나타내고, 상기 타입/토큰의 비율(Type Token Ratio)은 해당 텍스트에 포함되어 있는 전체 단어의 수를 토큰값으로 하고 중복 단어를 제외한 단어의 수를 타입값으로 하였을 때의 타입값을 토큰값으로 나눈 비율을 나타낸다.
일 실시 예에서, 상기 텍스트 분석부는, 상기 문장 수준을 나타내는 사전 지정된 항목의 독해지수를 산출함에 있어서, 문장 수, 평균 문장 길이, 단문의 비율, 복문의 비율, 문장 구조 점수 중 적어도 2개의 지수를 산출한다.
여기서, 상기 문장 수는 해당 텍스트에 포함되어 있는 전체 문장의 수를 나타내고, 상기 평균 문장 길이는 한 문장에 포함된 단어의 수를 기준으로 평균한 값을 나타내고, 상기 단문의 비율 및 상기 복문의 비율은, 해당 텍스트에 포함되어 있는 전체 문장 중 단문의 비율과 복문의 비율을 나타내며, 상기 문장 구조 점수는 문장에 포함된 조사, 연결어미, 종결어미를 기준으로 해당 문장의 문장 구조를 역추정할 수 있도록 사전 지정해 둔 문법 항목별 점수에 따라 해당 텍스트에 포함된 각 문장에 부여된 점수를 나타낼 수 있다.
일 실시 예에서, 상기 텍스트 분석부는,
상기 문단 수준을 나타내는 사전 지정된 항목의 독해지수를 산출함에 있어서, 문단 수 및 문단 간의 응집성 중 적어도 1개의 지수를 산출한다.
여기서, 상기 문단 수는 해당 텍스트에 포함되어 있는 전체 문단의 수를 나타내고, 상기 문단 간의 응집성은, 각각의 문단들을 벡터 공간에 배치한 후에 이들 문단 간의 코사인 유사도(cosine similarity)를 계산하는 방식으로 문단들 사이의 의미 관련성을 분석하는 잠재의미분석(LSA : Latent Semantic Analysis) 기법을 사용하여 산출될 수 있다.
일 실시 예에서, 상기 텍스트 분석부는, 상기 텍스트 수준을 나타내는 사전 지정된 항목의 독해지수를 산출함에 있어서, 학년 수준 및 KReaD 지수 중 적어도 1개의 지수를 산출한다.
여기서, 상기 학년 수준은, 해당 텍스트가 문학 텍스트인지 또는 정보 텍스트인지를 구분하여 계산될 수 있다.
일 실시 예에 의할 때, 상기 KReaD 지수는, 상기 산출된 학년 수준을 기초로 산출될 수 있다. 예를 들어, KReaD 지수는 (학년 수준 + 7) * 100으로 산출될 수 있다. 이에 의할 때, 1학년 수준으로 판별된 텍스트의 KReaD 지수는 800점, 3학년 수준으로 판별된 텍스트의 KReaD 지수는 1000점으로 산출될 수 있다.
삭제
삭제
삭제
삭제
삭제
삭제
다른 실시 예에 의할 때, 상기 KReaD 지수는, 상기 단어 수준, 상기 문장 수준, 상기 문단 수준에 따라 산출된 지수들을 이용하는 사전 지정된 점수 계산 방식에 따라 종합 점수로서 산출될 수도 있다.
일 실시 예에서, 상기 산출된 독해지수들에 관한 분석결과를 화면 표출하고, 상기 분석용 텍스트에 포함된 단어들에 대한 워드클라우드 분석 및 의미 연결망 분석 결과를 상기 화면 상에 시각화하여 표출하는 시각화부를 더 포함할 수 있다.
여기서, 상기 워드클라우드 분석은 단어의 출현 빈도를 기준으로 출현 빈도가 큰 단어일수록 크고 진하게 시각화하여 표출하는 시각화방식이고, 상기 의미 연결망 분석은 텍스트 내의 한 문단 내에서 함께 출현할 확률이 높은 단어들일수록 위치적으로 가깝고 진하게 시각화하여 표출하는 시각화방식이다.
본 발명의 다른 측면에 따르면, 국어 텍스트 분석에 사용하기 위해 사전 구축된 어휘목록을 저장하는 어휘목록 데이터베이스를 포함하는 독해지수 측정 시스템;을 구성하는 서버 또는 컴퓨팅 장치에 의해 실행되도록 구현된 독해지수 측정 방법에 관한 컴퓨터 구현 방법(computer implemented method)으로서, (a) 국어 텍스트에 관한 텍스트 원본 파일을 입력받는 단계; (b) 상기 텍스트 원본 파일에 따른 국어 텍스트에 관한 전처리를 수행하여 분석용 텍스트를 생성하는 단계; (c) 상기 사전 구축된 어휘목록과 사전 지정된 텍스트 분석 기준을 적용하여, 상기 분석용 텍스트에 포함된 단어 수준, 문장 수준, 문단 수준, 텍스트 수준을 나타내는 사전 지정된 항목의 독해지수를 산출하는 단계; (d) 상기 산출된 독해지수들에 관한 분석결과를 화면 상에 시각화하여 표출하는 단계; 를 포함하는 독해지수 측정 방법이 제공된다.
본 발명의 또 다른 측면에 따르면, 상술한 독해지수 측정 방법이 기록되며 컴퓨터로 읽을 수 있는 기록매체가 제공된다.
본 발명의 실시 예에 따른 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템에 의하면, 국어군 학습, 독서 과정에서 객관화된 기준인 독해지수(KReaD 지수)를 도입함으로써, 국어 학습 또는 독서를 하고자 하는 학습자/독서자의 학년 수준 또는/및 독해수준에 맞춘 차별화된 맞춤형 학습/독서 서비스 제공이 가능하게 되는 효과가 있다.
도 1은 본 발명의 실시 예에 따른 국어 텍스트 자동 분석을 통한 독해지수 측정 시스템에 관한 블록 구성도.
도 2는 본 발명의 실시 예에 따른 국어 텍스트 자동 분석을 통한 독해지수 측정 방법의 개략적 순서도.
도 3 ~ 도 6은 본 발명의 실시 예에 따른 국어 텍스트 자동 분석을 통한 독해지수 측정 방법을 설명하기 위한 참조도면들.
도 7 ~ 도 9는 본 발명의 실시 예에 따른 국어 텍스트 자동 분석 프로그램에 따른 화면 예시들.
도 10은 본 발명의 실시 예에 따른 국어 텍스트 자동 분석을 통한 독해지수 측정 방법에 의해 측정된 독해지수를 디지털 국어 제품 또는 디지털 독서 제품에 활용하여 회원 맞춤형 서비스를 제공하는 방법을 예시한 도면.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는 바, 특정 실시 예들을 도면에 예시하고 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
본 발명을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 명세서의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.
또한, 명세서 전체에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다. 또한, 명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "부", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하나 이상의 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 조합으로 구현될 수 있음을 의미한다.
도 1은 본 발명의 실시 예에 따른 국어 텍스트 자동 분석을 통한 독해지수 측정 시스템에 관한 블록 구성도이고, 도 2는 본 발명의 실시 예에 따른 국어 텍스트 자동 분석을 통한 독해지수 측정 방법의 개략적 순서도이며, 도 3 ~ 도 6은 본 발명의 실시 예에 따른 국어 텍스트 자동 분석을 통한 독해지수 측정 방법을 설명하기 위한 참조도면들이다. 도 7 ~ 도 9는 본 발명의 실시 예에 따른 국어 텍스트 자동 분석 프로그램에 따른 화면 예시들이고, 도 10은 본 발명의 실시 예에 따른 국어 텍스트 자동 분석을 통한 독해지수 측정 방법에 의해 측정된 독해지수를 디지털 국어 제품 또는 디지털 독서 제품에 활용하여 회원 맞춤형 서비스를 제공하는 방법을 예시한 도면이다. 이하, 첨부된 도면들을 참조하여 본 발명의 실시 예를 상세히 설명한다.
도 1을 참조하면, 본 발명의 실시 예에 따른 국어 텍스트 자동 분석을 통한 독해지수 측정 시스템(100)은, 텍스트 입력부(110), 텍스트 전처리부(120), 텍스트 분석부(130), 시각화부(140), 어휘목록 데이터베이스(쉬운 어휘목록 DB(150) 및 등급별 어휘목록 DB(160)), 회원 DB(170)를 포함할 수 있다.
이에 따라, 텍스트 입력부(110)를 통해 국어 텍스트(즉, 국어 텍스트에 관한 텍스트 원본 파일)가 입력되면[도 2의 S110 참조], 텍스트 전처리부(120)를 통해서 해당 국어 텍스트에 관한 전처리가 수행(즉, 이를 통해서 전처리 수행된 분석용 텍스트가 생성)되고[도 2의 S120 참조], 어휘목록 데이터베이스를 통해서 텍스트 분석에 활용될 어휘목록을 불러들인 뒤[도 2의 S130 참조], 텍스트 분석부(130)를 통해서 단어/문장/문단/텍스트 수준에 따른 다양한 독해지수들을 산출하고[도 2의 S140 참조], 이와 같이 산출된 독해지수들에 관한 분석결과를 표출함과 함께 시각화 표출하는 과정[도 2의 S150 참조]이 수행되게 된다. 이하, 이에 관한 구체적 기술 내용에 관해서 차례로 설명하기로 한다.
텍스트 전처리
텍스트를 분석하기 위해서는 전처리 과정이 필요하다. 즉, 정제되지 않은 형태의 텍스트를 '정제된 형태'의 텍스트로 바꿔 주어야 한다.
먼저, 텍스트에는 불필요한 공백(빈 줄, 스페이스, 탭 등)이나 특수기호 등이 포함되어 있는 경우가 많다. 이와 같이 정제되지 않은 텍스트를 그대로 사용할 경우, 정확한 분석 결과를 얻을 수 없게 된다. 컴퓨터는 스페이스 등의 공백을 기준으로 단어를 구분하므로, 이와 같은 공백을 제거하지 않으면 기본적인 '단어 수' 등에서 오류가 생기기 때문이다.
다음으로, 텍스트 전처리 과정으로서, 형태소 분석이 수행될 수 있다. 이를 위해, 동형어 분석이 가능한 형태소 분석기를 사용한다. 예를 들어, 성당의 성직자를 의미하는 '신부'와 결혼하는 여성을 의미하는 '신부'는 텍스트의 의미가 다른 동형어이다. 이와 같이 텍스트의 의미를 정확하게 분석하기 위해서는 동형어 분석이 필수적이다.
다음으로, 텍스트 전처리 과정으로서, 접사 및 품사통용어의 처리가 수행될 수 있다. 접사 및 품사통용어의 처리는 '표준국어대사전'을 이용할 수 있다. 예를 들어, '선생님'과 같이 사전에 등재된 단어는 하나의 단어로 처리하고, '교수님'과 같이 등재되지 않은 단어는 명사 '교수'와 접미사 '님'을 따로 처리할 수 있다. 품사통용어는 하나의 단어가 2가지 이상의 품사로 사용되는 것을 말한다. 예를 들어, "감각적인 문체를 사용하는 감각적 소설이다."라는 문장이 있을 때, 전자는 명사이고 후자는 관형사이다.
어휘목록 구축
본 발명의 실시 예에서는 텍스트 분석의 기초 자료로서, 약 20만 개의 단어로 이루어진 <등급별 어휘목록>과 약 6천 개의 <쉬운 어휘 목록>을 구축하여 이용한다. 어휘는 텍스트를 읽고 이해하는 데 가장 중요한 결정 요인이기 때문에, 이러한 어휘목록을 통하여 텍스트에서 얼마나 어려운 단어들이 사용되었는지 분석할 수 있다.
본 발명의 실시 예에서는 어휘목록을 구축하기 위하여 다음의 2가지 지표를 사용하였다. '빈도 지표'와 '분포 지표'가 그것이다. 빈도 지표는 특정 단어가 말뭉치에서 얼마나 자주 출현하는가와 관련되어 있다. 그리고 분포 지표는 단어가 얼마나 고르게 퍼져 있는가와 관련되어 있다. 아래에서는 2가지 지표에 대해 좀 더 구체적으로 기술한다.
본 발명의 실시 예에서 빈도 지표는 '지프의 법칙'(Zipf, 1936)에 착안하여 빈도 지표를 새롭게 만들었다. 이 법칙은 영어와 같은 대부분의 알파벳 언어에서 발견되는 경험 법칙이다. 단어들을 빈도순으로 정렬하였을 때, '순위 ㅧ 빈도 = 일정'하다는 것이다. 예를 들어, 말뭉치에서 1순위 'the'라는 단어의 빈도수가 1,000번일 때, 2순위 'of'라는 단어의 빈도수는 500번이다.
전술한 지프의 법칙이 국어에도 유사하게 적용되는 것을 발견하였다. 도 3은 총 476,723 단어를 예비로 조사해 본 결과이다. 국립국어원의 말뭉치에서 다의어 번호가 존재하는 단어를 대상으로 조사하였다. 도 3을 통해서 확인할 수 있는 바와 같이, 단어의 순위와 빈도수를 곱하면 대략 30,000 내외의 값으로 수치가 일정하다. 이러한 지프의 법칙에 착안하여 새롭게 만든 빈도 지표는 다음과 같다. 이때, 빈도 지표(H값)는 0~1의 값을 가지도록 정규화될 수 있다.
Figure 112020084074403-pat00005
m : 해당 어휘의 출현 확률
20 : 확률에 따른 빈도 지표를 조정하는 상수
본 발명의 실시 예에서 분산 지표는, 특정 단어가 여러 텍스트에 어느 정도로 고르게 퍼져 있는지를 나타낸다. 이 지표는 기존에 만들어져 있는 것을 그대로 사용하기로 하였다. 분산 지표(D값)은 아래 수학식 2가 이용될 수 있다.
Figure 112020084074403-pat00006
n: 학년별 교재의 수
pi: 해당 교재에서의 해당 단어의 출현 빈도를 바탕으로 한 확률
위의 수식을 계산하기 위하여 자바스크립트로 프로그래밍하였으며, 이에 관한 계산 예가 아래의 표 2에 기재되어 있다.
분산 지표(D값)도 0~1 사이의 값을 가지도록 정규화되어 있다. 예를 들어, a라는 특정 단어가 4개의 교재에서 1%씩 출현하였을 때, D값은 1이다. c라는 단어와 같이 특정 교재에서만 출현하게 되면, D값은 0에 가깝다.
Figure 112020084074403-pat00007
위에서 기술한 2가지 지표를 합한 값을 어휘 등급 점수로 만들어 그 값을 등급화 자료로 활용했다. 어휘를 추출하기 위해 바탕이 되는 말뭉치는 세종말뭉치 중 일부 표본과 초-중-고등학교 국어, 수학, 사회, 과학 등의 교과서 텍스트를 구성하였다. 교과서를 말뭉치의 주된 바탕 자료로 한 이유는 텍스트의 모범적 성격을 고려했기 때문이다.
중학교부터는 검정 교과서이기 때문에 중복된 도서를 말뭉치로 구성할 경우 특정 낱말이 불필요하게 빈도와 분포 값이 높이지게 된다. 이러한 점을 고려하여 중학교, 고등학교 검정 교과서는 검정 교과서 중 1권을 선택하였다. 선택 과정은 전문가 판정을 통해 대중적으로 많이 사용되며, 대표적인 말뭉치라고 고려할 수 있도록 평정 과정을 거쳤다.
이렇게 구성한 말뭉치를 분석한 결과 추출한 어휘는 251,247 단어이고, 등급은 1 ~ 10등급으로 구분하였다. 등급 구분은 전체 낱말 분포를 분석하여 10% 구간 등급을 나눈 후 북마크 방법을 활용하여 등급을 조정하였다. 그 결과 구축된 어휘목록의 일부가 도 4에 기재되고 있다. 이 어휘목록은 텍스트 분석의 난이도 측정에 기초 자료로 활용된다.
텍스트 분석 프로그램의 다양한 산출 지수
본 발명의 실시 예에서는 국어 텍스트 자동 분석 프로그램을 통한 국어 텍스트의 입력에 따라 해당 국어 텍스트에 대한 다양한 지수를 산출한다. 한 편의 텍스트는 단어 → 문장 → 문단 → 텍스트의 위계적인 구조를 가지므로, 본 발명의 실시 예에 따른 국어 텍스트 자동 분석 프로그램을 통해서 산출되는 지수들도 단어, 문장, 문단, 텍스트 수준으로 나뉘어 산출되게 된다. 이하, 산출되는 지수들에 대하여 보다 구체적으로 설명하면 다음과 같다.
단어 수준
단어 수준의 지수의 산출을 위해, 먼저, 국어 텍스트에서 단어들을 추출한다. 특정 국어 텍스트로부터 단어를 추출한 결과의 일 예시가 도 5의 (a)에 도시되고 있다. 도 5에서, 'NNG'는 일반명사, VV는 동사, VA는 형용사, MM은 관형사, MAG는 일반부사, MAJ는 접속부사, IC는 감탄사 등을 나타내는 품사 기호이다.
상술한 바와 같이, 해당 국어 텍스트에서 단어들이 추출되면, 다음과 같은 지수들에 따른 단어 수준이 분석(산출)된다. 즉, 단어 수준에서는 '단어 수', '단어의 평균 등급', '단어의 빈도', '어려운 단어의 수', '어려운 단어의 비율', '타입/토큰의 비율' 등의 지수가 산출될 수 있다.
여기서, '단어 수'는 해당 국어 텍스트에 포함되어 있는 전체 단어의 수를 의미하고, '단어의 빈도'는 해당 국어 텍스트에서 각 단어가 출현하는 빈도를 의미한다.
또한 여기서, '단어의 평균 등급'은 앞서 기술한 사전 구축된 <등급별 어휘목록>을 바탕으로 산출된다. 본 발명의 일 실시 예에서는 1등급 ~ 10등급으로 이루어진 약 20만개의 국어 단어에 대한 등급별 어휘목록을 구축하였는데, 이의 대조를 통하여 해당 국어 텍스트에 포함된 개별 단어들의 각각의 등급에 따른 평균(즉, 단어의 평균 등급)을 계산한다.
이에 대하여 보다 구체적인 예를 들어 설명하면 다음과 같을 수 있다. 먼저, 각각의 단어에 등급 점수를 부여한다. 예를 들어, 도 5에서"왕자__01/NNG"가 <등급별 어휘목록>에서 1등급으로 되어 있는 경우 해당 단어에 1점을 부여하고, "이웃/NNG"가 <등급별 어휘목록>에서 2등급으로 되어 있는 경우 해당 단어에 2점을 부여한다. 이러한 방식으로 각각의 단어에 등급 점수를 부여한 결과에 관한 일부 예시가 도 5의 (b)에 기재되어 있다. 이와 같은 방식으로, 예를 들어, 해당 국어 텍스트의 '등급 점수의 총점'이 74점이고, 50개의 단어가 분석에 사용되었다면, '단어의 평균 등급'은 74 ㆇ 50 = 1.48으로 계산될 수 있다.
또한 여기서, '어려운 단어의 수'는 해당 국어 텍스트에 어려운 단어가 몇 개 존재하는지를 산출한 것이다. 또한, '어려운 단어의 비율'은 해당 국어 텍스트에 있는 전체 단어 수에서 어려운 단어가 얼마만큼의 비율을 갖는지를 산출한 것이다. 이때, 어려운 단어인지 여부는 다음과 같은 방법들 중 어느 하나가 이용될 수 있다.
일 예로, 사전 지정된 <쉬운 어휘목록>을 이용하여, 여기에 해당되지 않으면 어려운 단어로 결정하는 방식이 이용될 수 있다. 본 발명의 일 실시 예에서는 약 6천 개의 '쉬운 어휘목록'을 준비하였는데, 이는 초등학교 4학년 정도의 학생들이 알 수 있는 어휘목록으로 구성하였다. 이와 같은 <쉬운 어휘목록>의 일부를 도 6에 기재하였다. 전술한 도 6의 예시와 같은 약 6천 개의 <쉬운 어휘목록>을 기준으로 대조해 볼 때, 도 5의 (a)의 단어들 중에서는 일반명사 '양탄자'와 형용사 '의기양양하다'만이 어려운 단어로 분석되었다. 본 예에서는 초등학교 4학년 학생을 기준으로 하여 <쉬운 어휘목록>을 구성하였지만, 이는 학습자/독서자의 학년 또는 사전 진단을 통해 확인된 독해 능력 수준 등에 따라 다르게 설정할 수 있음은 물론이다.
다른 예로, 앞서 설명한 <등급별 어휘목록>을 이용하여, 해당 어휘목록 중 소정의 등급 이상(예를 들어, 5등급 이상)인 단어를 어려운 단어로 결정하는 방식이 이용될 수 있다. 이때, 몇 등급 이상의 어휘를 어려운 단어로 결정할지에 관한 기준 또한 전술한 바와 같이 학습자/독서자의 학년 또는 사전 진단을 통해 확인된 독해 능력 수준 등에 따라 다르게 설정할 수 있음은 자명하다.
또한 여기서, '타입/토큰의 비율'(Type Token Ratio, TTR)은 '어휘의 다양성'을 나타내 주는 지수이다. 즉, 텍스트에서 다양한 어휘가 사용될수록, 그 텍스트가 어렵다는 것을 나타낸다. 이에 관한 간단한 예시는 다음과 같습니다.
[예시 문장]
나는 학교에 간다. 학교는 재미있다.
위 예시 문장에서 토큰은 각각의 단어라고 할 수 있는 바, 위의 예시에 토큰은 5개(밑줄 부분)가 된다. 그리고 타입은 유형으로서, 위 예시에서 타입은 4개이다. '학교'라는 단어가 중복되어 하나의 타입으로 계산되기 때문이다. 따라서 위 예시에서, 타입/토큰의 비율은 4/5=0.8이 된다. 즉, 만약 특정 텍스트에서 모두 다른 단어를 사용하였다면 TTR은 1이 되므로, 그 TTR이 1에 가까운 값을 가질수록 더욱 다양한 어휘를 사용하였다는 의미가 된다.
문장 수준
문장 수준에서는 '문장 수', '평균 문장 길이', '단문의 비율', '복문의 비율', '문장 구조 점수' 등이 산출될 수 있다.
여기서, '평균 문장 길이'는 한 문장이 평균적으로 몇 개의 단어로 이루어져 있는지를 나타낸 것으로, 이 지수는 계산하기 쉬우면서도 문장의 특성을 잘 드러낸다.
또한 여기서, '문장 구조 점수'는 문장이 얼마나 복잡한 구조로 이루어져 있는가를 나타내는 지수이다. 예를 들어, 영어의 경우, 1형식(주어+동사), 2형식(주어+동사+보어), 3형식(주어+동사+목적어) 등의 문장 구조를 바탕으로 점수를 매기는 방식이 적용되게 되는 것과 유사한 방법이 국어 텍스트에도 적용될 수 있다.
다만, 국어 텍스트의 경우에는 주어나 목적어 등의 생략이 빈번하므로 위 방식을 그대로 적용하는 것이 어려울 수 있다. 따라서, 본 발명의 실시 예에서는 개별 문장 각각에 대하여 문법 항목별 점수를 부여하는 방식을 채용한다. 즉, 해당 문장에 사용된 조사(예를 들어, 이/가/도/에게/부터/의/한테 등), 연결어미(예를 들어, 으러/어서/지만/거나/어야 등), 종결어미(예를 들어, 습니까/거든/는구나/더군/으십시오 등), 선어말어미(예를 들어, 겠/었/으시/었었 등) 등을 기초로 해당 문장의 문장 구조가 어떻게 이루어졌을지를 역으로 추정할 수 있는 바, 해당 조사/어미 등이 이용된 경우 각각에 대한 사전 지정된 문법 항목별 점수를 설정해둔 후, 이를 이용하여 각 문장 별로의 문법 항목별 점수를 부여하는 방법이 이용될 수 있다.
문단 수준
문단 수준에서는 '문단의 수', '문단 간의 응집성(coherence)' 등의 지수를 산출할 수 있다. 여기서,'문단 간의 응집성'은 문단들이 의미적으로 밀접하게 연결되어 있는 정도를 나타내는 지수로서, 이 값이 높을수록 문단들 간의 의미적 연결이 자연스럽고 이해하기 쉬운 글이 된다. 이와 같은 '문단 간의 응집성' 은 각각의 문단들을 벡터 공간에 배치한 후에 이들 문단 간의 코사인 유사도(cosine similarity)를 계산하는 방식으로 문단들 사이의 의미 관련성을 분석하는 잠재의미분석(LSA : Latent Semantic Analysis) 기법을 사용하여 산출할 수 있다.
텍스트 수준
텍스트 수준에서는 '학년 수준', 'KReaD 지수' 등이 산출될 수 있다.
여기서, '학년 수준'은 텍스트의 난이도로서, 해당 텍스트를 읽기에 적정한 학년 수준을 추정한 지수이다. 본 발명의 실시 예예서는 해당 국어 텍스트의 세부 지수를 계산한 후에, 이를 조합하여 텍스트의 '학년 수준'을 추정할 수 있는데, 예를 들어, 어떤 텍스트의 '학년 수준'이 3.5라면, 이는 3학년 학생이 읽기에 적합한 텍스트에 해당할 것이다.
본 발명의 실시 예에서는, '문학 텍스트'와 '정보 텍스트'를 구분하여 텍스트의 학년 수준을 추정한다(후술할 도 7 참조). '문학 텍스트'에는 동화, 소설, 옛이야기 등이 포함되고, '정보 텍스트'에는 설명문, 논설문, 전기문, 기행문, 일기 등이 포함된다.
또한, 'KReaD 지수'는 0 ~ 2,000점의 척도로 텍스트의 난이도를 제시한다.
삭제
삭제
삭제
일 실시 예에 의할 때, 상기 KReaD 지수는, 상기 산출된 학년 수준을 기초로 산출될 수 있다. 예를 들어, KReaD 지수는 (학년 수준 + 7) * 100으로 산출될 수 있다. 이에 의할 때, 1학년 수준으로 판별된 텍스트의 KReaD 지수는 800점, 3학년 수준으로 판별된 텍스트의 KReaD 지수는 1000점으로 산출될 수 있다.
다른 실시 예에 의할 때, 상기 KReaD 지수는, 상기 단어 수준, 상기 문장 수준, 상기 문단 수준에 따라 산출된 지수들을 이용하는 사전 지정된 점수 계산 방식에 따라 종합 점수로서 산출될 수도 있다.
또한 텍스트 수준에서는 '워드클라우드', '의미 연결망 분석' 등 텍스트의 전반적인 의미를 쉽게 파악할 수 있도록 시각화 결과도 함께 제시한다(후술할 도 8 및 도 9 참조).
프로그램 적용 화면 예시
본 발명의 일 실시 예에 따라 개발된 텍스트 난이도 자동 분석 프로그램(이하, KReaD 프로그램)의 화면 예시가 도 7 ~ 도 9에 도시되고 있다.
먼저, 초기 화면은 도 7와 같다. 첫 화면에는 간단한 사용법이 안내되어 있다. 도 7을 참조할 때, 텍스트 난이도 자동 분석 프로그램은 '문서 업로드', '텍스트 유형 선택', '분석 결과 확인하기' 항목으로 구성된다. 텍스트 유형은 '문학 텍스트', '정보 텍스트'로 구분되어 있다. 텍스트의 특성에 따라 난이도를 측정하는 방향이 다르기 때문에 유형을 선택하도록 하였고, 유형에 따른 분석 방법도 알고리즘에 반영하였다.
다음으로, 분석할 텍스트를 업로드하고, 텍스트의 유형을 선택한다. 텍스트의 유형은 '문학 텍스트'와 '정보 텍스트'로 나누어진다. 본 예시에서는 11편의 문학 텍스트를 예시로 분석해 보았다. 분석이 이루어지면, 분석 결과를 확인하고 저장한다. 결과는 도 8과 같다.
도 8을 참조할 때, 분석 결과는 문단 수, 문장 수, 단어 수, 평균문장길이, 어려운단어 수, 문장구조점수, 학년수준, KReaD 점수, 타입토큰비율, 단문의비율, 복문의 비율 등으로 결과가 제시된다. 결과는 엑셀로 다운로드가 가능하게 구성하였다. 각 텍스트의 난이도 점수에 대한 근거를 함께 확인할 수 있기 때문에 텍스트의 특성을 구체적으로 파악할 수 있다.
또한 이때, 분석한 결과는 시각화하여 표출될 수 있다. 시각화 분석 결과의 예시는 도 9와 같다. 시각화 분석은 워드클라우드, 의미 연결망 분석을 활용했다. 도 9는'사랑손님과 어머니'라는 텍스트를 '워드클라우드'와 '의미 연결망'으로 그린 것이다. 워드클라우드를 통하여 텍스트의 주요 내용을 한눈에 파악할 수 있다. 워드클라우드는 빈도 기반 분석 방법으로서, 빈도가 큰 낱말은 크고 진하게, 빈도가 낮은 낱말은 작고 연하게 나타난다. 예를 들면, '어머니', '아저씨', '옥희', '봉투', '밥값' 등의 주요 어휘를 통하여 '아저씨가 옥희를 통하여 어머니에게 밥값을 전하는 내용이다'라는 것을 알 수 있다.
의미 연결망 분석은 한 문단에서 동시에 출현하는 단어에 기초하여 텍스트의 의미 관계를 시각화한다. 즉, 의미 연결망 분석은 공기성(co-occurrence)을 기반으로 분석하는 방법이다. 함께 등장할 확률이 높을수록 낱말의 연결 관계가 가깝고 진한 색으로 나타난다. 예를 들면, '엄마'와 '아저씨'가 '옥희'의 '생각'을 매개로 연결되어 있음을 알 수 있다.
상술한 바와 같은 본 발명의 실시 예에 따른 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템에 의하면, 국어군 학습, 독서 과정에서 객관화된 기준인 독해지수(KReaD 지수)를 도입함으로써, 국어 학습 또는 독서를 하고자 하는 학습자/독서자의 학년 수준 또는/및 독해수준에 맞춘 차별화된 맞춤형 학습/독서 서비스 제공이 가능하게 되는 효과가 있다(도 10 참조). 이외에도 상술한 바와 같은 방식으로 측정되는 독해지수는 교육적으로 여러 방면에서 활용될 수 있을 것으로 판단된다. 이 지수는 교재, 교과서, 평가 도구 등의 텍스트 선정을 위한 유용한 정보를 제공해줄 수 있을 것으로 기대된다.
이상에서는 본 발명의 실시 예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 쉽게 이해할 수 있을 것이다.

Claims (12)

  1. 독해지수 측정 시스템으로서,
    국어 텍스트에 관한 텍스트 원본 파일을 입력받는 텍스트 입력부;
    상기 텍스트 원본 파일에 따른 국어 텍스트에 관한 전처리를 수행하여 분석용 텍스트를 생성하는 텍스트 전처리부;
    국어 텍스트 분석에 사용하기 위해 사전 구축된 어휘목록을 저장하는 어휘목록 데이터베이스;
    상기 사전 구축된 어휘목록과 사전 지정된 텍스트 분석 기준을 적용하여, 상기 분석용 텍스트에 포함된 단어 수준, 문장 수준, 문단 수준, 텍스트 수준을 나타내는 사전 지정된 항목의 독해지수를 산출하는 텍스트 분석부;를 포함하고,
    상기 어휘목록 데이터베이스에는 등급별 어휘목록이 포함되고,
    상기 등급별 어휘목록은 빈도 지표 및 분포 지표를 이용하여 결정되는 등급별 어휘들이 포함되며,
    상기 빈도 지표는 하기 수학식 1에 의해 산출되고, 상기 분포 지표는 하기 수학식 2에 의해 산출되는 것을 특징으로 하는, 독해지수 측정 시스템.

    [수학식 1]
    Figure 112020124956452-pat00024

    여기서, m은 해당 어휘의 출현 확률임.

    [수학식 2]
    Figure 112020124956452-pat00025

    여기서, n은 학년별 교재의 수이고, pi는 해당 교재에서의 해당 단어의 출현 빈도를 바탕으로 한 확률임.
  2. 제1항에 있어서,
    상기 텍스트 전처리부는,
    제1 기준에 따라 해당 국어 텍스트에서 공백 및 특수기호를 제거하고, 제2 기준에 따라 동형어 분석이 가능한 형태소 분석기를 이용하여 해당 국어 텍스트에 포함된 단어에 관한 형태소 분석을 수행하며, 제3 기준에 따라 접사 및 품사통용어 처리를 수행함으로써, 상기 텍스트 원본 파일에 따른 국어 텍스트를 정제하여 상기 분석용 텍스트를 생성하고,
    상기 접사 처리는, 접두사 또는 접미사가 붙은 단어에 대하여 사전 선택된 국어 사전에 등재된 단어를 기준으로 단일 단어로 처리하거나 2개 이상의 품사를 갖는 복수의 단어로 처리하는 전처리를 나타내고,
    상기 품사통용어 처리는, 2개 이상의 품사로 사용되는 단어에 관해서 해당 단어의 쓰임새에 따른 품사를 결정하는 전처리를 나타내는 것을 특징으로 하는, 독해지수 측정 시스템.
  3. 삭제
  4. 제1항에 있어서,
    상기 텍스트 분석부는,
    상기 단어 수준을 나타내는 사전 지정된 항목의 독해지수를 산출함에 있어서, 단어 수, 단어의 평균 등급, 단어의 빈도, 어려운 단어의 수, 어려운 단어의 비율, 타입/토큰의 비율 중 적어도 2개에 따른 지수를 산출하되,
    상기 단어 수는 해당 텍스트에 포함되어 있는 전체 단어의 수를 나타내고,
    상기 단어의 평균 등급은 상기 어휘목록 데이터베이스에 저장된 등급별 어휘목록을 기준으로 해당 텍스트에 포함되어 있는 단어 각각의 등급에 따른 평균을 나타내고,
    상기 단어의 빈도는 해당 텍스트에 포함되어 있는 각 단어가 출현하는 빈도를 나타내고,
    상기 어려운 단어의 수는 사전 구축된 쉬운 어휘목록을 기준으로 하여 확인되는 어려운 단어의 개수 또는 사전 구축된 상기 등급별 어휘목록을 기준으로 사전 지정된 소정 등급 이상의 어려운 단어의 개수를 나타내고,
    상기 어려운 단어의 비율은 해당 텍스트에 포함되어 있는 전체 단어의 수 중 상기 어려운 단어의 수의 비율을 나타내고,
    상기 타입/토큰의 비율(Type Token Ratio)은 해당 텍스트에 포함되어 있는 전체 단어의 수를 토큰값으로 하고 중복 단어를 제외한 단어의 수를 타입값으로 하였을 때의 타입값을 토큰값으로 나눈 비율을 나타내는 것을 특징으로 하는, 독해지수 측정 시스템.
  5. 제1항에 있어서,
    상기 텍스트 분석부는,
    상기 문장 수준을 나타내는 사전 지정된 항목의 독해지수를 산출함에 있어서, 문장 수, 평균 문장 길이, 단문의 비율, 복문의 비율, 문장 구조 점수 중 적어도 2개의 지수를 산출하되,
    상기 문장 수는 해당 텍스트에 포함되어 있는 전체 문장의 수를 나타내고
    상기 평균 문장 길이는 한 문장에 포함된 단어의 수를 기준으로 평균한 값을 나타내고,
    상기 단문의 비율 및 상기 복문의 비율은, 해당 텍스트에 포함되어 있는 전체 문장 중 단문의 비율과 복문의 비율을 나타내며,
    상기 문장 구조 점수는 문장에 포함된 조사, 연결어미, 종결어미를 기준으로 해당 문장의 문장 구조를 역추정할 수 있도록 사전 지정해둔 문법 항목별 점수에 따라 해당 텍스트에 포함된 각 문장에 부여된 점수를 나타내는 것을 특징으로 하는, 독해지수 측정 시스템.
  6. 제1항에 있어서,
    상기 텍스트 분석부는,
    상기 문단 수준을 나타내는 사전 지정된 항목의 독해지수를 산출함에 있어서, 문단 수 및 문단 간의 응집성 중 적어도 1개의 지수를 산출하되,
    상기 문단 수는 해당 텍스트에 포함되어 있는 전체 문단의 수를 나타내고
    상기 문단 간의 응집성은, 각각의 문단들을 벡터 공간에 배치한 후에 이들 문단 간의 코사인 유사도(cosine similarity)를 계산하는 방식으로 문단들 사이의 의미 관련성을 분석하는 잠재의미분석(LSA : Latent Semantic Analysis) 기법을 사용하여 산출되는 것을 특징으로 하는, 독해지수 측정 시스템.
  7. 제1항에 있어서,
    상기 텍스트 분석부는,
    상기 텍스트 수준을 나타내는 사전 지정된 항목의 독해지수를 산출함에 있어서, 학년 수준 및 KReaD 지수 중 적어도 1개의 지수를 산출하되,
    상기 학년 수준은, 해당 텍스트가 문학 텍스트인지 또는 정보 텍스트인지를 구분하여 계산되고,
    상기 KReaD 지수는, 상기 학년 수준을 기초로 (학년 수준 + 7) * 100으로 산출되거나, 또는 상기 단어 수준, 상기 문장 수준, 상기 문단 수준에 따라 산출된 지수들을 이용하는 사전 지정된 점수 계산 방식에 따라 종합 점수로서 산출되는 것을 특징으로 하는, 독해지수 측정 시스템.
  8. 삭제
  9. 삭제
  10. 제1항에 있어서,
    상기 산출된 독해지수들에 관한 분석결과를 화면 표출하고, 상기 분석용 텍스트에 포함된 단어들에 대한 워드클라우드 분석 및 의미 연결망 분석 결과를 상기 화면 상에 시각화하여 표출하는 시각화부를 더 포함하되,
    상기 워드클라우드 분석은, 단어의 출현 빈도를 기준으로 출현 빈도가 큰 단어일수록 크고 진하게 시각화하여 표출하는 시각화방식이고,
    상기 의미 연결망 분석은, 텍스트 내의 한 문단 내에서 함께 출현할 확률이 높은 단어들일수록 위치적으로 가깝고 진하게 시각화하여 표출하는 시각화방식인 것을 특징으로 하는, 독해지수 측정 시스템.
  11. 국어 텍스트 분석에 사용하기 위해 사전 구축된 어휘목록을 저장하는 어휘목록 데이터베이스를 포함하는 독해지수 측정 시스템;을 구성하는 서버 또는 컴퓨팅 장치에 의해 실행되도록 구현된 독해지수 측정 방법에 관한 컴퓨터 구현 방법(computer implemented method)으로서,
    (a) 국어 텍스트에 관한 텍스트 원본 파일을 입력받는 단계;
    (b) 상기 텍스트 원본 파일에 따른 국어 텍스트에 관한 전처리를 수행하여 분석용 텍스트를 생성하는 단계;
    (c) 상기 사전 구축된 어휘목록과 사전 지정된 텍스트 분석 기준을 적용하여, 상기 분석용 텍스트에 포함된 단어 수준, 문장 수준, 문단 수준, 텍스트 수준을 나타내는 사전 지정된 항목의 독해지수를 산출하는 단계;
    (d) 상기 산출된 독해지수들에 관한 분석결과를 화면 상에 시각화하여 표출하는 단계; 를 포함하고,
    상기 어휘목록 데이터베이스에는 등급별 어휘목록이 포함되고,
    상기 등급별 어휘목록은 빈도 지표 및 분포 지표를 이용하여 결정되는 등급별 어휘들이 포함되며,
    상기 빈도 지표는 하기 수학식 1에 의해 산출되고, 상기 분포 지표는 하기 수학식 2에 의해 산출되는 것을 특징으로 하는, 독해지수 측정 방법.

    [수학식 1]
    Figure 112020124956452-pat00026

    여기서, m은 해당 어휘의 출현 확률임.

    [수학식 2]
    Figure 112020124956452-pat00027

    여기서, n은 학년별 교재의 수이고, pi는 해당 교재에서의 해당 단어의 출현 빈도를 바탕으로 한 확률임.
  12. 제11항에 따른 독해지수 측정 방법을 컴퓨터로 하여금 수행하도록 하는 컴퓨터 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
KR1020200100213A 2020-08-11 2020-08-11 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템 KR102201709B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200100213A KR102201709B1 (ko) 2020-08-11 2020-08-11 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템
KR1020200156703A KR102484007B1 (ko) 2020-08-11 2020-11-20 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200100213A KR102201709B1 (ko) 2020-08-11 2020-08-11 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020200156703A Division KR102484007B1 (ko) 2020-08-11 2020-11-20 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템

Publications (1)

Publication Number Publication Date
KR102201709B1 true KR102201709B1 (ko) 2021-01-12

Family

ID=74129701

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020200100213A KR102201709B1 (ko) 2020-08-11 2020-08-11 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템
KR1020200156703A KR102484007B1 (ko) 2020-08-11 2020-11-20 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020200156703A KR102484007B1 (ko) 2020-08-11 2020-11-20 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템

Country Status (1)

Country Link
KR (2) KR102201709B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230039086A (ko) * 2021-09-13 2023-03-21 엔에이치엔클라우드 주식회사 국어 맞춤법 퀴즈 제공 방법 및 시스템
CN117236343A (zh) * 2023-11-15 2023-12-15 江西师范大学 基于语言特征解释器和对比学习的自动可读性评估方法
KR102619939B1 (ko) * 2023-01-05 2024-01-02 주식회사 대교 글쓰기 교육 및 평가를 위한 방법 및 시스템

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050122571A (ko) * 2004-06-24 2005-12-29 김기형 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여시스템
KR20200065640A (ko) * 2018-11-30 2020-06-09 한국과학기술원 독자 신뢰 패턴 기반 문서 추천 방법 및 시스템

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100839647B1 (ko) * 2006-04-25 2008-06-19 이용훈 영어교과서의 난이도측정 방법
KR20100028222A (ko) * 2008-09-04 2010-03-12 김기형 도서지수 부여 시스템의 도서지수 산출방법
KR101673926B1 (ko) * 2014-12-02 2016-11-09 한밭대학교 산학협력단 외국도서의 읽기 수준 판단 시스템 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050122571A (ko) * 2004-06-24 2005-12-29 김기형 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여시스템
KR20200065640A (ko) * 2018-11-30 2020-06-09 한국과학기술원 독자 신뢰 패턴 기반 문서 추천 방법 및 시스템

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
https://kuduz.tistory.com/1090, 최대한 친절하게 쓴 R로 낱말구름, 의미연결망 그리기 (2018.09.24) *
https://kuduz.tistory.com/1090, 최대한 친절하게 쓴 R로 낱말구름, 의미연결망 그리기* *
신효필, 언어 자료의 통계 분석과 관련된 몇 가지 고려사항들, s-space.snu.ac.kr/bitstream/10371/86367/1/7.%202231651.pdf (2005) *
왕효성, 청소년 독자의 도서 선정 과정과 준거에 관한 연구, 고려대학교 국어교육전공 박사학위논문 (2014.08) *
한봉선, 초등학생의 독해능력진단 정교화를 위한 독해력평가 도구 개선 연구, 서원대 석사학위논문 (2009) *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230039086A (ko) * 2021-09-13 2023-03-21 엔에이치엔클라우드 주식회사 국어 맞춤법 퀴즈 제공 방법 및 시스템
KR102616915B1 (ko) * 2021-09-13 2023-12-21 엔에이치엔클라우드 주식회사 국어 맞춤법 퀴즈 제공 방법 및 시스템
KR102619939B1 (ko) * 2023-01-05 2024-01-02 주식회사 대교 글쓰기 교육 및 평가를 위한 방법 및 시스템
CN117236343A (zh) * 2023-11-15 2023-12-15 江西师范大学 基于语言特征解释器和对比学习的自动可读性评估方法
CN117236343B (zh) * 2023-11-15 2024-03-12 江西师范大学 基于语言特征解释器和对比学习的自动可读性评估方法

Also Published As

Publication number Publication date
KR102484007B1 (ko) 2023-01-03
KR20220020184A (ko) 2022-02-18

Similar Documents

Publication Publication Date Title
CN107230174B (zh) 一种基于网络的在线互动学习系统和方法
Kumar et al. Get it scored using autosas—an automated system for scoring short answers
KR102201709B1 (ko) 국어 텍스트 자동 분석을 통한 독해지수 측정 방법 및 시스템
Ballier et al. Machine learning for learner English: A plea for creating learner data challenges
Gizatulina et al. Fluctuations of text complexity: the case of Basic State Examination in English
Forti et al. Measuring text complexity for Italian as a second language learning purposes
Barclay et al. Exploring the learning burden and decay of foreign language vocabulary knowledge: The effect of part of speech and word length
Herwanto et al. UKARA: A fast and simple automatic short answer scoring system for Bahasa Indonesia
Qi et al. LexCH: a quick and reliable receptive vocabulary size test for Chinese Learners
KR100583174B1 (ko) 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여시스템
Bundsgaard et al. Validating scales for the early development of writing proficiency.
Okhdar et al. English vocabulary learning through recommender system based on sentence complexity and vocabulary difficulty
Ghoorchaei et al. On the relationship between Iranian EFL students’ writing strategies and writing ability
Han et al. An item-based, Rasch-calibrated approach to assessing translation quality
Han et al. Japanese sentence pattern learning with the use of illustrative examples extracted from the web
Sawaguchi et al. Exploring the use of make+ noun collocations by Japanese EFL learners through a bilingual essay corpus
Song et al. The effect of lexical coverage on L2 learners’ reading comprehension of narrative and expository genres
Paganelli et al. School Library eBook Providers and Spanish Language Equity:: A Replication Analysis of eBook Collections Available to School Libraries
Kuyoro et al. Intelligent Essay Grading System using Hybrid Text Processing Techniques
Jansen et al. Evaluating four readability formulas for Afrikaans
Rahman et al. Perceived Difficulties and Use of Online Reading Strategies: A Study among Undergraduates
Kaur et al. Performance analysis of LSA for descriptive answer assessment
Arnost et al. Reading Level Identification Using Natural Language Processing Techniques
KR102616803B1 (ko) 학습자 맞춤형 온라인 교육 프로그램 추천 방법 및 장치
Basyuk et al. Peculiarities of an Information System Development for Studying Ukrainian Language and Carrying out an Emotional and Content Analysis

Legal Events

Date Code Title Description
A107 Divisional application of patent
E701 Decision to grant or registration of patent right
GRNT Written decision to grant