KR20050122571A

KR20050122571A - 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여시스템

Info

Publication number: KR20050122571A
Application number: KR1020040047922A
Authority: KR
Inventors: 김광해; 김기형; 최운천; 이영은; 이윤경
Original assignee: 김기형
Priority date: 2004-06-24
Filing date: 2004-06-24
Publication date: 2005-12-29
Anticipated expiration: 2024-06-24
Also published as: KR100583174B1

Abstract

본 발명은 출판물에서 사용된 어휘의 난이도를 등급에 따라 계량하여 도서지수를 부여하는 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여 시스템에 관한 것으로, 개별 어휘의 난이도 정보, 의미정보, 난이도순위 정보 등을 포함한 난이도 시소러스와 그것을 이용하여 보다 정확한 형태소 해석을 해 주는 구문 태거를 사용함으로써 과학적이고 객관적인 도서지수를 산출할 수 있게 한 것 등을 특징으로 하는 본 발명에 의하면 학생에게는 도서 선정시에 유용성을 제공할 수 있게 됨은 물론 독서에 흥미와 동기를 부여할 수 있게 되고, 독서 지도자, 교사, 학부모, 출판업자들에게는 최적의 관리, 운영방법을 제시할 수 있게 되며, 개인의 독서능력을 정확하게 진단하고 평가해 줄 수 있게 되는 등의 효과를 얻을 수 있게 된다.

Description

어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여 시스템 { A Readablilty Indexing System based on Lexical Difficulty and Thesaurus }

본 발명은 모든 종류의 출판물에 도서의 독해 난이도에 따른 지수를 객관적인 방법으로 부여하기 위한 시스템에 관한 것으로, 더 자세하게는 출판물에서 사용된 어휘의 난이도를 등급에 따라 계량하여 도서지수를 부여하는 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여 시스템에 관한 것이다.

본 발명에서 도서지수(Readability Index)란 독서의 대상이 되는 출판물을 거기에 출현하는 각 어휘의 난이도 정보를 조사함으로써 대상 출판물 전체의 난이도까지도 평가할 수 있을 것이라는 가정 아래 도서를 계량하여 수치를 부여한 것을 말한다.

이러한 도서지수는 책을 읽기 전에 출판물의 소비자인 독자나 독서 지도 교사 등에게 미리 그 책이 얼마나 어려운 책인지, 독자의 수준에 적절한 책인지 여부를 알려주는 지표가 될 수 있으며, 책의 선택을 앞 둔 사람들에게 선택에 필요한 객관적인 기준을 제공해 줄 수 있고, 개인의 독서력 향상을 위하여 수준에 적절한 도서를 선정하고자 할 때 개인들의 독서 능력을 평가해 줄 수도 있다.

일반적으로 책은 직접 읽어보기 전에는 그 수준을 알기가 어렵기 때문에 교육용 도서에 전술한 도서지수를 부여하게 되면 연령별, 학년별로 수준에 맞는 독서교육을 할 수 있게 된다.

그리고 독서 교육 시장에서 물론 논술이나 수능 등을 위해 읽어야 할 책을 수준에 맞게 제공하고자 할 때에 상기 도서지수가 적용될 수 있기 때문에 도서지수는 학습지 시장, 논술 교육, 인터넷 교육 등 다양한 분야에서 널리 활용될 수 있다.

즉, 본 발명의 도서지수가 적용될 수 있는 분야는 도서출판 전 분야로서, 인터넷으로 유통되는 전자책(e-book), 인터넷 소설, 인터넷 교육도서, 창작 동화 등을 포함한 모든 도서가 해당된다.

한편 국내외에서 이제 막 그 중요성이 부각되고 있는 도서지수는 현재 영어도서와 스페인어 도서에 대해서만 개발되어 적용되고 있는 실정이다.

예를 들면 미국의 경우 메타메트릭스사(MetaMetrics)가 운영하고 있는 렉사일 프레임웍(Lexile Framework)이라는 독서능력 평가 도구가 있으며, 이는 영어와 스페인어를 대상으로 하고 있다.

국내에서는 (주)아틀란시스템에서 독서능력지수(RQ;reading quotient)를 이용하여 독서능력을 관리하는 시스템을 특허 출원(2002년 특허출원 제41881호)한 바있다.

미국의 경우 많은 출판사들이 읽기지도 프로그램(Guided Reading Program)을 경쟁적으로 만드는데, 이때 기준이 되는 등급 중의 하나가 렉사일 스코어(Lexile Score)이다.

상기 렉사일 스코어의 주요 목표는 적합한 책을, 적합한 학생에게, 적합한 시기에 제공하는 것이며, 메타메트릭스사의 연구팀은 지난 15년 이상 이러한 목표를 달성하기 위해 연구를 집중해 왔다.

미국 아동건강개발협회(NICHD;National Institute for Child Health Development)의 지원으로 메트릭스사는 학생의 독서 능력과 도서의 난이도를 정확히 일치시킬 수 있는 시스템을 개발하였으며, 이 시스템을 독서능력지수 체계(Lexile Framework)라 하고 있다.

상기 기준은 15년에 걸쳐 연구하여 4만4000권의 책에 등급을 매겨 만든 것이며, 다시 이 등급을 참조해 학년별 기준도서를 분류해 놓았다.

상기 독서능력지수 체계(Lexile Framework)의 렉사일 측정치는 주어진 텍스트의 읽기능력(혹은 이해능력)을 표시하는 특정 숫자로 렉사일 분석기라는 프로그램이 그 수치를 계산하며, 렉사일 분석기는 문장 길이와 단어 빈도수를 고려하여 렉사일 측정치를 부여한다.

일반적으로 렉사일로 분석된 텍스트의 수준은 200부터 1700까지인 바, 초등1학년은 최고가 300렉사일 정도이고 고등학교 3학년은 940렉사일에서 1210렉사일인데 1300렉사일이 넘는 책도 있으며, 같은 점수라도 3개 학년에 걸쳐 분포되어 개인차를 고려한다.

한편 영어와 한국어는 언어 자체가 다르기 때문에 사용되는 어휘가 모두 다르며, 어휘의 빈도수 정보도 다르고, 문장의 복잡성을 계산하는 방법 등이 모두 다르게 된다.

따라서 상기 메타메트릭스사의 독서능력지수 체계(Lexile Framework)를 통해 한국어 출판물의 독서능력지수를 구하는 것이 불가능하게 된다.

(주)아틀란시스템의 선출원 발명에서는 본 발명의 도서지수와 유사한 개념의 독서능력지수(RQ)를 사용하고 있는 것으로 보여지는데, 이 독서능력지수(RQ)는 사용된 단어의 총 개수, 문장의 개수, 문장의 평균 길이, 단어별 출현 회수만으로 지수를 계산하기 때문에 정확한 도서지수를 계산할 수 없으며, 지수계산의 객관성을 보장할 수 없다.

즉, 상기 선출원 발명은 단순한 통계 정보만으로 지수를 산출하기 때문에 정확한 지수 계산이 어렵게 되는데, 예를 들면 고등학생 이상이 주로 사용하는 어려운 어휘로 구성되었지만, 문장의 개수나 문장의 평균 길이가 작을 경우 지수가 초등학생 저학년 이하로 나올 가능성이 매우 높게 된다.

(주)아틀란시스템의 상기 선출원 발명도 독서능력지수(RQ)를 이용한 개개인의 평가가 가능하며, 그것을 바탕으로 수준에 맞는 도서를 추천해 주지만 전문가들에 의해 분류된 어휘의 난이도 정보를 이용하여 개개인의 독서능력을 평가하지 않기 때문에 보다 과학적이고 객관적인 평가가 불가능하게 된다.

본 발명은 상기와 같은 종래의 실정을 감안하여 안출한 것이며, 그 목적이 한국어로 된 독서의 대상이 되는 출판물에 대하여 보다 신뢰성이 뛰어난 도서지수를 계산할 수 있도록 함은 물론 이 도서지수를 통해 개인의 독서능력을 교육하고 개발할 수 있도록 하는 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여 시스템을 제공하는 데에 있는 것이다.

상기의 목적을 달성하기 위한 본 발명은 크게 네 부분으로 이루어지는 바, 첫번째는 구문 태거와 난이도 시소러스를 이용한 도서지수 개발 프로그램, 두번째는 도서지수 평가 프로그램, 세번째는 시소러스를 이용한 분야 자동 설정 프로그램, 네번째는 위 3 개의 프로그램에서 사용하는 핵심 데이터베이스인 시소러스와 난이도 등급을 포함하는 사전이며, 사전의 이름은 난이도 시소러스(Difficulty thesaurus)라고 부른다.

난이도 시소러스는 일정 단어 규모(예를 들면 50만 단어)로 각 어휘에 대한 품사 정보, 난이도 정보, 의미정보, 동음이의어 정보, 핵어휘 정보 등이 포함되어있는 것으로, 이런 정보들이 통합되어 데이터베이스로 구축된다.

상기 난이도 시소러스에서 난이도 정보에는 1~7등급의 등급을 개개의 어휘에 부여하는 일과 동음이의어, 핵어휘, 고유명사 처리를 위한 정보를 함께 포함한다.

상기에서 핵어휘란 문장을 이루는 가장 기본이 되는 단어들로 어휘의 난이도로 보면 가장 쉬우면서도 기본이 되지만 너무 흔하게 나타나기 때문에 오히려 도서전체의 난이도인 도서지수를 측정하기에 방해가 되는 단어들을 말하며, 표1은 핵어휘의 일부를 보여 준 것이다.

단어의 등급은 대규모 텍스트 코퍼스에서 추출한 각 단어들의 빈도수가 기준이 되지만 단순히 빈도수만이 판단 기준이 되지 않으며, 전문가들에 의해 분류된 단어들이 최대한 반영되고, 초등학교, 중학교, 고등학교 교과서에 출현한 단어들이 반영됨은 물론 유아용 동화책을 비롯한 초등학생용 동화책, 논술 지도책, 학년에 맞는 추천도서 등이 이용되어 각 단어에 적절한 등급이 부여된다.

표2는 이해를 돕기 위해 6차 고등학교 교과서에서 추출한 각 등급별 단어의 일부를 보인 것이다.

도서지수개발 프로그램은 난이도 시소러스를 이용하여 입력으로 주어진 텍스트(도서)에 대해 도서지수를 부여하는 것이다.

도서지수는 정확한 문장 분석을 위한 제목 삭제 등의 전처리 과정을 거친 후, 난이도 시소러스를 이용한 등급별 통계와 입력 텍스트 전체에 대한 통계정보를 이용하여 계산한다.

이때 정확한 형태소 해석과 형태소 해석 후처리를 위해 한국어 구문 태거가 사용되며, 동음이의어 처리, 핵어휘 처리, 고유명사 처리를 하고, 등급별 가중치를 각 등급별로 부여함으로써 도서지수 계산식을 적용한다.

구문 태거는 정확한 형태소를 판별하기 위해 어휘의 난이도 정보와 시소러스정보를 이용한다.

표3은 단계별 독서이해능력지수(도서지수) 및 독서능력 급수표인 바, 도서지수 수치를 이용하여 책(도서)이 어느 정도 수준인지를 알려 주는 것이다.

도서지수 계산식은 난이도 등급 1등급부터 7등급까지에 대해, 각 등급별 분포와 등급별 가중치를 곱한 후, 표3에 나타난 등급별 분포에 따라 변환해 주는 방식이다.

즉, 계산 결과 전체 단어들의 계산된 등급이 3등급이면 도서지수는 200~850 사이에 분포하게 된다.

도서지수 평가 시스템은 난이도 시소러스를 이용하여 개개인이 자신의 도서지수를 측정할 수 있도록 해 주는 시스템이다.

도서지수 평가 시스템은 수준에 맞는 문제와 보기를 사용자에게 제시하여 사용자가 답하면 이를 평가하여 개인의 도서지수를 계산해 준다.

이 시스템은 사용자가 자신의 도서지수를 알 수 있도록 해줌으로써 자신의 독서능력 수준을 확인하며, 등급에 맞는 도서를 선택할 수 있게 해 줌으로써 자신의 독서능력을 계속하여 키워 가도록 도와준다.

이 시스템에서 사용하는 도서지수는 일반 도서에 대한 도서지수와 동일한 난이도 시소러스를 사용하고 있어서 책에 대한 도서와 독자에 대한 도서지수를 일치시킬 수 있어서 수준별 독서지도에 유리하다.

시소러스를 이용한 자동 분야 설정 프로그램은 입력된 텍스트(도서 혹은 파일)에 대해 그 텍스트가 속할 수 있는 가능성이 높은 분야를 자동으로 찾아주는 것이다.

난이도와 시소러스 정보를 이용하는 구문 태거를 사용하여 출현하는 단어들이 주로 어느 분야에 해당되는지를 통계적으로 계산하여 해당분야와 함께 그래프로 보여준다.

그래프로 보면 입력된 도서가 어느 분야에 속하는지 한 눈에 살펴볼 수 있다.

표4는 구문 태거에서 사용하는 난이도 시소러스의 예이다.

표4에 나타난 품사는 고등학교 교과서에 나오는 품사 분류 체계를 따른 것이며, 동음이의어 정보는 한 개의 단어가 여러 의미로 사용될 경우에 그 정도에 따라 수치가 부여된다.

의미정보는 대분류 30여개를 포함하여 모두 3500여개를 가지고 있다.

실제 사전에는 의미정보 코드가 들어 있지만 여기서는 설명을 위해 의미정보이름을 그대로 적었다.

마지막으로 난이도 순위는 50만 단어를 난이도 기준에 따라 일련번호를 매겨둔 것이며, 등급이 높을수록, 즉 2,3,4 등급으로 갈수록 수치는 커진다.

난이도 정보는 김광해(2003)의 " 등급별 국어교육용 어휘" 를 기본으로 하여 다양한 분야의 대규모 텍스트 코퍼스에서 찾은 단어들의 빈도수와 그동안 여러 전문가들이 나름대로 구분한 기본 어휘 등을 모두 고려하여 개개 어휘에 난이도 등급을 부여하였다.

이 과정에 사용된 텍스트는 최근의 초, 중, 고등학교 교과서, 초등학교용 동화책, 유아용 동화책, 중, 고등학교용 논술 지도서 등을 참조하여 등급별 단어들이 적절하게 구분되어 있는지를 검증하고 수정하여 학생들의 성장 단계별로 수준에 맞는 단어를 정하고 난이도 등급을 조정하였다.

난이도 정보란 개개의 단어를 쉽고 어려운 정도에 따라 구분한 것으로 쉬운 것부터 1등급이 되고, 어려운 단어는 7등급이 되며, 여기서 쉽다는 의미는 유아나 이제 글을 막 배우는 단계에서 사용하는 단어들부터 시작하여 일반인들이 가장 빈번하게 사용하는 단어가 우선 대상이 되고, 어려운 단어는 전문용어를 포함하여 일반인이 자주 쓰지 않는 단어이거나 의미 자체가 국어사전을 봐도 쉽게 이해가 안되는 수준의 단어가 될 것이다.

의미정보는 시소러스를 이용한 분야 자동 선정을 위해 사용되는데, 난이도 등급이 1등급부터 7등급까지 전체 어휘에 대해 그 어휘가 가지는 의미정보를 부여한 것이다.

의미정보는 의미를 계층구조로 표시한 것으로 전체적으로 3500개 정도로 세분화되어 있다.

모든 언어는 두 가지 요소를 공유하는데, 의미적 요소와 구문적 요소가 그것이며, 언어에서 의미의 단위는 단어이고, 단어는 구문규칙에 따라 배열되고 문장을 구성한다.

일반적으로 의미적 요소는 친밀성에 따라 달라지고, 구문구조에 따라 복잡도가 달라지며, 문장의 이해도나 난이도는 의미적 요소의 친밀성과 구문구조의 복잡도에 따라 결정된다.

본 발명에 있어서 도서지수는 두 단계를 거쳐 부여된다.

첫째는 책의 텍스트를 디지털화한다.

즉, 컴퓨터에서 읽을 수 있는 텍스트 파일로 변환해야 한다.

그리고 입력 텍스트는 필요에 따라 수정을 하고 분석을 하게 된다.

모든 디지털화된 텍스트는 도서지수 개발 프로그램이 정의한 가이드라인에 따라 수정되어야 한다.

이 가이드라인에는 미완성 문장의 삭제, 제목, 소제목, 단락 제목 등의 삭제, 그리고 철자교정기를 돌려 잘못된 철자를 수정한다.

그리고 구두점이 잘못 찍힌 것들과 띄어쓰기 잘못 등을 수정한다.

이런 절차를 거쳐 입력 텍스트는 도서지수 개발 프로그램을 거쳐 문장의 길이와 단어들의 빈도수를 조사하고, 그 책에 대한 도서지수를 측정하게 된다.

책에 대한 도서지수는 그 책에 대한 읽기능력(혹은 이해능력)을 가리키는 숫자이다.

읽기능력을 판단하는 기준은 의미적 어려움(단어)과 구문의 복잡성(문장 길이)이다.

도서지수 개발 프로그램은 난이도 시소러스를 이용하는 구문 태거가 내장되어 있다.

구문 태거는 입력된 문장을 형태소 단위로 분리하여 주고, 난이도 시소러스에 있는 난이도 등급을 이용하여 도서지수를 계산한다.

한 개의 어절이 여러 개의 형태소 해석 결과를 가질 경우(모호성을 가지는 경우)에는 난이도 순위 정보와 의미정보를 이용하여 해결한다.

난이도 순위를 이용한 모호성 해결은 특히 복합명사 분리에 효과를 본다.

사전에 등록된 단어들의 모여 한 개의 복합명사를 이룰 경우 굉장히 많은 모호한 결과가 나올 수 있다.

이때 난이도 순위를 이용하여 고난이도 단어 위주로 단어들을 분리하면 제대로 된 분리가 가능하다.

의미정보를 이용한 모호성 해결은 기존 형태소 해석기가 단순히 품사 정보의 접속 가능성만을 가지고 해결하려고 한 모호성 해결의 한계를 극복할 수 있게 해준다.

두번째 단계는 실제 책에 대한 레이아웃을 이용하여 도서지수 코드를 부여한다.

이를 구체적으로 설명하면 책내의 그림, 도표, 그래프의 유무, 설명용 삽화, 인쇄물의 크기, 인쇄물의 여백, 글자 크기, 페이지당 단어 수, 중간 제목 등을 고려하여 부여한다.

도서지수코드 부여는 전문가가 책을 보면서 수동으로 결정한다.

도서지수 측정치와 도서지수 코드가 도서지수 책 데이터베이스에 추가되고, 출판사와 서점에 전달된다.

레이아웃을 이용하여 도서지수 코드는 A부터 G까지 코드를 가지는데, A의 경우가 유아용 책에 대한 것으로 그림도 많고, 페이지당 글자수는 적고, 글씨 크기도 가장 큰 경우이며, G의 경우가 그림도 없고, 글씨만 잔뜩 있으면서 글자 크기도 작고, 페이지 수는 많은 경우에 해당된다.

이것은 어휘의 난이도와는 무관한 것으로 출판물 자체로 전문가가 주관적으로 판단한다.

도 1은 본 발명에서 구현하고자 하는 전체 시스템 구성도이다.

도 1과 같이 난이도 시소러스(101)가 본 발명에서 구현하고자 하는 시스템의 핵심 정보를 담고 있다.

난이도 시소러스는 개개의 어휘별 난이도 등급과 동음이의어 정보, 의미정보등을 포함하고 있다.

도서지수개발 프로그램(102)은 입력된 도서나 출판물을 분석하여 도서지수를 계산하여 보여 주며, 단순하게 도서지수 수치만 보여주는 것이 아니라 도서지수가 나오게 된 통계정보, 주변정보까지 보여줌은 물론 잘못된 결과에 대한 수정 기능까지 포함하고 있다.

도서지수평가 프로그램(103)은 개별 사용자가 로그인을 통하여 자신의 도서지수를 확인하고, 관리할 수 있도록 해 준다.

사용자는 도서지수 평가 시스템이 제시하는 문제를 풀어서 자신의 도서지수를 확인하고, 도서지수 개발을 위한 도서를 추천받게 된다.

분야 자동 설정 프로그램(104)은 도서/출판물을 분석하여 해당 도서가 어느 분야에 속하는지를 결정하여 보여준다.

도 2는 도서지수를 계산하고, 그 결과를 보여주는 전체 시스템을 보인 것이다.

도서지수 계산 시스템은 다양한 종류의 문서 파일을 입력으로 허용한다.

텍스트 파일로 변환 가능한 문서 파일은 모두 입력으로 가능하다.

그래서 시스템이 첫번째로 하는 일은 도서지수를 계산할 적어도 한 개이상의 파일을 선택하는 것이며, 선택된 파일 중 텍스트 파일 형식이 아닌 파일은 텍스트 파일로 변환되고, 이 때 전처리 과정을 거친다.(201)

전처리에는 제목 삭제, 정확한 구두점 사용, 철자 오류 수정, 띄어쓰기 오류 수정 등의 과정을 수행한다.

시스템은 파일을 하나하나씩 읽어서 처리하는데, 먼저 전체 파일을 읽어서 파일 크기를 알아낸다.(202)

이렇게 구해진 파일 크기는 도서지수 계산에 사용된 파일의 실제 크기를 파악하는 일과 전체 작업량 중 어느 정도 진행되었는지를 파악하는 기준이 된다.

하나의 문장은 한 줄로 적을 수도 있지만 한 줄에 1개 이상의 문장이 올 수도 있고, 한 문장이 여러 줄에 걸쳐 나올 수도 있기 때문에 먼저 문장 단위로 나누는 일은 중요하다.(203)

형태소 해석기(204)는 어절 내에서만 형태소를 해석하는 것이 아니라 주변 어절까지 고려하여 형태소를 분석하기 때문에 문장 단위로 처리하는 것이 정확한 형태소 해석에 유리하며, 형태소 해석기는 입력된 문장을 형태소 별로 분석한다.

하나의 어절은 적어도 한 개 이상의 형태소로 구성된다.

형태소 해석은 기본적으로 국어 형태소 규칙에 맞게 어절을 형태소 별로 분리해낸다.

형태소 해석은 주변의 어절까지만을 보고 형태소를 분석하기 때문에 잘못된 분석을 할 가능성이 있다.

이렇게 잘못된 형태소 해석 결과는 사안별로 오류를 수정한다.(205)

형태소 해석 오류의 대표적인 예는 동사+관형사형 어미 형태로 된 어절이 같은 형태의 명사와 일치할 때 주로 발생한다.

예를 들면 '주신'이란 어절은 명사로 해석할 수도 있고, 주다 + 시 + ㄴ 이라는 동사에 관형사가 붙은 것으로 해석할 수 있다.

형태소 해석이 복합표현(복합명사, 접두사+명사, 복합동사 등)을 하나의 형태소가 아닌 2개 이상으로 해석하는 경우가 있다.

이 경우에 난이도 시소러스(206)를 참조하여 결합 가능한 형태소이면 두 개의 형태소를 결합하여 하나로 처리한다.

도서지수계산(207)은 형태소 중에서 체언과 용언, 부사 등을 추출하여 난이도 시소러스와 비교하여 각 단어에 대한 등급을 가져와서 계산한다.

이 때 조사나 어미 등은 어휘적 의미를 가지지 않고 문법적 의미만 가지기 때문에 도서지수 계산에서 제외한다.

도서지수 계산은 난이도 등급별 분포와 등급별 가중치에 의해서 계산되며, 난이도 등급은 2003년 도서출판 박이정에서 펴내고 김광해가 지은 등급별 국어교육용 어휘를 참조하였다.

도서지수 계산 결과는 입력 파일별로 결과를 보여주고, 전체 입력 파일에 대한 통합 결과도 보여준다(210).

도서지수 계산에 사용된 각종 통계 정보를 보여주어서 도서지수 계산 과정에 사용된 정보들을 한 눈에 볼 수 있으며, 잘못된 결과에 대한 원인, 분석, 수정도 가능하다.

그것을 위해 전체 문장수, 어절수, 형태소수, 문장당 어절수, 도서지수 계산에 사용된 형태소수, 동음이의어 수, 등급별 빈도수 등을 계산한다.(208)

상기 계산된 통계정보는 틀에 맞추어서 출력한다.(211)

입력 파일에 실제 등장한 단어들을 보여 줌으로써 사용된 단어들이 주로 어떤 단어들인지, 품사는 어떤 것이 많이 사용되었는지를 보여준다.(212)

이것을 위하여 출현 단어들을 추출하여 등급별로 구분하고 빈도수를 계산하며, 아울러 품사별로 구분하고 그 빈도수도 계산한다.(209)

도 3은 도서지수 재계산과 출현단어를 보여주는 도면이다.

출현단어보기(301)는 품사별보기(304), 등록어보기(305), 미등록어보기(306)의 세 가지로 구분된다.

품사별보기(304)는 출현 단어들을 품사별로 보여주고 단어의 빈도수도 함께 보여주며, 단어별 정렬과 빈도순 정렬이 가능하여 출현 단어를 분석하는데 유용하다.

등록어보기(305)는 출현 단어들 중에서 난이도 시소러스에 등록된 단어들을 보여준다.

등록된 단어들은 단어별 정렬(309)이 가능하고, 등급별 정렬(310)도 가능하며, 빈도별 정렬(311)도 가능하다.

정렬은 버튼 하나로 동작하며, 내림차순과 오름차순으로 정렬이 모두 가능하다.

미등록어보기(306)는 형태소 해석 결과를 거쳐 도서지수 계산에 사용될 수 있는 품사이지만 난이도 시소러스에 등록되지 않은 단어들이다.

이 단어들은 형태소 해석기의 오류로 인해 나타나는 경우도 있고, 철자 오류나, 띄어쓰기 오류, 고어 사용 등으로 나타나기도 한다.

하지만 실제로 사용되는 단어인데도 불구하고 난이도 시소러스에 등록되지 않은 경우도 있다.

이런 단어들을 난이도 시소러스에 등록하기 위해서 미등록어보기(306)는 아주 중요한 역할을 담당한다.

품사별보기(304), 등록어보기(305), 미등록보기(306) 화면에서 단어를 선택한 후에 그 단어의 태깅 결과를 볼 수 있고(307), 그 단어의 주변 단어들도 볼 수 있다.(308)

이 기능은 특정 단어가 고빈도인 경우, 형태소 태깅 결과에 오류가 있어서인지 여부를 쉽게 판별할 수 있고, 기대하지 않았던 결과가 나왔을 경우에 그 원인을 쉽게 파악할 수 있도록 해 준다.

등록어보기(305)에는 단어삭제(302) 후 도서지수 재계산(303)이라는 아주 중요한 기능이 있다.

특정 단어가 고유명사로 사용되어 빈번하게 나타나는데, 그 단어가 공교롭게도 등급이 아주 높은 단어와 동일한 단어여서 도서지수가 예상외로 높게 나타나는 경우가 있으며, 이런 경우는 형태소 해석 오류로 인해 잘못 나뉘어진 단어에서도 나타난다.

이런 단어들은 도서지수 계산을 잘못되게 하는 요인이기 때문에 삭제하는 것이 옳다.

그래서 삭제 후에 도서지수를 재계산하는 기능을 추가한 것이다.

도 4는 도서지수 계산 방법을 나타낸 흐름도이다.

도서지수를 계산할 때는 우선 입력 파일에 나타나는 모든 형태소 중에서 도서지수 계산에 사용되는 형태소들만 고르고 난이도 시소러스와 비교하여 각 단어들의 난이도 등급을 알아낸 후 등급별로 비율을 계산한다.(401)

난이도 등급별 비율을 계산한 후에는 난이도 등급에 가중치를 부여한다.(402)

가중치는 난이도 시소러스에 등재된 등급별 단어수를 기반으로 부여하며, 계산된 등급별 비율과 부여한 가중치를 이용하여 1차 도서지수를 계산한다.(403)

이렇게 계산된 도서지수는 통계정보를 이용하여 조정된다.(404)

예를 들면 문장당 어절수가 일정 수 이하면 초등학교 1학년 수준으로 간주하는데, 초등1학년 수준이 가질 수 있는 도서지수 밖에 있으면, 최소값과 최대값 중하나를 부여한다.

기본적으로 도서지수는 수치로 나타내게 되지만 출판물 자체의 형태에 따라 알파벳으로 출판물의 형태에 따른 지수를 부여해 준다.(405)

예를 들면 유아용 도서처럼 그림도 많고 글씨도 크면서 페이지당 단어수도 적은 경우를 'A'로 부여하는 방법이다.

이것은 내용변인(406)에 대한 것과 함께 고려하는데, 내용변인(406)은 출판물의 문학적 가치, 주제의 수준, 독자에 대한 적절성 등을 평가하는 것이다.

도 5는 난이도 시소러스 구축에 관한 흐름도이다.

본 발명에 있어서 난이도 시소러스는 대략 50만 단어에 난이도 등급을 부여한 것으로, 도서지수 계산에 핵심적인 역할을 담당한다.

기본적으로 난이도 시소러스에는 대량의 코퍼스로부터 구해진 단어별 빈도수와 교과서, 동화 등에서 추출한 단어 빈도수, 전문가들이 정한 단어의 등급 등을 전체적으로 고려하여 각 단어마다 부여된 난이도 등급을 가지고 있다.(501)

여기에 동음이의어를 가진 단어는 동음이의어 정보가 추가된다.(502)

동음이의어는 한 단어가 2가지 이상의 의미를 가지는 것으로, 한 단어가 다품사를 가지는 경우도 동음이의어로 취급한다.

동음이의어의 경우 각 의미마다 등급이 달라지기도 하기 때문에 동음이의어처리는 신중해야 한다.

단어 중에서 너무 흔하게 등장하는 단어는 난이도를 구분하는데 도움이 되지않고, 정확한 도서지수 산출에 방해가 되므로 이런 단어를 핵어휘라고 명명하고, 핵어휘 정보를 추가한다.(503)

핵어휘는 수준에 따라 달라지는 것이 원칙이며, 예를 들면 중학교 이상의 수준에서는 50개 정도의 핵어휘를 사용하지만 유아용 책에서는 20개 정도를 사용해야 하는데, 유아용 책에서 핵어휘 50개를 사용하면 대부분 핵어휘로 취급되어 정확한 도서지수 산출이 어려워 질 수 있기 때문이다.

고유명사 정보(504)는 고유명사가 빈도수는 낮지만 난이도 등급이 높은 단어와 같은 단어일 경우 도서지수 계산에 오류를 크게 발생시키기 때문에 이 고유명사 정보를 도서지수 계산에 반영하여야 한다.

아울러 고유명사는 특정 책에서만 빈번하게 나타나면서 그 단어로 인해 도서지수가 왜곡될 가능성이 있기 때문에 따로 고려해 주어야 한다.

고유명사 중에서 나라 이름처럼 너무 흔하고 자주 나타나는 단어에는 난이도 등급을 부여하는 것이 좋으며, 흔하지 않은 대부분의 고유명사는 도서지수 계산시 무시된다.

개개의 어휘에는 각 어휘가 가지는 의미정보를 포함하며, 이것을 포함한 사전을 난이도 시소러스(505)라 부른다.

이 의미 정보들의 분포를 이용하여 분야를 자동으로 설정하게 되는데, 의미정보는 사람, 사회조직, 인공물, 정치, 생물, 자연물 등 상위 정보 30개 정도와 세부정보 3500여 개로 설정할 수 있다.

위에서 설명한 정보를 이용하여 1차 난이도 시소러스가 구축된다.(506)

동음이의어정보(502), 핵어휘정보(503), 고유명사정보(504)는 실제 도서지수 계산시 다양한 규칙에 따라 반영된다.

이렇게 구축된 난이도 시소러스는 암호화(507) 과정을 거쳐 최종 난이도 시소러스(508)로 변환된다.

도 6은 분야 자동 설정 프로그램에 대한 구성도이다.

분야 자동 설정 프로그램은 파일을 입력받고(601), 형태소 해석을 하고(604), 난이도 시소러스(606)를 이용하여 출현한 단어들의 모든 의미를 분석하여 분야별 통계정보를 계산(607)한다.

이 프로그램의 초반(601~605) 부분은 도서지수 개발 프로그램과 동일한 과정을 거친다.

분야는 기본적으로 30개 정도로 구분되지만 의미 정보 3500여 개가 계층구조로 이루어져 있기 때문에 응용 분야에 따라 기본 분야를 다양하게 조정할 수 있다.

계산된 결과는 가장 유력한 분야와 함께 그래프로 출력되어(608), 한 눈에 어느 분야에 속하는 도서인지 판별할 수 있도록 한다.

도 7은 도서지수 평가 프로그램에 관한 구성도이다.

도서지수 평가 프로그램은 개인별 관리가 가능하도록 구현된다.

도서지수 평가 프로그램을 시작하려면 먼저 로그인을 하고(701), 마칠 때 로그아웃을 한다.

사용자가 로그인을 하여 도서지수 평가에 응시하면 지정된 개수의 문제가 화면에 나타나게 된다.

사용자는 그 문제를 풀면 되고 문제풀이가 끝나면 곧바로 그 결과가 나온다. (706)

이렇게 나온 도서지수가 사용자의 현재 독서능력지수이다.

사용자가 얻은 도서지수는 사용자 데이터베이스(705)에 저장되어 개인별로 관리된다.

도서지수 평가가 끝나면 시스템에서 사용자 수준에 맞는 도서를 추천해 준다.(708)

이 도서는 추천도서 데이터베이스(707)에 수준별로 분류된 것 중 임의로 골라 주거나 사용자의 관심 분야에 맞게 골라 준다.

평가에 사용되는 평가문제는 평가문제 데이터베이스(703)에서 수준에 맞게 임의로 선택되며, 이 평가문제 데이터베이스는 난이도 시소러스(704)에서 수준별 어휘를 임의로 가져와서 만들어 둔 것들이다.

이상에서 설명한 바와 같이 본 발명은 도서에 객관적이고 과학적인 방법으로 산출된 도서지수를 부여하여 학생에게는 도서 선정시에 유용성을 제공할 수 있게 됨은 물론 독서에 흥미와 동기를 부여할 수 있게 되고, 독서 지도자, 교사, 학부모, 출판업자들에게는 최적의 관리, 운영방법을 제시할 수 있게 된다.

그리고 도서지수 계산에 개별 어휘의 난이도 정보, 의미정보, 난이도순위 정보 등을 포함한 난이도 시소러스와 그것을 이용하여 보다 정확한 형태소 해석을 해주는 구문 태거를 사용함으로써 과학적이고 객관적인 도서지수를 산출할 수 있게 된다.

본 발명의 도서지수 평가 시스템은 개인의 독서 능력을 정확하게 진단하고 평가해 줌으로써 독서에 어려움을 가진 학생을 가려내거나 다른 학급이나 다른 학생들의 독서 성취수준과 비교할 수 있게 해주며, 또한 도서지수를 평가하기 위한 평가지는 모두 컴퓨터에 의해 평가되고 관리되기 때문에 학생, 학교 지역간의 비교가 가능하게 되고, 이러한 표준화 검사로부터 얻은 정보는 집단의 독서 성취도를 측정하거나 학생집단의 독서 능력을 평가할 수 있게 해준다.

본 발명의 난이도 사전 시소러스를 이용한 분야 자동 설정 프로그램은 인터넷이 발전하고 누구나 쉽게 출판물을 개발할 수 있게 되면서 그 출판물이 어느 분야에 속하는지를 빠르고 정확하게 판별해 줄 수 있기 때문에 출판물이나 문서 정리에 유용하다.

또한 인터넷 검색시에도 분야별로 정확하게 검색하는 일이 가능하고, 동음이 의어 처리가 가능하여 잘못된 검색을 할 여지를 축소시켜준다.

본 발명의 시스템은 출판되는 모든 출판물에 대해 거기에 사용된 어휘의 난이도를 등급에 따라 계량함으로써 보다 과학적인 방법으로 도서지수를 부여하게 되며, 개인의 독서능력을 교육하고 개발하고자 하는 경우에 사용하기 위한 독서능력 평가 통합 시스템으로도 사용될 수 있다.

그리고 본 발명의 도서지수는 어휘 개개의 난이도 정보와 문장의 복잡성을 토대로 계산된다.

미국 메타메트릭스사의 독서능력지수 체계(Lexile Framework)은 단어의 빈도수와 문장 길이를 이용하여 그 수치를 계산하는 반면에 본 발명에서는 개개 어휘에 난이도 등급을 부여한 후 그 등급의 분포와 문장의 길이, 그리고 출판물 변인 등을 다양하게 고려하여 수치를 부여하게 되고, 그 속에 국어의 시소러스가 활용됨으로써 모든 어휘의 의미 정보를 파악하여, 출판물이 어떤 분야의 도서인지 자동으로 판별하게 해 줄 수 있다.

본 발명은 도서지수에 대한 기본 아이디어는 미국 메타메트릭스사의 독서능력지수 체계(Lexile Framework)와 유사하지만 도서지수에 사용되는 요소, 계산식, 적용방법 등은 독창적인 방법을 이용하였지만 학년별 기준이 되는 렉사일 수치와 도서지수를 일치시켜 수치가 같을 경우 영어책이나 한글책이나 그 수준이 같음을 알 수 있도록 했다.

본 발명의 시스템에 도입된 시소러스 기반의 분야 자동 설정 프로그램(도서자동분류시스템)은 전혀 새로운 것으로 도서에 등장하는 각 어휘의 의미를 파악, 특정 의미의 어휘가 자주 나오는 정도를 분석함으로써, 도서가 소속될 가능성이 높은 분야를 자동으로 조사해 준다.

예를 들면 도서가 소속될 가능성이 높을 분야가 통신분야인지, 과학분야인지, 농업 분야인지 등을 파악해 낼 수 있다.

도 1은 본 발명에 따른 난이도 시소러스를 활용한 도서지수 부여 시스템 전체 구성도

도 2는 본 발명에 따른 도서지수 부여 개발 프로그램의 전체 구성도

도 3은 본 발명에 따른 도서지수 부여 개발 프로그램의 단어보기 구성도

도 4는 본 발명에 따른 도서지수 부여 개발 프로그램의 도서지수 부여 계산흐름도

도 5는 본 발명에 따른 난이도 시소러스 구축 흐름도

도 6은 본 발명에 따른 도서지수 부여 평가 프로그램의 구성도

도 7은 본 발명에 따른 도서의 분야 자동 설정 프로그램의 구성도

Claims

개개의 어휘별 난이도 등급과 동음이의어 정보, 의미정보을 포함하는 난이도시소러스;

입력된 도서나 출판물을 분석하여 도서지수를 계산하여 보여 주며, 단순하게 도서지수 수치만 보여주는 것이 아니라 도서지수가 나오게 된 통계정보, 주변정보까지 보여줌은 물론 잘못된 결과에 대한 수정 기능까지 포함하고 있는 도서지수개발 프로그램;

개별 사용자가 로그인을 통하여 자신의 도서지수를 확인하고, 관리할 수 있도록 해주는 도서지수평가 프로그램;,

도서/출판물을 분석하여 해당 도서가 어느 분야에 속하는지를 결정하여 보여주는 분야 자동 설정 프로그램;

을 구비하는 것을 특징으로 하는 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여 시스템.
제1항에 있어서, 도서지수 개발 프로그램은

도서지수를 계산할 적어도 한 개이상의 파일을 선택하여 선택된 파일 중 텍스트 파일 형식이 아닌 파일을 텍스트 파일로 변환하고, 제목 삭제, 정확한 구두점사용, 철자 오류 수정, 띄어쓰기 오류 수정 등의 전처리 과정을 수행하는 단계;

전체 파일을 읽어서 파일 크기를 알아내는 단계;

텍스트를 문장 단위로 나누는 단계;

입력된 문장을 형태소 별로 분석하는 단계;

난이도 시소러스를 참조하여 잘못된 형태소 해석의 오류를 수정하는 단계;

형태소 중에서 체언과 용언, 부사 등을 추출하여 난이도 시소러스와 비교하여 각 단어에 대한 등급을 가져와서 도서지수를 계산하는 단계;

입력 파일별로의 도서지수 계산 결과와 전체 입력 파일에 대한 통합 결과를 보여주는 단계;

전체 문장수, 어절수, 형태소수, 문장당 어절수, 도서지수 계산에 사용된 형태소수, 동음이의어 수, 등급별 빈도수 등의 통계정보를 계산하는 단계;

계산된 통계정보를 틀에 맞추어서 출력하는 단계;

출현 단어들을 추출하여 등급별로 구분하고 빈도수를 계산하며, 아울러 품사별로 구분하고 그 빈도수도 계산하는 단계;

입력 파일에 실제 등장한 단어들을 보여 줌으로써 사용된 단어들이 주로 어떤 단어들인지, 품사는 어떤 것이 많이 사용되었는지를 보여주는 단계;

를 포함하는 것을 특징으로 하는 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여 시스템.
제1항 또는 제2항에 있어서,

입력 파일에 나타나는 모든 형태소 중에서 도서지수 계산에 사용되는 형태소들만 고르고 난이도 시소러스와 비교하여 각 단어들의 난이도 등급을 알아낸 후 등급별로 비율을 계산하는 단계;

난이도 등급별 비율을 계산한 후에는 난이도 등급에 가중치를 부여하는 단계;

계산된 등급별 비율과 부여한 가중치를 이용하여 1차 도서지수를 계산하는 단계;

계산된 1차 도서지수는 통계정보를 이용하여 조정하는 단계;

출판물 자체의 형태에 따라 알파벳으로 출판물의 형태에 따른 도서등급을 부여하는 단계;

출판물의 문학적 가치, 주제의 수준, 독자에 대한 적절성 등을 평가하여 도서등급을 부여하는 단계;

를 거쳐 최종 도서지수를 산출하는 것을 특징으로 하는 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여 시스템.
제3항에 있어서,

출현 단어들을 품사별로 보여주고 단어의 빈도수도 함께 보여주는 품사별보기와, 출현 단어들 중에서 난이도 시소러스에 등록된 단어들을 보여주는 등록어보기와, 형태소 해석 결과를 거쳐 도서지수 계산에 사용될 수 있는 품사이지만 난이도 시소러스에 등록되지 않은 단어들을 보여주는 미등록어보기를 포함하는 출현단어보기 단계;

등급이 아주 높은 단어와 동일한 단어여서 도서지수가 예상외로 높게 나타나는 단어나 형태소 해석 오류로 인해 잘못 나뉘어진 단어를 삭제하는 지정단어 삭제단계;

를 거쳐 1차 도서지수를 조정하는 것을 특징으로 하는 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여 시스템.
제1항에 있어서,

대량의 코퍼스로부터 구해진 단어별 빈도수와 교과서, 동화 등에서 추출한 단어 빈도수, 전문가들이 정한 단어의 등급 등을 전체적으로 고려하여 각 단어마다 난이도 등급을 부여하는 단계;

한 단어가 2가지 이상의 의미를 가지거나 한 단어가 다품사를 가지는 동음이 의어 정보를 추가하는 단계;

단어 중에서 너무 흔하게 등장하여 난이도를 구분하는데 도움이 되지 않고, 정확한 도서지수 산출에 방해가 되는 단어인 핵어휘 정보를 추가하는 단계;

빈도수는 낮지만 난이도 등급이 높은 단어와 같은 단어일 경우 도서지수 계산에 오류를 크게 발생시키는 고유명사 정보를 추가하는 단계;

를 거쳐 1차 난이도 시소러스를 구축한 후 암호화과정을 거쳐 최종 난이도 시소러스로 변환하는 것을 특징으로 하는 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여 시스템.
제1항에 있어서, 분야 자동 설정 프로그램은

도서지수를 계산할 적어도 한 개이상의 파일을 선택하여 선택된 파일 중 텍스트 파일 형식이 아닌 파일을 텍스트 파일로 변환하고, 제목 삭제, 정확한 구두점사용, 철자 오류 수정, 띄어쓰기 오류 수정 등의 전처리 과정을 수행하는 단계;

전체 파일을 읽어서 파일 크기를 알아내는 단계;

텍스트를 문장 단위로 나누는 단계;

입력된 문장을 형태소 별로 분석하는 단계;

난이도 시소러스를 참조하여 잘못된 형태소 해석의 오류를 수정하는 단계;

난이도 시소러스를 참조하여 분야별 통계정보를 계산하는 단계;

계산된 결과를 가장 유력한 분야와 함께 그래프로 출력하여 한 눈에 어느 분야에 속하는 도서인지 판별할 수 있도록 하는 단계;

를 포함하는 것을 특징으로 하는 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여 시스템.
제1항에 있어서, 도서지수 평가 프로그램은

사용자가 로그인을 하여 도서지수 평가에 응시하면 난이도 시소러스에서 수준별 어휘를 임의로 가져와서 만들어 둔 평가문제 데이터베이스에서 수준에 맞게 임의로 선택된 평가문제를 사용자에게 제시하는 단계;

사용자의 문제풀이 후 도서지수를 계산하여 그 결과를 사용자 데이터베이스에 저장하고 사용자에게 제공하는 단계;

도서지수 평가가 끝나면 시스템에서 추천도서 데이터베이스에 수록된 도서중에서 사용자 수준에 맞는 도서를 추천해주는 단계;

를 포함하는 것을 특징으로 하는 어휘의 난이도 정보와 시소러스를 활용한 도서지수 부여 시스템.