KR20220085304A - 독서 평가를 위한 스토리 데이터 베이스 생성 방법 - Google Patents

독서 평가를 위한 스토리 데이터 베이스 생성 방법 Download PDF

Info

Publication number
KR20220085304A
KR20220085304A KR1020200175258A KR20200175258A KR20220085304A KR 20220085304 A KR20220085304 A KR 20220085304A KR 1020200175258 A KR1020200175258 A KR 1020200175258A KR 20200175258 A KR20200175258 A KR 20200175258A KR 20220085304 A KR20220085304 A KR 20220085304A
Authority
KR
South Korea
Prior art keywords
sentence
text
story database
illustration
sentences
Prior art date
Application number
KR1020200175258A
Other languages
English (en)
Other versions
KR102496958B1 (ko
Inventor
박하늬
Original Assignee
주식회사 아이포트폴리오
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 아이포트폴리오 filed Critical 주식회사 아이포트폴리오
Priority to KR1020200175258A priority Critical patent/KR102496958B1/ko
Priority to US17/153,627 priority patent/US20220189333A1/en
Publication of KR20220085304A publication Critical patent/KR20220085304A/ko
Application granted granted Critical
Publication of KR102496958B1 publication Critical patent/KR102496958B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

본 명세서는 독서 평가를 위한 스토리 데이터 베이스 생성 방법을 개시한다. 본 명세서에 따른 스토리 데이터 베이스 생성 방법은 독서 평가를 위한 스토리 데이터 베이스 생성 방법으로서, 프로세서가 (a) 텍스트를 포함하는 도서 데이터를 수신하는 단계; (b) 상기 도서에 포함된 전체 텍스트를 문장 단위로 나누는 단계; (c) 각각의 문장에 포함된 단어의 품사 정보 및 개체명 정보를 추출하는 단계; (d) 미리 설정된 제외문장기준에 해당하는 문장을 제거하는 단계; (e) 잔존 문장 내 미리 설정된 제외단어기준에 해당하는 단어를 제거하는 단계; (f) 상기 잔존 문장 내 잔존 단어 중 미리 설정된 기준에 따라 등장인물을 분류하는 단계; 및 (g) 최종 잔존 문장을 통해 스토리 데이터 베이스를 저장하는 단계;를 포함할 수 있다.

Description

독서 평가를 위한 스토리 데이터 베이스 생성 방법{BOOK STORY DATA BASE GENERATING METHOD FOR READING EVALUATION}
본 발명은 독서 평가를 위한 스토리 데이터 베이스 생성 방법에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 명세서에 기재된 실시예에 대한 배경 정보를 제공할 뿐 반드시 종래 기술을 구성하는 것은 아니다.
이 부분에 기술된 내용은 단순히 본 명세서에 기재된 실시예에 대한 배경 정보를 제공할 뿐 반드시 종래 기술을 구성하는 것은 아니다.
모국어가 아닌 외국어를 학습하는 학습자에게 외국어 도서를 읽는 것은 많은 도움이 된다. 이에 따라 최근 외국어 도서를 디지털화하여 학습자에게 제공하는 다양한 서비스가 개발되고 있다. 단순히 디지털화된 외국어 도서를 제공하는 것에서 나아가, 학습자가 외국어 도서를 제대로 읽고 이해하였는지 확인할 수 있는 서비스 즉, 독서 평가 서비스에 대한 관심도 함께 증가하고 있다.
이러한 독서 평가 서비스는 해당 도서에 기재된 내용과 관련된 질문 데이터 베이스(Data Base, DB)와 해당 질문에 대한 정답 DB를 생성한다. 그리고 질문에 대한 사용자의 답변이 미리 준비된 정답 DB와 일치하는지 여부에 따라 독서 여부 판단 또는 도서의 내용 이해도를 평가하는 방식이다. 종래 기술은 사용자의 답변이 정답 DB와 일치하는지 여부 또는 사용자의 답변에 포함된 단어가 정답 DB에 포함된 키워드와 일치하는지 여부에 따라 정답 여부를 처리하기 때문에, 사용자에게 매우 제한된 답변을 요구할 수 밖에 없었다.
한편, 학습자가 음성을 통해 답변을 하는 경우, 음성을 문장으로 변환하는 과정(Speech-To-Text, STT)에서 발음의 부정확성으로 인해 정답 처리되지 못하는 사례가 발생할 수 있다. 특히, 학습자의 나이가 어릴수록(예: 3세~13세), 정답을 말하는 과정에서 발음의 부정확성과 문장 내에서 문법의 오류가 존재할 가능성이 높아질 수 있다. 이 경우 학습자가 도서를 읽고 내용을 정확하게 이해하고 있음에도 오답처리되어, 학습자가 흥미를 잃어버리는 문제가 발생할 수 있다.
따라서, 독서 여부 판단 또는 도서의 내용 이해도를 평가하는 방식에 있어서, 도서의 내용을 충분히 반영할 수 있는 질문 DB 및 정답 DB를 구축할 필요가 있다.
대한민국 공개특허공보 제10-2005-0077244호, 2005.08.01
본 명세서는 독서 평가를 위한 스토리 데이터 베이스 생성 방법을 제공하는 것을 목적으로 한다.
본 명세서는 상기 언급된 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
상술한 과제를 해결하기 위한 본 명세서에 따른 스토리 데이터 베이스 생성 방법은 독서 평가를 위한 스토리 데이터 베이스 생성 방법으로서, 프로세서가 (a) 텍스트를 포함하는 도서 데이터를 수신하는 단계; (b) 상기 도서에 포함된 전체 텍스트를 문장 단위로 나누는 단계; (c) 각각의 문장에 포함된 단어의 품사 정보 및 개체명 정보를 추출하는 단계; (d) 미리 설정된 제외문장기준에 해당하는 문장을 제거하는 단계; (e) 잔존 문장 내 미리 설정된 제외단어기준에 해당하는 단어를 제거하는 단계; (f) 상기 잔존 문장 내 잔존 단어 중 미리 설정된 기준에 따라 등장인물을 분류하는 단계; 및 (g) 최종 잔존 문장을 통해 스토리 데이터 베이스를 저장하는 단계;를 포함할 수 있다.
본 명세서의 일 실시예에 따르면, 상기 (c) 단계는, 상호참조해결을 통해 대명사를 고유명사로 치환한 후 개체명 정보를 추출하는 단계일 수 있다.
본 명세서의 일 실시예에 따르면, 상기 (d) 단계는, 의견 또는 가능성을 나타내는 동사 또는 조동사가 포함된 문장을 제거하는 단계일 수 있다.
본 명세서의 일 실시예에 따르면, 상기 (d) 단계는, 감정을 나타내는 단어가 포함된 문장을 제거하는 단계일 수 있다.
본 명세서의 일 실시예에 따르면, 상기 (d) 단계는, 주어와 동사가 동일하며, 문장과 문장의 유사도가 미리 설정된 기준 유사값 이상인 문장이 2 이상일 때, 하나의 문장을 제외한 나머지 문장을 제거하는 단계일 수 있다.
본 명세서의 일 실시예에 따르면, 상기 (e) 단계는, 품사가 접속사, 전치사, 감탄사, 부사 또는 형용사일 때, 해당 단어를 제거하는 단계일 수 있다.
본 명세서의 일 실시예에 따르면, 상기 (f) 단계는, 상기 최종 잔존 문장 내 개체명 정보를 통해 파악된 이름이 미리 설정된 등장횟수 이상 등장할 때, 상기 개체명을 등장인물로 설정하는 것을 더 포함하는 단계일 수 있다.
본 명세서에 따른 스토리 데이터 베이스 생성 방법에서 상기 도서 데이터는 텍스트와 삽화를 포함하는 이미지 데이터일 수 있다. 이 경우, 상기 (a) 단계는, (a-1) 페이지별 OCR 분석을 통해 텍스트 정보와 텍스트 위치 정보를 획득하는 단계; (a-2) 텍스트의 위치, 인식 정확도, 텍스트 크기 중 적어도 어느 하나를 이용하여 본문이 아닌 텍스트를 제외시키는 단계; 및 (a-3) 본문 텍스트의 위치 또는 크기 정보를 이용하여 문단으로 나누는 단계;를 더 포함할 수 있다.
본 명세서의 일 실시예에 따르면, 상기 (a) 단계는, (a-1-1) 페이지 내 텍스트가 위치한 영역에서 텍스트 영역과 겹치지 않으며 배경 색상과 대비되는 색상을 가진 영역을 삽화 영역으로 설정하는 단계; 및 (a-1-2) 상기 설정된 삽화 영역에 대해서 객체 인식(Object Recognition) 알고리즘을 실행시켜서 삽화의 객체명을 저장하는 단계;를 더 포함할 수 있다.
본 명세서의 일 실시예에 따르면, 상기 (a-1-1) 단계는, 복수의 삽화 영역이 설정된 경우, 설정된 삽화 중 연결 가능한 삽화는 하나의 삽화로 설정할 수 있다.
본 명세서의 일 실시예에 따르면, 상기 (a) 단계는, (a-1-3) 각 페이지에 포함된 문단과 삽화의 관련성을 판단하는 단계; (a-1-4) 삽화와 문단의 관련성이 미리 설정된 조건에 해당할 때, 해당 문단에 포함된 문장 또는 단어를 해당 삽화와 매칭하여 저장하는 단계;를 더 포함할 수 있다.
본 명세서의 일 실시예에 따르면, 상기 (a-1-3) 단계는, 삽화 영역과 문장 영역의 근접도에 따라 관련성을 판단하는 단계일 수 있다.
본 명세서의 일 실시예에 따르면, 상기 (a-1-3) 단계는, 삽화 영역과 문장 영역이 나란한 모서리를 가지고 있는지에 따라 관련성을 판단하는 단계일 수 있다.
본 명세서의 일 실시예에 따르면, 상기 (a-1-3) 단계는, 삽화의 객체명과 일치 또는 유사한 단어를 문장이 포함하고 있는지에 따라 관련성을 판단하는 단계일 수 있다.
본 명세서의 일 실시예에 따르면, 상기 (d) 단계는, 상기 매칭된 문장은 상기 제외문장기준에 해당하지 않는 것으로 판단하는 단계일 수 있다.
본 명세서에 따른 스토리 데이터 베이스 생성 방법은 컴퓨터에서 스토리 데이터 베이스 생성 방법의 각 단계들을 수행하도록 작성되어 컴퓨터로 독출 가능한 기록 매체에 기록된 컴퓨터프로그램의 형태로 구현될 수 있다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 명세서에 따르면, 독서 평가를 위한 스토리 데이터 베이스가 생성되어, 사용자가 도서 내용을 잘 읽고 이해하였는지 판단할 수 있는 기초 데이터가 생성될 수 있다.
본 발명의 효과들은 이상에서 언급된 효과로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 명세서의 일 실시예에 따른 스토리 데이터 베이스 생성 방법의 개략적인 흐름도이다.
도 2는 본 명세서의 다른 실시예에 따른 스토리 데이터 베이스 생성 방법의 개략적인 흐름도이다.
도 3은 문단과 삽화 인식의 참고도이다.
본 명세서에 개시된 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 명세서가 이하에서 개시되는 실시예들에 제한되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 명세서의 개시가 완전하도록 하고, 본 명세서가 속하는 기술 분야의 통상의 기술자(이하 '당업자')에게 본 명세서의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 명세서의 권리 범위는 청구항의 범주에 의해 정의될 뿐이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 명세서의 권리 범위를 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
명세서 전체에 걸쳐 동일한 도면 부호는 동일한 구성 요소를 지칭하며, "및/또는"은 언급된 구성요소들의 각각 및 하나 이상의 모든 조합을 포함한다. 비록 "제1", "제2" 등이 다양한 구성요소들을 서술하기 위해서 사용되나, 이들 구성요소들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있음은 물론이다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 명세서가 속하는 기술분야의 통상의 기술자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다. 이하, 첨부된 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다.
도 1은 본 명세서의 일 실시예에 따른 스토리 데이터 베이스 생성 방법의 개략적인 흐름도이다.
도 1을 참조하면, 본 명세서에 따른 독서 평가를 위한 스토리 데이터 베이스 생성 방법은 먼저 단계 S10에서 프로세서는 텍스트를 포함하는 도서 데이터를 수신할 수 있다. 도 1에서 설명되는 스토리 데이터 베이스 생성 방법은 1권의 도서에 대해서 처리하는 방법이다. 그러나 본 명세서에 따른 도서 데이터 베이스 생성 방법이 단 1권에 대한 처리로 종료되는 것은 아니며, 복수의 도서에 대해서 실행될 수 있다. 예를 들어, 어린 사용자를 위해 100권의 영어 도서 전집이 있는 경우, 상기 '도서 데이터'는 100권의 도서 중 어느 1권에 대한 내용을 의미한다.
다음 단계 S20에서, 상기 프로세서는 상기 도서에 포함된 전체 텍스트를 문장 단위로 나눌 수 있다. 그리고 단계 S30에서 각각의 문장에 포함된 단어의 품사 정보(Part-Of-Speech) 및 개체명(Named Entity) 정보를 추출할 수 있다. 상기 단계 S30의 실행으로 인해, 'He, She, It, They'와 같은 대명사 단어가 식별될 수 있다. 본 명세서의 일 실시예에 따르면, 단계 S30에서 상호참조해결(coreference resolution for pronouns)을 통해 대명사를 고유명사로 치환한 후 개체명 정보를 추출할 수 있다.
다음 단계 S40에서 미리 설정된 제외문장기준에 해당하는 문장을 제거할 수 있다. 상기 제외문장기준은 도서의 스토리에 큰 영향을 미치지 않는 문장을 제외시키기 위해 다양한 기준으로 설정될 수 있다.
본 명세서의 일 실시예에 따르면, 단계 S40은 의견 또는 가능성을 나타내는 동사 또는 조동사(예: want, like, can, will, need)가 포함된 문장을 제거하는 단계일 수 있다. 예를 들어 다음과 같은 문장은 제외되는 문장에 해당할 수 있다.
<'Biff didn't want to read it.' 'Biff didn't like dragons.'>
본 명세서의 다른 실시예에 따르면, 단계 S40은 감정을 나타내는 단어가 포함된 문장을 제거하는 단계일 수 있다. 예를 들어 다음과 같은 문장은 제외되는 문장에 해당할 수 있다.
<'Floppy was frightened.'>
본 명세서의 또 다른 실시예에 따르면, 단계 S50은 주어와 동사가 동일하며, 문장과 문장의 유사도가 미리 설정된 기준 유사값 이상인 문장이 2 이상일 때, 하나의 문장을 제외한 나머지 문장을 제거하는 단계일 수 있다. 예를 들어 다음과 같은 문장이 존재할 때, <Floppy barked. Floppy barked and barked.>은 <Floppy barked>는 제외되는 문장에 해당할 수 있다.
다음 단계 S50에서 잔존 문장 내 미리 설정된 제외단어기준에 해당하는 단어를 제거할 수 있다. 일 예로, 단계 S50에서는 품사가 접속사, 전치사, 감탄사, 부사 또는 형용사일 때, 해당 단어가 제거될 수 있다.
다은 단계 S60에서 상기 잔존 문장 내 잔존 단어 중 미리 설정된 기준에 따라 등장인물을 분류할 수 있다. 또한, 단계 S60은 상기 최종 잔존 문장 내 개체명 정보를 통해 파악된 이름이 미리 설정된 등장횟수 이상 등장할 때, 상기 개체명을 등장인물로 설정할 수 있다. 특히, 도서 내 주인공은 그 등장횟수가 가장 많은 등장인물로 설정할 수 있고, 나머지 등장인물은 보조인물로 설정할 수 있다.
다음 단계 S70에서 최종 잔존 문장을 통해 스토리 데이터 베이스를 저장할 수 있다. 이 과정에서 최종 잔존 문장은 복수 개의 문장 그대로 저장될 수 있고, 복수 개의 문장이 조합되어 하나의 문장으로 재 생산되어 저장될 수도 있다. 일 예로, 최종 잔존 문장이 10개인 경우를 가정하겠다. 이때, 10개의 문장이 그대로 저장되는 경우, 10개의 문장이 5개의 문장으로 재 생산되어 저장되는 경우, 10개의 문장이 2개의 문장으로 재 생산되어 저장되는 경우 또는 10개의 문장이 1개의 문장으로 재 생산되어 저장되는 경우가 있을 수 있다. 문장을 조합하여 재 생산하는 과정에서 주어가 동일한 문장은 조합-재생산 후보 문장이 될 수 있다. 동일한 주어를 가져서 조합-재생산 후보 문장이 된 경우, 동사의 동일/유사성에 의해 결합될 수 있다.
예를 들어, 다음과 같은 도서 내용이 있다고 가정하겠다.
<Biff woke up in the morning. Today is his birthday. He didn't want go to school. So He didn't go to school. He decided to go playground. He went to the playground. His family was preparing surprising party.>
단계 S10 내지 S30을 통해 다음과 같은 문장으로 변환될 수 있다.
<Biff woke up in the morning. Today is Biff's birthday. Biff didn't want go to school. So Biff didn't go to school. Biff decided to go playground. Biff went to the playground. Biff's family was preparing surprising party.>
단계 S40을 통해 다음과 같이 문장의 일부가 삭제될 수 있다.
<Biff woke up in the morning. Today is Biff's birthday. So Biff didn't go to school. Biff went to the playground. Biff's family was preparing surprising party.>
단계 S50을 통해 다음과 같이 단어의 일부가 삭제될 수 있다.
<Biff woke up in the morning. Today is Biff's birthday. [[so]] Biff didn't go to school. Biff went to the playground. Biff's family was preparing [[surprising]] party.>
단계 S60을 통해 주인공인 'Biff와 주변 인물인 'Biff's family'를 분류할 수 있다. 상기 문장은 전부 그대로 스토리 데이터 베이스에 저장될 수 있다. 다만, <'Biff woke up in the morning. Biff didn't go to school. Biff went playground.'>라는 3개의 최종 잔존 문장은 조합-재생산이 가능할 수 있다. 세 문장의 주어가 동일하고, 동사는 woke/go/went로 모두 인물의 동작을 나타낸다. 따라서, 상기 세 문장은 <'Biff woke up in the morning and didn't go to school but went playground.'>로 조합-재생산될 수 있다.
상기 과정을 통해 스토리 데이터 베이스가 생성된 후, 사용자가 도서를 잘 읽고 이해했는지 확인하기 위한 스토리관련 질문을 생성할 수 있다. 예를 들어, 등장인물 정보를 이용하여 해당 도서의 등장인물에 관한 질문, 주요 등장인물이 포함된 문장을 이용한 질문이 가능하다. 스토리 이해를 묻는 질문의 예시로, i) What happened after <주어/등장인물> <동사>?, ii) What happened after <주어/등장인물이 아닌 명사> <동사>?, iii) Why do you think <주어/등장인물> <동사>?의 형식으로 생성될 수 있다. 상기와 같은 질문은 답변 유무에 따라 열린 질문(답변이 없는 질문)과 스토리 이해를 묻는 질문(답변이 함께 저장되는 질문)으로 나누어질 수도 있다. 열린 질문의 예시로서 iv) What would you do if you <동사> <목적어> like <주어/등장인물>?, v) What would you do if you were <등장인물> when <주어/등장인물> <동사> in <장소>?가 있을 수 있다.
한편, 사용자가 도서의 문장으로만 스토리를 기억할 수도 있지만, 도서의 삽화가 있는 경우 삽화의 이미지를 통해 스토리를 기억할 수도 있다. 특히, 나이가 어린 사용자일 수록 삽화 이미지를 통해 스토리를 기억할 가능성이 보다 높을 수 있다. 따라서, 삽화 내용 역시 스토리 데이터 베이스에 반영할 필요가 있다.
도 2는 본 명세서의 다른 실시예에 따른 스토리 데이터 베이스 생성 방법의 개략적인 흐름도이다.
도 2를 참조하면, 단계 S10'은 종래 단계 S10에서 '삽화'를 포함하는 도서 데이터를 수신하는 단계로 변경되었다. 그리고 단계 S10'-1에서 페이지별 OCR(Optical Character Recognition) 분석을 통해 텍스트 정보와 텍스트 위치 정보를 획득할 수 있다. 그리고 단계 S10'-2에서 텍스트의 위치, 인식 정확도, 텍스트 크기 중 적어도 어느 하나를 이용하여 본문이 아닌 텍스트(페이지 번호, 출판사 이름, 도서 제목 등)를 제외시킬 수 있다. 그리고 단계 S10'-3에서 본문 텍스트의 위치 또는 크기 정보를 이용하여 문단으로 나눌 수 있다. 1) 텍스트 영역의 높이가 균일하고, 2) 위 아래 너비가 일정 % 이상 겹쳐지고, 3) 위 아래 텍스트 영역 사이 거리가 일정 거리 이하인 문장들을 하나의 문단으로 묶을 수 있다. 추가적으로, 본문 텍스트에 대해 자연어분석을 통해 문장 정보(텍스트, 영역)을 파악하고, 각 문단에 대해 자연어 처리를 통해 문단 요약을 실시할 수 있다. 상기 본문 텍스트를 문장 외에 문단으로 나눈 정보를 추가로 생성하는 이유는, 도서 내 삽화가 일반적으로 텍스트의 문단과 관련성이 있기 때문이다. 삽화가 포함된 페이지는 해당 페이지 내 문단의 핵심 내용과 관련된 내용일 가능성이 높다. 특히, 하나의 페이지에 2이상의 문단이 기재된 경우, 삽화의 위치가 해당 내용과 관련성이 높은 문단에 가깝게 위치할 가능성이 높기 때문이다.
따라서, 단계 S10' 이후, 단계 S10'-1-1에서 페이지 내 텍스트가 위치한 영역에서 텍스트 영역과 겹치지 않으며 배경 색상과 대비되는 색상을 가진 영역을 삽화 영역으로 설정할 수 있다. 한편, 삽화는 한 페이지당 여러 구획으로 나누어 인식 될 수 있다. 또한, 책을 펼쳤을 때 한 눈에 보이는 연속된 페이지라면 삽화가 이어질 가능성이 있으므로, 앞/뒤 삽화 영역과의 병합 가능성을 판단한다. 따라서, 단계 S10'-1-1 단계에서 복수의 삽화 영역이 설정된 경우, 설정된 삽화 중 연결 가능한 삽화는 하나의 삽화로 설정할 수 있다. 병합 가능성은 삽화 영역의 위치, 크기, 색상 데이터를 기준으로 판단할 수 있다.
그리고 단계 S10'-1-2에서 상기 설정된 삽화 영역에 대해서 객체 인식(Object Recognition) 알고리즘을 실행시켜서 삽화의 객체명을 저장할 수 있다. 상기 객체 인식 알고리즘은 이미지 내 객체의 종류와 내용을 판단하는 인공신경망으로 구성된 알고리즘으로서, 본 명세서의 출원 당시 널리 알려진 공지의 인공신경망을 이용하여 구성할 수 있다.
다음 단계 S10'-1-3에서 각 페이지에 포함된 문단과 삽화의 관련성을 판단할 수 있다. 본 명세서의 일 실시예에 따르면, 삽화 영역과 문장 영역의 근접도에 따라 관련성을 판단할 수 있다. 본 명세서의 다른 실시예에 따르면, 삽화 영역과 문장 영역이 나란한 모서리를 가지고 있는지에 따라 관련성을 판단할 수 있다. 본 명세서의 또 다른 실시예에 따르면, 삽화의 객체명과 일치 또는 유사한 단어를 문장이 포함하고 있는지에 따라 관련성을 판단할 수 있다.
다음으로 단계 S10'-1-4에서 삽화와 문단의 관련성이 미리 설정된 조건에 해당할 때, 해당 문단에 포함된 문장 또는 단어를 해당 삽화와 매칭하여 저장할 수 있다. 이렇게 매칭된 문장은 앞서 도 1의 단계 S40에서 제외문장기준에 해당하지 않는 것으로 판단될 수 있다. 예를 들어, 등장인물의 감정을 나타내는 문장이라 하여도 삽화로 표현될 정도로 중요한 문장이기 때문에 제외시키지 않을 필요가 있다. 또한, 삽화의 내용을 파악하기 위해 객체 인식 결과뿐만 아니라, 매칭딘 문장에 포함된 단어를 통해 삽화에 대한 정보로 저장할 수 있다.
도 3은 문단과 삽화 인식의 참고도이다.
도 3의 (a)는 텍스트와 삽화가 포함된 도서 데이터의 예시이다. 이해의 편의상 1페이지만 도시되어 있다. 도 3의 (b)는 단계 S10'-1 내지 단계 S10'-3의 실행을 통해 페이지 내 문단에 대한 정보를 획득한 예시이다. 도 3의 (c)는 단계 S10'-1-1 내지 단계 S10'-1-4의 실행을 통해 삽화에 대한 정보를 획득한 예시이다.
상술된 스토리 데이터 베이스 생성 방법은 각 단계의 산출 및 다양한 제어 로직을 실행하기 위해 본 발명이 속한 기술분야에 알려진 프로세서, ASIC(application-specific integrated circuit), 다른 칩셋, 논리 회로, 레지스터, 통신 모뎀, 데이터 처리 장치 등을 포함하여 구현된 장치에 의해 실행될 수 있다. 또한, 상술한 방법이 소프트웨어로 구현될 때, 상기 방법의 각 단계는 프로그램 모듈의 집합으로 구현될 수 있다. 이 때, 프로그램 모듈은 메모리 장치에 저장되고, 프로세서에 의해 실행될 수 있다.
상기 프로그램은, 상기 컴퓨터가 프로그램을 읽어 들여 프로그램으로 구현된 상기 방법들을 실행시키기 위하여, 상기 컴퓨터의 프로세서(CPU)가 상기 컴퓨터의 장치 인터페이스를 통해 읽힐 수 있는 C/C++, C#, JAVA, Python, 기계어 등의 컴퓨터 언어로 코드화된 코드(Code)를 포함할 수 있다. 이러한 코드는 상기 방법들을 실행하는 필요한 기능들을 정의한 함수 등과 관련된 기능적인 코드(Functional Code)를 포함할 수 있고, 상기 기능들을 상기 컴퓨터의 프로세서가 소정의 절차대로 실행시키는데 필요한 실행 절차 관련 제어 코드를 포함할 수 있다. 또한, 이러한 코드는 상기 기능들을 상기 컴퓨터의 프로세서가 실행시키는데 필요한 추가 정보나 미디어가 상기 컴퓨터의 내부 또는 외부 메모리의 어느 위치(주소 번지)에서 참조되어야 하는지에 대한 메모리 참조관련 코드를 더 포함할 수 있다. 또한, 상기 컴퓨터의 프로세서가 상기 기능들을 실행시키기 위하여 원격(Remote)에 있는 어떠한 다른 컴퓨터나 서버 등과 통신이 필요한 경우, 코드는 상기 컴퓨터의 통신 모듈을 이용하여 원격에 있는 어떠한 다른 컴퓨터나 서버 등과 어떻게 통신해야 하는지, 통신 시 어떠한 정보나 미디어를 송수신해야 하는지 등에 대한 통신 관련 코드를 더 포함할 수 있다.
상기 저장되는 매체는, 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상기 저장되는 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있지만, 이에 제한되지 않는다. 즉, 상기 프로그램은 상기 컴퓨터가 접속할 수 있는 다양한 서버 상의 다양한 기록매체 또는 사용자의 상기 컴퓨터상의 다양한 기록매체에 저장될 수 있다. 또한, 상기 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장될 수 있다.
이상, 첨부된 도면을 참조로 하여 본 명세서의 실시예를 설명하였지만, 본 명세서가 속하는 기술분야의 통상의 기술자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며, 제한적이 아닌 것으로 이해해야만 한다.

Claims (16)

  1. 독서 평가를 위한 스토리 데이터 베이스 생성 방법으로서, 프로세서가
    (a) 텍스트를 포함하는 도서 데이터를 수신하는 단계;
    (b) 상기 도서에 포함된 전체 텍스트를 문장 단위로 나누는 단계;
    (c) 각각의 문장에 포함된 단어의 품사 정보 및 개체명 정보를 추출하는 단계;
    (d) 미리 설정된 제외문장기준에 해당하는 문장을 제거하는 단계;
    (e) 잔존 문장 내 미리 설정된 제외단어기준에 해당하는 단어를 제거하는 단계;
    (f) 상기 잔존 문장 내 잔존 단어 중 미리 설정된 기준에 따라 등장인물을 분류하는 단계; 및
    (g) 최종 잔존 문장을 통해 스토리 데이터 베이스를 저장하는 단계;를 포함하는 독서 평가를 위한 스토리 데이터 베이스 생성 방법.
  2. 청구항 1에 있어서,
    상기 (c) 단계는, 상호참조해결을 통해 대명사를 고유명사로 치환한 후 개체명 정보를 추출하는 단계인, 스토리 데이터 베이스 생성 방법.
  3. 청구항 1에 있어서,
    상기 (d) 단계는, 의견 또는 가능성을 나타내는 동사 또는 조동사가 포함된 문장을 제거하는 단계인, 스토리 데이터 베이스 생성 방법.
  4. 청구항 1에 있어서,
    상기 (d) 단계는, 감정을 나타내는 단어가 포함된 문장을 제거하는 단계인, 스토리 데이터 베이스 생성 방법.
  5. 청구항 1에 있어서,
    상기 (d) 단계는, 주어와 동사가 동일하며, 문장과 문장의 유사도가 미리 설정된 기준 유사값 이상인 문장이 2 이상일 때, 하나의 문장을 제외한 나머지 문장을 제거하는 단계인, 스토리 데이터 베이스 생성 방법.
  6. 청구항 1에 있어서,
    상기 (e) 단계는, 품사가 접속사, 전치사, 감탄사, 부사 또는 형용사일 때, 해당 단어를 제거하는 단계인, 스토리 데이터 베이스 생성 방법.
  7. 청구항 1에 있어서,
    상기 (f) 단계는, 상기 최종 잔존 문장 내 개체명 정보를 통해 파악된 이름이 미리 설정된 등장횟수 이상 등장할 때, 상기 개체명을 등장인물로 설정하는 것을 더 포함하는 단계인, 스토리 데이터 베이스 생성 방법.
  8. 청구항 1에 있어서,
    상기 도서 데이터는 텍스트와 삽화를 포함하는 이미지 데이터이고,
    상기 (a) 단계는,
    (a-1) 페이지별 OCR 분석을 통해 텍스트 정보와 텍스트 위치 정보를 획득하는 단계;
    (a-2) 텍스트의 위치, 인식 정확도, 텍스트 크기 중 적어도 어느 하나를 이용하여 본문이 아닌 텍스트를 제외시키는 단계; 및
    (a-3) 본문 텍스트의 위치 또는 크기 정보를 이용하여 문단으로 나누는 단계;를 더 포함하는 스토리 데이터 베이스 생성 방법.
  9. 청구항 8에 있어서,
    상기 (a) 단계는,
    (a-1-1) 페이지 내 텍스트가 위치한 영역에서 텍스트 영역과 겹치지 않으며 배경 색상과 대비되는 색상을 가진 영역을 삽화 영역으로 설정하는 단계; 및
    (a-1-2) 상기 설정된 삽화 영역에 대해서 객체 인식(Object Recognition) 알고리즘을 실행시켜서 삽화의 객체명을 저장하는 단계;를 더 포함하는 스토리 데이터 베이스 생성 방법.
  10. 청구항 9에 있어서,
    상기 (a-1-1) 단계는,
    복수의 삽화 영역이 설정된 경우, 설정된 삽화 중 연결 가능한 삽화는 하나의 삽화로 설정하는 것을 특징으로 하는 스토리 데이터 베이스 생성 방법.
  11. 청구항 9에 있어서,
    상기 (a) 단계는,
    (a-1-3) 각 페이지에 포함된 문단과 삽화의 관련성을 판단하는 단계;
    (a-1-4) 삽화와 문단의 관련성이 미리 설정된 조건에 해당할 때, 해당 문단에 포함된 문장 또는 단어를 해당 삽화와 매칭하여 저장하는 단계;를 더 포함하는 스토리 데이터 베이스 생성 방법.
  12. 청구항 11에 있어서,
    상기 (a-1-3) 단계는,
    삽화 영역과 문장 영역의 근접도에 따라 관련성을 판단하는 단계인, 스토리 데이터 베이스 생성 방법.
  13. 청구항 11에 있어서,
    상기 (a-1-3) 단계는,
    삽화 영역과 문장 영역이 나란한 모서리를 가지고 있는지에 따라 관련성을 판단하는 단계인, 스토리 데이터 베이스 생성 방법.
  14. 청구항 11에 있어서,
    상기 (a-1-3) 단계는,
    삽화의 객체명과 일치 또는 유사한 단어를 문장이 포함하고 있는지에 따라 관련성을 판단하는 단계인, 스토리 데이터 베이스 생성 방법.
  15. 청구항 11에 있어서,
    상기 (d) 단계는, 상기 매칭된 문장은 상기 제외문장기준에 해당하지 않는 것으로 판단하는 단계인, 스토리 데이터 베이스 생성 방법.
  16. 컴퓨터에서 청구항 1 내지 청구항 15 중 어느 한 청구항에 따른 스토리 데이터 베이스 생성 방법의 각 단계들을 수행하도록 작성되어 컴퓨터로 독출 가능한 기록 매체에 기록된 컴퓨터프로그램.
KR1020200175258A 2020-12-11 2020-12-15 독서 평가를 위한 스토리 데이터 베이스 생성 방법 KR102496958B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020200175258A KR102496958B1 (ko) 2020-12-15 2020-12-15 독서 평가를 위한 스토리 데이터 베이스 생성 방법
US17/153,627 US20220189333A1 (en) 2020-12-11 2021-01-20 Method of generating book database for reading evaluation

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200175258A KR102496958B1 (ko) 2020-12-15 2020-12-15 독서 평가를 위한 스토리 데이터 베이스 생성 방법

Publications (2)

Publication Number Publication Date
KR20220085304A true KR20220085304A (ko) 2022-06-22
KR102496958B1 KR102496958B1 (ko) 2023-02-08

Family

ID=82216971

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200175258A KR102496958B1 (ko) 2020-12-11 2020-12-15 독서 평가를 위한 스토리 데이터 베이스 생성 방법

Country Status (1)

Country Link
KR (1) KR102496958B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050077244A (ko) 2004-01-27 2005-08-01 대한민국(강원대학교 총장) 컴퓨터를 기반으로 한 독서인증시스템 및 그 방법
KR101508260B1 (ko) * 2014-02-04 2015-04-07 성균관대학교산학협력단 문서 특징을 반영하는 요약문 생성 장치 및 방법
KR101782465B1 (ko) * 2016-06-03 2017-09-29 조선대학교산학협력단 설화 데이터 내 서사정보 추출 시스템 및 방법
KR20180016840A (ko) * 2016-08-08 2018-02-20 단국대학교 산학협력단 등장인물 추출 방법 및 장치
KR101959831B1 (ko) * 2017-09-26 2019-03-19 아주대학교산학협력단 이미지 인식 처리 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050077244A (ko) 2004-01-27 2005-08-01 대한민국(강원대학교 총장) 컴퓨터를 기반으로 한 독서인증시스템 및 그 방법
KR101508260B1 (ko) * 2014-02-04 2015-04-07 성균관대학교산학협력단 문서 특징을 반영하는 요약문 생성 장치 및 방법
KR101782465B1 (ko) * 2016-06-03 2017-09-29 조선대학교산학협력단 설화 데이터 내 서사정보 추출 시스템 및 방법
KR20180016840A (ko) * 2016-08-08 2018-02-20 단국대학교 산학협력단 등장인물 추출 방법 및 장치
KR101959831B1 (ko) * 2017-09-26 2019-03-19 아주대학교산학협력단 이미지 인식 처리 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
김서희 et al. "한국어 소설에서 주요 인물명 인식 기법." 한국정보전자통신기술학회 논문지 9.1 (2016): 75-81. (2016.02.)* *
박천음, 이창기. "포인터 네트워크를 이용한 한국어 대명사 상호참조해결." 정보과학회논문지 44.5 (2017): 496-502. (2017.05.)* *

Also Published As

Publication number Publication date
KR102496958B1 (ko) 2023-02-08

Similar Documents

Publication Publication Date Title
McEnery Corpus linguistics
Shirai Primacy of aspect in language acquisition: Simplified input and prototype
Sampson et al. Corpus linguistics: Readings in a widening discipline
Dash Corpus linguistics and language technology: With reference to Indian languages
Bird Sparse transcription
Petersen et al. Natural Language Processing Tools for Reading Level Assessment and Text Simplication for Bilingual Education
Nakamura The psychological reality of speech units in Japanese
JP5231698B2 (ja) 日本語の表意文字の読み方を予測する方法
Bugert et al. Generalizing cross-document event coreference resolution across multiple corpora
Hsiao et al. The nature and frequency of relative clauses in the language children hear and the language children read: A developmental cross-corpus analysis of English complex grammar
US20220189333A1 (en) Method of generating book database for reading evaluation
Yang A readability formula for Chinese language
Vance NONSENSE-WORD EXPERIMENTS IN PHONOLOGY AND THEIR APPLICATION TO'RENDAKU'IN JAPANESE.
Orasan A hybrid method for clause splitting in unrestricted English texts
Aichaoui et al. Automatic Building of a Large Arabic Spelling Error Corpus
KR102496958B1 (ko) 독서 평가를 위한 스토리 데이터 베이스 생성 방법
Golding Pronouncing names by a combination of rule-based and case-based reasoning
Ho-Dac et al. E: CALM Resource: A resource for studying texts produced by French pupils and students
James et al. The development of a labelled te reo Māori–English bilingual database for language technology
Calude Demonstrative clefts in spoken English
Hammarberg Introduction to the ASU Corpus: a longitudinal oral and written text corpus of adult learner Swedish with a corresponding part from native Swedes. Version 2010-11-16.
Mortensen et al. A hmong corpus with elaborate expression annotations
Bergounioux et al. 1 Annotating oral corpora
Segre et al. An expert system for the production of phoneme strings from unmarked English text using machine-induced rules
Garabík et al. A cross linguistic database of children's printed words in three Slavic languages

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right