KR20220123168A

KR20220123168A - 수학문항의 단원과 난이도를 자동으로 분류하는 방법

Info

Publication number: KR20220123168A
Application number: KR1020210027064A
Authority: KR
Inventors: 남경인
Original assignee: 주식회사해피에듀테크
Priority date: 2021-02-28
Filing date: 2021-02-28
Publication date: 2022-09-06

Abstract

본 발명은 네트워크환경 또는 무선환경에 연결된 지식공유서버 플랫폼에서 사용자가 수학문제를 스마트 디바이스로 촬영하여 플랫폼 서버에 등록을 하면 광학문자인식(ocr) 기술 중에서 수식은 mathpix API로, 수식을 제외한 언어는 구글 API를 사용하여 텍스트로 변환하는데 이렇게 하는 이유는 수식인식에 있어서 구글이나 네이버 OCR은 정확도가 떨어지는데 반해 mahtpix는 정확도가 아주 높기 때문이다. 이렇게 OCR기술로 얻은 데이터를 기반으로 인공지능을 훈련시켜 미리 제작된 단원 및 난이도 분류 데이터베이스와 매칭하여 해당 문항의 단원과 난이도를 자동으로 분류하게 하여 미리 제작된 데이터베이스 해당 분류와 난이도에 자동으로 저장하게 하는 것이다.

Description

수학문항의 단원과 난이도를 자동으로 분류하는 방법{How to automatically classify the unit and difficulty of math problems}

본 발명은 지식공유서버 플랫폼에서 사용자가 수학문제를 사진으로 찍어 등록을 하면 광학문자인식(OCR)(1) 기술과 인공지능 기술을 이용하여 해당문항의 단원과 난이도를 자동으로 분류하여 데이터베이스에 저장하는 방법에 관한 것이다.

21세기에 필요로 하는 미래인재역량은 비판적사고(critical thinking), 소통능력(communication), 협업능력(collaboration), 창의력(creativity)이며 이들 역량의 향상은 학생들의 주도적 참여에 의하여 이루어진다. 선생님에 의하여 수직적으로 전달되는 교육방법은 더 이상 경쟁력을 갖기 어렵다. 그래서 요즘 학생들이 주도적으로 참여하는 거꾸로수업(플립러닝)이 급속히 확산되고 있다. 기존 교육방법은 선생님이 먼저 개념수업을 진행하고 예제풀이를 마친 후 학생들이 복습을 하는 형태지만 플립러닝에서는 학생들이 먼저 가정에서 선생님이 제작한 강의동영상을 보고 학습을 한 후 교실에서 학생들 끼리 토론하고 발표하는 협업학습이 이루어진다. 이러한 수업방식은 학생들의 자발적 참여를 유도하고 학습의 효율성을 높여주기 때문에 학생들이 선호한다.그러나 시간과 공간의 제약으로 항상 이러한 학습이 진행될 수 없으며 고난도 학습에서 학생들 스스로 해결하기에는 무리가 있다.그리고 온라인교육기관에서 제공하는 동영상강의는 일방향이며 수준의 다양성이 부족하며 비교적 시간이 길기 때문에 학습의 효율성이 떨어진다.또한 학원수업은 여러 명의 학생들이 같이 수업을 진행하기 때문에 개인별맞춤학습에 한계가 있으며 시간과 공간이 제한되고 비용 또한 많이 들어간다.과외는 1:1맞춤학습이라는 큰 장점이 있지만 비용이 많이 들어가고 체계화된 온라인 학습시스템의 부재로 학습결과분석과 오프라인과 연계된 온라인학습이 부족하며 시간과 공간의 제약이 있다.지금은 정보통신기술의 발달로 거의 모든 학생들이 스마트폰을 보유하고 있으며 시간과 공간을 초월하여 인터넷에 접속하여 다양한 SNS나 게임을 하며 필요한 정보를 바로 획득한다. 또한, 교과부에서 2018년부터 디지털교과서를 도입하기로 하였으며 이는 교육방법의 획기적 변화를 의미하는 것이며 보다 많고 다양한 스마트기기(폰, 태블릿, 노트북 등)들이 학생들에게 보급될 것이다.소프트웨어 측면에서도 머신러닝(17), 딥러닝(5) 기술들을 이용한 인공지능과 빅데이터를 활용하여 학생들의 효율적 학습을 지원할 수 있다. 즉 학생들이 온라인으로 학습한 모든 데이터를 분석하여 개개인의 취약 부분을 분석하여 피드백학습을 지원할 뿐만 아니라 학생들도 인식하지 못했던 세부적인 부분까지 인공지능기술이 파악하여 학생에게 선제적인 예측을 통하여 최상의 맞춤학습을 제공할 수 있다.

그러나, 이러한 ICT환경을 최대한 이용하여 누구나 쉽게 교과콘텐츠를 제작하여 공유하며 시간과 공간을 초월하여 학생들이 궁금해 하거나 필요로 하는 부분을 경제적으로 해결해 주도록 지식공유서버 플랫폼에서 사용자가 수학문제를 사진으로 찍어 등록을 하면 광학문자인식(OCR)(1) 기술과 인공지능 기술을 이용하여 해당문항의 단원과 난이도를 자동으로 분류하여 데이터베이스에 저장하고 이러한 밥법으로 저장된 학습데이터를 활용하여 효율적인 피드백학습을 가능하게 하는 학습시스템 및 수행방법은 종래에 개발된 것이 없었다.

본 발명은 상기한 발명의 배경으로부터 요구되는 기술적 필요성을 충족하는 것을 목적으로 한다. 구체적으로, 본 발명의 목적은 수학 전문가에 의하여 문제마다 그 문제의 단원과 난이도를 일일이 분류하여 데이터베이스에 저장하기 때문에 시간과 비용이 많이 투입되어 비효율적이었기에 인공지능으로 하여금 수학문제의 단원과 난이도를 지동으로 분류하게 하여 시간과 비용을 절감하게 할 뿐만 아니라 누구나 쉽게 수학문제의 단원과 난이도를 알 수 있도록 하여 수학문제를 생산하고 공유할 수 있도록 하는 것이다.

본 발명의 다른 목적은, 위와 같이 사진으로 찍은 수학문제에 대한 단원과 난이도의 정보를 데이터베이스에 자동으로 저장하여 취약단원분석, 학습계획, 유사문제, 심화문제 등의 피드백 학습이 가능하게 하는 것이다.

지금까지는 수학문제를 데이터베이스에 저장하기 위해서는 전문가에 의하여 문제마다 단원과 난이도를 지정해야 가능했지만 본 발명으로 단원과 난이도가 자동으로 분류되어 데이터베이스에 저장되므로 시간과 비용이 획기적으로 절감될 수 있다.

이상과 같이 본 발명은 지식공유서버 플랫폼에서 사용자가 찍은 수학문제를 인공지능으로 단원과 난이도를 자동으로 분류하여 데이터베이스에 자동으로 저장하게 하여 전문가에 의하여 매 문제마다 단원과 난이도를 분류하여 저장하면서 발생하는 시간과 비용을 절감할 수 있을 뿐만 아니라 지식공유플랫폼을 사용하는 모든 사용자들에게 단원 및 난이도가 분류된 데이터베이스에서 제공하는 정보를 이용하여 취약단원분석, 학습계획, 유사 및 심화문제 등의 피드백학습 시스템의 지원으로 사용자들이 플랫폼에 저장하는 많은 수학문제를 활용하여 사용자에게 최적의 개인별 맞춤학습을 언제 어디서나 할 수 있도록 제공하고 인공지능을 통하여 학습자의 학습패턴, 문제유형, 문제내용 등을 구체적으로 분석하여 각각의 사용자들에게 예측 컨텐츠를 제공하는 효과를 가진다.

그리고 본 발명은, 사회적 측면에서는 언제 어디서나 효율적인 개인별 맞춤학습을 통하여 사교육비를 최소화하고 학생들에게 시간을 돌려주어 미래의 꿈을 더 키울 수 있도록 해주는 효과를 갖는다.

본 발명의 기술적 효과들은 이상에서 언급한 기술적 효과들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 효과들은 청구범위의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

[도 1]은 본 발명의 일실시예에 따른 지식공유서버 플랫폼에서 사용자가 원하는 지식콘텐츠의 전달시스템의 대표도이다. 학생들이 모르는 수학문제를 스마트 디바이스로 사진을 찍어 플랫폼 서버에 등록을 하면 ocr시스템에 의하여 사진 속 문자와 수식 등이 텍스트로 변환되며 그 데이터를 기반으로 해당 문항의 단원과 난이도를 분류하는 인공지능시스템 및 학생니즈에 최적화된 멘토와 콘텐츠 매칭 그리고 학습 후 피드백학습 등 플랫폼 서비스 전반에 대한 대표도이다. [도 2]는 bounding box의 실시 예에 관한 것이다. Mathpix OCR을 이용하여 수식부분과 자연어부분의 인식률을 높이기 위하여 수식부분에 bounding box 처리하여 테스트를 진행하는 실시 예이다. [도3]는 데이터베이스의 수학단원과 난이도 분류에 관한 것이다. 수학의 단원과 난이도를 전문가에 의하여 분류된 것으로 단원은 “학년-대단원-중단원-소단원”으로 4단계로 분류하였으며 문항별 난이도는 “최상-상-중-하”로 4단계로 분류하였다. 이렇게 분류된 단원 및 난이도 분류에 따른 데이베이스를 구축하여 인공지능으로 사진을 찍어 등록한 문항의 단원과 난이도 분류가 완료되면 자동으로 연동되어 저장되도록 하였다.

본 발명의 각 구성 단계에 대한 상세한 설명에 앞서, 본 명세서 및 청구 범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 안되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위하여 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과하며 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다. 본 발명을 완성하기 위해서는 크게 다음과 같은 4단계의 과정을 필요로 한다.

1단계 : OCR을 이용하여 사진으로 찍은 수학문제를 텍스트로 변환하는 방법

*영어로 된 수학문제는 Mathpix OCR로 글자와 수식을 모두 인식한다.

*영어 외의 다른 언어로 된 수학 문제는 글자 부분은 Google OCR로 인식하고, 수식 부분은 수식영역모델로 수식 영역을 먼저 표시하고, 수식 영역이 표시된 문제를 Mathpix OCR를 통해 수식 부분을 인식한다. (영어 외의 다른 언어로 된 수학 문제일 경우 수식 영역을 bounding box로 표시를 해줘야 Mathpix OCR이 수식을 인식함.)

수식영역모델은, 수학문제를 받아서 수식 부분을 bounding box로 표시해주는 딥러닝모델로, 본 모델을 만들기 위해 수식 영역이 bounding box로 표시된 데이터가 필요하며, 데이터 수집 후 딥러닝으로 학습하여 만든다.

*인식된 글자는 텍스트로, 인식된 수식은 latex format의 텍스트로 저장된다.

2단계 : OCR로 추출한 데이터를 이용하여 문항의 단원을 인공지능으로 자동분류하는 방법

*텍스트로 변환된 문제의 단원의 집합으로 구성된 데이터를 수집 후, 딥러닝으로 학습하여 단원분류모델을 만든다.

*단원분류모델이 만들어지면, OCR을 이용하여 사진으로 찍은 수학문제를 텍스트로 변환하는 과정을 통해 수학 문제 사진을 텍스트로 인식/변환 후 변환된 텍스트를 바로 다음에 [단원분류모델의 정의 및 구성]에서 설명한 것처럼 단원분류모델의 입력으로 넣으면 모델의 출력으로 해당 문제의 단원이 자동으로 나온다.

[단원분류모델의 정의 및 구성]

단원분류모델은 텍스트로 변환된 문제(자연어 및 수식 포함)를 입력으로 받아, 해당 문제가 속한 단원을 예측하는 것을 목적으로 하는 딥러닝기반 모델이다.

여기서 단원이란, 해당 과목을 교육과정에 포함한 모든 국가에서 공통적으로 통용되는 개념의 분류 체계를 의미한다. 이 분류 체계는 계층적으로 구성된다. 즉, 분류 체계 내의 특정 단원은 다른 여러 개의 단원들을 포함한다. 이에 따라, 단원분류모델은 계층적 분류를 수행한다.

단원분류모델(7)은 크게 두 가지의 구성 요소로 이루어진다.

첫 번째 요소는 모델의 입력 데이터 (텍스트 형태의 문제 설명 및 수식)로부터 단원을 판단하기에 가장 적합한 Feature들을 추출하는 Feature Extractor이다. 이 Feature Extractor는 딥 뉴럴 네트워크로 구성되며, 단원 분류의 오차를 줄이도록 gradient가 역 전파되어 그 파라미터가 업데이트 된다.

두 번째 요소는 추출된 Feature를 기반으로 해당 문제가 어떠한 단원에 속하는지를 판단하는 Classification Network이다. 이 Classification Network는 학습 데이터에 주어진 각 문제의 단원을 제대로 맞추지 못했을 때, 큰 오차를 생성하며 해당 오차를 줄이도록 하는 gradient에 의해 학습된다. 위 두 요소는 End-to-End 방식으로 학습된다.

학습 이후, 학습 데이터에 존재하지 않았던 새로운 문제가 입력으로 주어졌을 때, 단원분류모델은 해당 문제에서 Feature를 추출하고, 이를 기반으로 주어진 문제의 단원을 예측하여 반환한다.

3단계 : OCR로 추출한 데이터를 이용하여 문항의 난이도를 인공지능으로 자동분류하는 방법

*텍스트로 변환된 문제, 문제의 난이도의 집합으로 구성된 데이터를 수집 후, 딥러닝으로 학습하여 난이도분류모델을 만든다.

*난이도분류모델이 만들어지면, 1번의 과정을 통해 수학 문제 사진을 텍스트로 인식/변환 후, 변환 된 텍스트를 난이도분류모델의 입력으로 넣으면 모델의 출력으로 해당 문제의 난이도가 자동으로 나온다.

4단계 : 인공지능으로 자동 분류된 단원과 난이도 정보를 데이터베이스에 저장하는 방법

*카메라로 찍거나 화면에서 캡쳐된 수학문제 사진 파일을, OCR을 이용하여 사진으로 찍은 수학문제를 텍스트로 변환하는 1번의 과정을 통해 텍스트로 변환 후, OCR로 추출한 데이터를 이용하여 문항의 단원을 인공지능으로 자동분류하는 2번의 과정과 OCR로 추출한 데이터를 이용하여 문항의 난이도를 인공지능으로 자동분류하는 3번의 과정을 통해 그 문제의 단원과 난이도를 추출한다.

이렇게 구성된 하나의 수학 문제에 대한 데이터, 즉 수학 문제의 사진, 변환된 텍스트, 수학 문제의 단원, 수학 문제의 난이도를 데이터베이스의 하나의 레코드로 저장한다.

이상 본 발명의 도면을 참조하여 설명하였지만, 본 발명이 속한 기술분야에서 통상의 지식을 가진 자라면 상기 내용을 바탕으로 본 발명의 범주 내에서 다양한 응용, 변형 및 개작을 행하는 것이 가능할 것이다. 이에, 본 발명의 진정한 보호 범위는 첨부된 청구 범위에 의해서만 정해져야 할 것이다.

Claims

수학문항의 단원과 난이도를 자동으로 분류하는 것에 관한 것이다