KR20210071681A - How to automatically classify the unit and difficulty of math problems - Google Patents
How to automatically classify the unit and difficulty of math problems Download PDFInfo
- Publication number
- KR20210071681A KR20210071681A KR1020190162114A KR20190162114A KR20210071681A KR 20210071681 A KR20210071681 A KR 20210071681A KR 1020190162114 A KR1020190162114 A KR 1020190162114A KR 20190162114 A KR20190162114 A KR 20190162114A KR 20210071681 A KR20210071681 A KR 20210071681A
- Authority
- KR
- South Korea
- Prior art keywords
- difficulty
- unit
- text
- classification model
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G06K9/00442—
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Molecular Biology (AREA)
- Tourism & Hospitality (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Educational Administration (AREA)
- Databases & Information Systems (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Educational Technology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
Description
본 발명은 지식공유서버 플랫폼에서 사용자가 수학문제를 사진으로 찍어 등록을 하면 광학문자인식(OCR)(1) 기술과 인공지능 기술을 이용하여 해당문항의 단원과 난이도를 자동으로 분류하여 데이터베이스에 저장하는 방법에 관한 것이다.In the present invention, when a user takes a picture of a mathematical problem and registers it in a knowledge sharing server platform, using optical character recognition (OCR) (1) technology and artificial intelligence technology, the unit and difficulty of the corresponding question are automatically classified and stored in the database. it's about how to
21세기에 필요로 하는 미래인재역량은 비판적사고(critical thinking), 소통능력(communication), 협업능력(collaboration), 창의력(creativity)이며 이들 역량의 향상은 학생들의 주도적 참여에 의하여 이루어진다. 선생님에 의하여 수직적으로 전달되는 교육방법은 더 이상 경쟁력을 갖기 어렵다. 그래서 요즘 학생들이 주도적으로 참여하는 거꾸로수업(플립러닝)이 급속히 확산되고 있다. 기존 교육방법은 선생님이 먼저 개념수업을 진행하고 예제풀이를 마친 후 학생들이 복습을 하는 형태지만 플립러닝에서는 학생들이 먼저 가정에서 선생님이 제작한 강의동영상을 보고 학습을 한 후 교실에서 학생들 끼리 토론하고 발표하는 협업학습이 이루어진다. 이러한 수업방식은 학생들의 자발적 참여를 유도하고 학습의 효율성을 높여주기 때문에 학생들이 선호한다.The future talents required in the 21st century are critical thinking, communication, collaboration, and creativity, and the improvement of these competencies is achieved through the active participation of students. Education methods delivered vertically by teachers are no longer competitive. Therefore, these days, the reverse class (flip learning) in which students take the initiative is spreading rapidly. In the existing teaching method, the teacher conducts a concept class first, and after solving the examples, the students review it, but in flip learning, the students first learn by watching the lecture video made by the teacher at home, and then discuss with the students in the classroom. Collaborative learning to present. This teaching method is preferred by students because it induces students' voluntary participation and increases the efficiency of learning.
그러나 시간과 공간의 제약으로 항상 이러한 학습이 진행될 수 없으며 고난도 학습에서 학생들 스스로 해결하기에는 무리가 있다.However, such learning cannot always proceed due to time and space constraints, and it is difficult for students to solve the problems themselves in difficult learning.
그리고 온라인교육기관에서 제공하는 동영상강의는 일방향이며 수준의 다양성이 부족하며 비교적 시간이 길기 때문에 학습의 효율성이 떨어진다.In addition, the video lectures provided by online educational institutions are one-way, lack the level of diversity, and the learning efficiency is low because the time is relatively long.
또한 학원수업은 여러 명의 학생들이 같이 수업을 진행하기 때문에 개인별맞춤학습에 한계가 있으며 시간과 공간이 제한되고 비용 또한 많이 들어간다.In addition, private hagwon classes are limited in individualized learning because several students conduct classes together, and time and space are limited and cost is high.
과외는 1:1맞춤학습이라는 큰 장점이 있지만 비용이 많이 들어가고 체계화된 온라인 학습시스템의 부재로 학습결과분석과 오프라인과 연계된 온라인학습이 부족하며 시간과 공간의 제약이 있다.Although private tutoring has the great advantage of 1:1 personalized learning, it is expensive and lacks a systematic online learning system, so online learning linked to offline learning and analysis of learning results is insufficient, and there are limitations in time and space.
지금은 정보통신기술의 발달로 거의 모든 학생들이 스마트폰을 보유하고 있으며 시간과 공간을 초월하여 인터넷에 접속하여 다양한 SNS나 게임을 하며 필요한 정보를 바로 획득한다. 또한, 교과부에서 2018년부터 디지털교과서를 도입하기로 하였으며 이는 교육방법의 획기적 변화를 의미하는 것이며 보다 많고 다양한 스마트기기(폰, 태블릿, 노트북 등)들이 학생들에게 보급될 것이다.Now, with the development of information and communication technology, almost all students own smartphones and access the Internet across time and space to play various SNS and games to obtain necessary information immediately. In addition, the Ministry of Education has decided to introduce digital textbooks from 2018, which means a drastic change in the educational method, and more and more various smart devices (phones, tablets, laptops, etc.)
소프트웨어 측면에서도 머신러닝(17), 딥러닝(5) 기술들을 이용한 인공지능과 빅데이터를 활용하여 학생들의 효율적 학습을 지원할 수 있다. 즉 학생들이 온라인으로 학습한 모든 데이터를 분석하여 개개인의 취약 부분을 분석하여 피드백학습을 지원할 뿐만 아니라 학생들도 인식하지 못했던 세부적인 부분까지 인공지능기술이 파악하여 학생에게 선제적인 예측을 통하여 최상의 맞춤학습을 제공할 수 있다.In terms of software, it is possible to support efficient learning of students by using artificial intelligence and big data using machine learning (17) and deep learning (5) technologies. In other words, it not only supports feedback learning by analyzing all the data students have learned online, but also supports feedback learning by analyzing individual weaknesses. can provide
그러나, 이러한 ICT환경을 최대한 이용하여 누구나 쉽게 교과콘텐츠를 제작하여 공유하며 시간과 공간을 초월하여 학생들이 궁금해 하거나 필요로 하는 부분을 경제적으로 해결해 주도록 지식공유서버 플랫폼에서 사용자가 수학문제를 사진으로 찍어 등록을 하면 광학문자인식(OCR)(1) 기술과 인공지능 기술을 이용하여 해당문항의 단원과 난이도를 자동으로 분류하여 데이터베이스에 저장하고 이러한 밥법으로 저장된 학습데이터를 활용하여 효율적인 피드백학습을 가능하게 하는 학습시스템 및 수행방법은 종래에 개발된 것이 없었다.However, using this ICT environment as much as possible, anyone can easily create and share content for subjects, and users can take pictures of math problems on the knowledge sharing server platform so that they can economically solve the questions or needs of students across time and space. After registration, using optical character recognition (OCR) (1) technology and artificial intelligence technology, the unit and difficulty of the question are automatically classified and stored in the database, and efficient feedback learning is possible using the learning data stored in this method. A learning system and a method for performing this have not been developed in the prior art.
본 발명은 상기한 발명의 배경으로부터 요구되는 기술적 필요성을 충족하는 것을 목적으로 한다. An object of the present invention is to satisfy the technical needs required from the background of the above invention.
구체적으로, 본 발명의 목적은 수학 전문가에 의하여 문제마다 그 문제의 단원과 난이도를 일일이 분류하여 데이터베이스에 저장하기 때문에 시간과 비용이 많이 투입되어 비효율적이었기에 인공지능으로 하여금 수학문제의 단원과 난이도를 지동으로 분류하게 하여 시간과 비용을 절감하게 할 뿐만 아니라 누구나 쉽게 수학문제의 단원과 난이도를 알 수 있도록 하여 수학문제를 생산하고 공유할 수 있도록 하는 것이다.Specifically, it is an object of the present invention to classify the units and difficulty levels of the problems for each problem by a math expert and store them in a database, which takes a lot of time and money and is inefficient. It not only saves time and money by classifying them into categories, but also allows anyone to easily know the unit and difficulty of a math problem, so that math problems can be produced and shared.
본 발명의 다른 목적은, 위와 같이 사진으로 찍은 수학문제에 대한 단원과 난이도의 정보를 데이터베이스에 자동으로 저장하여 취약단원분석, 학습계획, 유사문제, 심화문제 등의 피드백 학습이 가능하게 하는 것이다.Another object of the present invention is to automatically store information on the unit and difficulty of the mathematical problem taken as above in the database to enable feedback learning such as weak unit analysis, learning plan, similar problem, and deep problem.
지금까지는 수학문제를 데이터베이스에 저장하기 위해서는 전문가에 의하여 문제마다 단원과 난이도를 지정해야 가능했지만 본 발명으로 단원과 난이도가 자동으로 분류되어 데이터베이스에 저장되므로 시간과 비용이 획기적으로 절감될 수 있다.Until now, in order to store a mathematical problem in a database, an expert had to designate a unit and a difficulty level for each problem, but with the present invention, the unit and difficulty are automatically classified and stored in the database, so time and cost can be dramatically reduced.
이러한 목적을 달성하기 위한 본 발명에 따른 기술은 크게 4가지가 있다.There are four major techniques according to the present invention for achieving this object.
가.사진 속의 수학문제의 문자나 부호, 수식 등을 텍스토로 변환시켜주는 광학문자인식(OCR)(1)A. Optical Character Recognition (OCR) (1) that converts characters, symbols, and formulas of mathematical problems in photos into text
나.OCR(1)에 의하여 얻은 데이터를 기반으로 단원을 자동으로 분류하는 인공지능시스템B. An artificial intelligence system that automatically classifies units based on data obtained by OCR(1)
다.OCR(1)에 의하여 얻은 데이터를 기반으로 난이도를 자동으로 분류하는 인공지능시스템C. An artificial intelligence system that automatically classifies difficulty based on data obtained by OCR(1)
라.위 세가지 단계를 거치면서 얻어진 단원 및 난이도에 대한 정보를 포함한 문항을 데이터베이스에 자동으로 저장하는 시스템D. A system that automatically stores questions including information on units and difficulty levels obtained through the above three steps in a database
이상과 같이 본 발명은 지식공유서버 플랫폼에서 사용자가 찍은 수학문제를 인공지능으로 단원과 난이도를 자동으로 분류하여 데이터베이스에 자동으로 저장하게 하여 전문가에 의하여 매 문제마다 단원과 난이도를 분류하여 저장하면서 발생하는 시간과 비용을 절감할 수 있을 뿐만 아니라 지식공유플랫폼을 사용하는 모든 사용자들에게 단원 및 난이도가 분류된 데이터베이스에서 제공하는 정보를 이용하여 취약단원분석, 학습계획, 유사 및 심화문제 등의 피드백학습 시스템의 지원으로 사용자들이 플랫폼에 저장하는 많은 수학문제를 활용하여 사용자에게 최적의 개인별 맞춤학습을 언제 어디서나 할 수 있도록 제공하고 인공지능을 통하여 학습자의 학습패턴, 문제유형, 문제내용 등을 구체적으로 분석하여 각각의 사용자들에게 예측 컨텐츠를 제공하는 효과를 가진다.As described above, the present invention automatically classifies the units and difficulty levels of the mathematical problems taken by the user on the knowledge sharing server platform with artificial intelligence and automatically stores them in the database, so that the experts classify and store units and difficulties for each problem. Not only can it save time and cost, but also feedback learning such as weak unit analysis, learning plan, similar and deep problems using the information provided by the database classified by unit and difficulty to all users of the knowledge sharing platform With the support of the system, users can utilize many math problems stored in the platform to provide users with optimal, personalized learning anytime, anywhere, and analyze the learner's learning pattern, problem type, and problem content in detail through artificial intelligence. Thus, it has the effect of providing predicted content to each user.
그리고 본 발명은, 사회적 측면에서는 언제 어디서나 효율적인 개인별 맞춤학습을 통하여 사교육비를 최소화하고 학생들에게 시간을 돌려주어 미래의 꿈을 더 키울 수 있도록 해주는 효과를 갖는다.And the present invention has the effect of minimizing private education expenses and returning time to students through efficient individualized learning anytime, anywhere from a social point of view so that they can further their dreams of the future.
본 발명의 기술적 효과들은 이상에서 언급한 기술적 효과들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 효과들은 청구범위의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.The technical effects of the present invention are not limited to the technical effects mentioned above, and other technical effects not mentioned can be clearly understood by those of ordinary skill in the art to which the present invention belongs from the description of the claims. There will be.
[도 1]은 본 발명의 일실시예에 따른 지식공유서버 플랫폼에서 사용자가 원하는 지식콘텐츠의 전달시스템의 대표도이다.
학생들이 모르는 수학문제를 스마트 디바이스로 사진을 찍어 플랫폼 서버에 등록을 하면 ocr시스템에 의하여 사진 속 문자와 수식 등이 텍스트로 변환되며 그 데이터를 기반으로 해당 문항의 단원과 난이도를 분류하는 인공지능시스템 및 학생니즈에 최적화된 멘토와 콘텐츠 매칭 그리고 학습 후 피드백학습 등 플랫폼 서비스 전반에 대한 대표도이다.
[도 2]는 bounding box의 실시 예에 관한 것이다.
Mathpix OCR을 이용하여 수식부분과 자연어부분의 인식률을 높이기 위하여 수식부분에 bounding box 처리하여 테스트를 진행하는 실시 예이다.
[도3]는 데이터베이스의 수학단원과 난이도 분류에 관한 것이다.
수학의 단원과 난이도를 전문가에 의하여 분류된 것으로 단원은 “학년-대단원-중단원-소단원”으로 4단계로 분류하였으며 문항별 난이도는 “최상-상-중-하”로 4단계로 분류하였다. 이렇게 분류된 단원 및 난이도 분류에 따른 데이베이스를 구축하여 인공지능으로 사진을 찍어 등록한 문항의 단원과 난이도 분류가 완료되면 자동으로 연동되어 저장되도록 하였다.1 is a representative diagram of a system for delivering knowledge content desired by a user in a knowledge sharing server platform according to an embodiment of the present invention.
When students take a picture of a math problem they do not know with a smart device and register it on the platform server, the characters and formulas in the picture are converted into text by the ocr system, and an artificial intelligence system that classifies the unit and difficulty of the question based on the data And it is a representative diagram of the overall platform service, such as content matching with mentors optimized for student needs, and feedback learning after learning.
[Fig. 2] relates to an embodiment of a bounding box.
In order to increase the recognition rate of the formula part and the natural language part using Mathpix OCR, it is an embodiment in which a test is carried out by processing a bounding box on the formula part.
[Figure 3] relates to the mathematical unit and difficulty classification of the database.
The units and difficulties of mathematics were classified by experts, and the units were classified into 4 levels as “Grade-Great Unit-Middle Unit-Middle Unit”, and the difficulty of each item was classified into 4 stages as “Best-High-Middle-Low”. A database was built according to the classified units and difficulty classification, and when the unit and difficulty classification of the registered questions were automatically linked and saved by taking pictures with artificial intelligence.
본 발명의 각 구성 단계에 대한 상세한 설명에 앞서, 본 명세서 및 청구 범위에 사용된 용어나 단어는 통상적이거나 사전적인 의미로 한정해서 해석되어서는 안되며, 발명자는 그 자신의 발명을 가장 최선의 방법으로 설명하기 위하여 용어의 개념을 적절하게 정의할 수 있다는 원칙에 입각하여 본 발명의 기술적 사상에 부합하는 의미와 개념으로 해석되어야만 한다. 따라서, 본 명세서에 기재된 도면에 도시된 구성은 본 발명의 가장 바람직한 일 실시예에 불과하며 본 발명의 기술적 사상을 모두 대변하는 것은 아니므로, 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 균등물과 변형예들이 있을 수 있음을 이해하여야 한다. 본 발명을 완성하기 위해서는 크게 다음과 같은 4단계의 과정을 필요로 한다. Prior to the detailed description of each configuration step of the present invention, the terms or words used in the present specification and claims should not be construed as being limited to their ordinary or dictionary meanings, and the inventors should develop their own inventions in the best way. Based on the principle that the concept of a term can be appropriately defined for explanation, it should be interpreted as a meaning and concept consistent with the technical idea of the present invention. Accordingly, the configuration shown in the drawings described in the present specification is only the most preferred embodiment of the present invention and does not represent all the technical spirit of the present invention, and thus various equivalents and It should be understood that there may be variations. In order to complete the present invention, the following four steps are largely required.
1단계 : OCR(1)을 이용하여 사진으로 찍은 수학문제를 텍스트로 변환하는 방법Step 1: How to convert a math problem taken as a picture into text using OCR(1)
*영어로 된 수학문제는 Mathpix OCR(2)로 글자와 수식을 모두 인식한다. * For math problems in English, both letters and formulas are recognized with Mathpix OCR(2).
*영어 외의 다른 언어로 된 수학 문제는 글자 부분은 Google OCR(3)로 인식하고, 수식 부분은 수식영역모델로 수식 영역을 먼저 표시하고, 수식 영역이 표시된 문제를 Mathpix OCR(2)를 통해 수식 부분을 인식한다. (영어 외의 다른 언어로 된 수학 문제일 경우 수식 영역을 bounding box(4)로 표시를 해줘야 Mathpix OCR(2)이 수식을 인식함.) *For math problems in languages other than English, the letter part is recognized by Google OCR(3), the formula part is displayed first with the formula area model, and the problem with the formula area is expressed through Mathpix OCR(2) recognize the part. (For math problems in languages other than English, Mathpix OCR(2) recognizes the formula only when the formula area is marked with a bounding box(4).)
수식영역모델은, 수학문제를 받아서 수식 부분을 bounding box(4)로 표시해주는 딥러닝(5) 모델로, 본 모델을 만들기 위해 수식 영역이 bounding box(4)로 표시된 데이터가 필요하며, 데이터 수집 후 딥러닝(5)으로 학습하여 만든다.The formula area model is a deep learning (5) model that receives a mathematical problem and displays the formula part as a bounding box (4). To make this model, data with the formula area displayed as a bounding box (4) is required, and data collection It is then made by learning with deep learning (5)
*인식된 글자는 텍스트로, 인식된 수식은 latex format(6)의 텍스트로 저장된다. * Recognized characters are saved as text, and recognized formulas are saved as text in latex format(6).
2단계 : OCR(1)로 추출한 데이터를 이용하여 문항의 단원을 인공지능으로 자동분류하는 방법 Step 2: A method of automatically classifying the units of a question by using the data extracted by OCR(1)
*텍스트로 변환된 문제의 단원의 집합으로 구성된 데이터를 수집 후, 딥러닝(5)으로 학습하여 단원분류모델(7)을 만든다.* After collecting data composed of a set of units of the problem converted into text, it is learned by deep learning (5) to make a unit classification model (7).
*단원분류모델(7)이 만들어지면, OCR(1)을 이용하여 사진으로 찍은 수학문제를 텍스트로 변환하는 과정을 통해 수학 문제 사진을 텍스트로 인식/변환 후 변환된 텍스트를 바로 다음에 [단원분류모델(7)의 정의 및 구성]에서 설명한 것처럼 단원분류모델의 입력으로 넣으면 모델의 출력으로 해당 문제의 단원이 자동으로* When the unit classification model (7) is created, the mathematical problem picture taken as a picture is converted into text using OCR(1). After recognizing/converting the mathematical problem picture into text, the converted text is As described in [Definition and composition of the classification model (7)] If you put it as the input of the unit classification model, the unit of the problem is automatically entered as the output of the model.
나온다. comes out
[단원분류모델(7)의 정의 및 구성][Definition and composition of the unit classification model (7)]
단원분류모델(7)은 텍스트로 변환된 문제(자연어 및 수식 포함)를 입력으로 받아, 해당 문제가 속한 단원을 예측하는 것을 목적으로 하는 딥러닝(5) 기반 모델이다. The unit classification model 7 is a deep learning (5)-based model whose purpose is to receive a text-converted problem (including natural language and formulas) as input and predict the unit to which the problem belongs.
여기서 단원이란, 해당 과목을 교육과정에 포함한 모든 국가에서 공통적으로 통용되는 개념의 분류 체계를 의미한다. 이 분류 체계는 계층적으로 구성된다. 즉, 분류 체계 내의 특정 단원은 다른 여러 개의 단원들을 포함한다. 이에 따라, 단원분류모델(7)은 계층적 분류를 수행한다.Here, unit refers to a classification system of concepts commonly used in all countries including the subject in the curriculum. This classification system is hierarchically structured. That is, a specific unit in the classification system includes several other units. Accordingly, the unit classification model 7 performs hierarchical classification.
단원분류모델(7)은 크게 두 가지의 구성 요소로 이루어진다. The unit classification model 7 is mainly composed of two components.
첫 번째 요소는 모델의 입력 데이터 (텍스트 형태의 문제 설명 및 수식)로부터 단원을 판단하기에 가장 적합한 Feature(8)들을 추출하는 Feature Extractor(9)이다. 이 Feature Extractor(9)는 딥 뉴럴 네트워크(10)로 구성되며, 단원 분류의 오차를 줄이도록 gradient(11)가 역 전파되어 그 파라미터가 업데이트 된다.The first element is the Feature Extractor(9), which extracts the most suitable features(8) for judging a unit from the input data of the model (problem descriptions and formulas in text form). This feature extractor (9) is composed of a deep neural network (10), and the gradient (11) is back-propagated to reduce the error in unit classification, and its parameters are updated.
두 번째 요소는 추출된 Feature(8)를 기반으로 해당 문제가 어떠한 단원에 속하는지를 판단하는 Classification Network(12)이다. 이 Classification Network(12)는 학습 데이터에 주어진 각 문제의 단원을 제대로 맞추지 못했을 때, 큰 오차를 생성하며 해당 오차를 줄이도록 하는 gradient(11)에 의해 학습된다. 위 두 요소는 End-to-End 방식(13)으로 학습된다. The second element is a classification network (12) that determines which unit the problem belongs to based on the extracted feature (8). This classification network (12) is trained by gradient (11) to reduce the error by generating a large error when the unit of each problem given to the training data does not fit properly. The above two elements are learned in the end-to-end method (13).
학습 이후, 학습 데이터에 존재하지 않았던 새로운 문제가 입력으로 주어졌을 때, 단원분류모델은 해당 문제에서 Feature(8)를 추출하고, 이를 기반으로 주어진 문제의 단원을 예측하여 반환한다.After learning, when a new problem that did not exist in the training data is given as an input, the unit classification model extracts a feature (8) from the problem and predicts and returns the unit of the given problem based on this.
3단계 : OCR(1)로 추출한 데이터를 이용하여 문항의 난이도를 인공지능으로 자동분류하는 방법Step 3: A method of automatically classifying the difficulty level of a question with artificial intelligence using the data extracted by OCR(1)
*텍스트로 변환된 문제, 문제의 난이도의 집합으로 구성된 데이터를 수집 후, 딥러닝(5)으로 학습하여 난이도분류모델(14)을 만든다.* After collecting the data composed of the problem converted into text and the set of difficulty of the problem, it is learned by deep learning (5) to make the difficulty classification model (14).
*난이도분류모델(14)이 만들어지면, 1번의 과정을 통해 수학 문제 사진을 텍스트로 인식/변환 후, 변환 된 텍스트를 난이도분류모델(14)의 입력으로 넣으면 모델의 출력으로 해당 문제의 난이도가 자동으로 나온다.* When the
[난이도분류모델(14)의 정의 및 구성][Definition and composition of the difficulty classification model (14)]
난이도분류모델(14)은 텍스트로 변환된 문제(자연어 및 수식 포함)를 입력으로 받아, 해당 문제의 난이도를 예측하는 것을 목적으로 하는 딥러닝(5) 기반 모델이다. The
여기서 난이도란, 해당 문제를 풀기 위해 요구되는 배경지식에 의해 정의될 수 있다. 일반적으로 난이도가 ‘낮은’문제는 적은 양의 배경지식으로 해결 가능하며, 난이도가 ‘높은’문제는 다양한 분야의 배경지식을 종합적으로 활용해야 해결 가능하다. Here, the difficulty may be defined by the background knowledge required to solve the problem. In general, problems with ‘low difficulty’ can be solved with a small amount of background knowledge, and problems with ‘high difficulty’ can be solved only by comprehensively using background knowledge from various fields.
난이도는 근본적으로 상대적으로 정의되는 개념이다. 특정 문제는 다른 문제에 비해 해결하기 ‘더’어렵거나, ‘덜’어렵다. 이러한 특성을 반영하기 위해, 난이도분류모델(14)은 문제 간의 상대적인 난이도 수준(pair-wise ranking)을 학습하도록 훈련된다.Difficulty is fundamentally a relatively defined concept. Certain problems are “more” or “less” difficult to solve than others. To reflect these characteristics, the
난이도분류모델(14)은 크게 두 가지의 구성 요소로 이루어진다. The
첫 번째 요소는 모델의 입력 데이터(텍스트 형태의 문제 설명 및 수식)로부터 난이도를 판단하기에 가장 적합한 Feature(8)들을 추출하는 Feature Extractor(9)이다. 이 Feature Extractor(9)는 딥 뉴럴 네트워크(10)로 구성되며, 난이도 예측의 오차를 줄이도록 gradient(11)가 역 전파되어 그 파라미터(15)가 업데이트 된다.The first element is the Feature Extractor (9), which extracts the most suitable features (8) for judging the difficulty from the input data of the model (problem descriptions and formulas in text form). This
두 번째 요소는 추출된 Feature(8)를 기반으로 문제 간의 상대적인 난이도 수준을 판단하는 Decision Network(16)이다. 이 Decision Network(16)는 학습 데이터에 주어진 문제들의 난이도 수준을 제대로 맞추지 못했을 때, 큰 오차를 생성하며 해당 오차를 줄이도록 하는 gradient(11)에 의해 학습된다. 위 두 요소는 End-to-End 방식(13)으로 학습된다. The second element is a Decision Network (16) that judges the relative difficulty level between problems based on the extracted Feature (8). This decision network (16) is trained by gradient (11) to reduce the error by generating a large error when the difficulty level of the problems given to the training data is not properly matched. The above two elements are learned in the end-to-end method (13).
학습 이후, 학습 데이터에 존재하지 않았던 새로운 문제가 입력으로 주어졌을 때, 난이도분류모델은 해당 문제에서 Feature(8)를 추출하고, 이를 기반으로 주어진 문제의 난이도를 예측하여 반환한다.After learning, when a new problem that did not exist in the training data is given as an input, the difficulty classification model extracts a feature (8) from the problem and predicts and returns the difficulty of the given problem based on this.
4단계 : 인공지능으로 자동 분류된 단원과 난이도 정보를 데이터베이스에 저장하는 Step 4: Saving the unit and difficulty information automatically classified by artificial intelligence in the database
방법Way
*카메라로 찍거나 화면에서 캡쳐된 수학문제 사진 파일을, OCR(1)을 이용하여 사진으로 찍은 수학문제를 텍스트로 변환하는 1번의 과정을 통해 텍스트로 변환 후, OCR(1)로 추출한 데이터를 이용하여 문항의 단원을 인공지능으로 자동분류하는 2번의 과정과 OCR(1)로 추출한 데이터를 이용하여 문항의 난이도를 인공지* After converting the math problem photo file taken with the camera or captured on the screen into text using OCR(1) to convert the math problem taken as a photo into text, the data extracted with OCR(1) is converted to text. Using the two-step process of automatically classifying the units of the item with artificial intelligence, and using the data extracted with OCR(1), the difficulty of the item is determined by artificial intelligence.
능으로 자동분류하는 3번의 과정을 통해 그 문제의 단원과 난이도를 추출한다.Through the three-step process of automatically classifying by skill, the unit and difficulty of the problem are extracted.
이렇게 구성된 하나의 수학 문제에 대한 데이터, 즉 수학 문제의 사진, 변환된 텍스트, 수학 문제의 단원, 수학 문제의 난이도를 데이터베이스의 하나의 레코드로 저장한다.The data for one math problem configured in this way, that is, the picture of the math problem, the converted text, the unit of the math problem, and the difficulty of the math problem are stored as one record in the database.
이상 본 발명의 도면을 참조하여 설명하였지만, 본 발명이 속한 기술분야에서 통상의 지식을 가진 자라면 상기 내용을 바탕으로 본 발명의 범주 내에서 다양한 응용, 변형 및 개작을 행하는 것이 가능할 것이다. 이에, 본 발명의 진정한 보호 범위는 첨부된 청구 범위에 의해서만 정해져야 할 것이다.Although described above with reference to the drawings of the present invention, those skilled in the art to which the present invention pertains will be able to make various applications, modifications and adaptations within the scope of the present invention based on the above contents. Accordingly, the true protection scope of the present invention should be defined only by the appended claims.
Claims (2)
*텍스트로 변환된 문제의 단원의 집합으로 구성된 데이터를 수집 후, 딥러닝(5)으로 학습하여 단원분류모델(7)을 만든다. *단원분류모델(7)이 만들어지면, OCR(1)을 이용하여 사진으로 찍은 수학문제를 텍스트로 변환하는 과정을 통해 수학 문제 사진을 텍스트로 인식/변환 후 변환 된 텍스트를 바로 다음에 [단원분류모델(7)의 정의 및 구성]에서 설명한 것처럼 단원분류모델의 입력으로 넣으면 모델의 출력으로 해당 문제의 단원이 자동으로 나온다.
단원분류모델(7)은 텍스트로 변환된 문제(자연어 및 수식 포함)를 입력으로 받아, 해당 문제가 속한 단원을 예측하는 것을 목적으로 하는 딥러닝(5) 기반 모델이다.
여기서 단원이란, 해당 과목을 교육과정에 포함한 모든 국가에서 공통적으로 통용되는 개념의 분류 체계를 의미한다. 이 분류 체계는 계층적으로 구성된다. 즉, 분류 체계 내의 특정 단원은 다른 여러 개의 단원들을 포함한다. 이에 따라, 단원분류모델(7)은 계층적 분류를 수행한다.
단원분류모델(7)은 크게 두 가지의 구성 요소로 이루어진다.
첫 번째 요소는 모델의 입력 데이터 (텍스트 형태의 문제 설명 및 수식)로부터 단원을 판단하기에 가장 적합한 Feature(8)들을 추출하는 Feature Extractor(9)이다. 이 Feature Extractor(9)는 딥 뉴럴 네트워크(10)로 구성되며, 단원 분류의 오차를 줄이도록 gradient(11)가 역 전파되어 그 파라미터가 업데이트 된다.
두 번째 요소는 추출된 Feature(8)를 기반으로 해당 문제가 어떠한 단원에 속하는지를 판단하는 Classification Network(12)이다. 이 Classification Network(12)는 학습 데이터에 주어진 각 문제의 단원을 제대로 맞추지 못했을 때, 큰 오차를 생성하며 해당 오차를 줄이도록 하는 gradient(11)에 의해 학습된다. 위 두 요소는 End-to-End 방식(13)으로 학습된다.
학습 이후, 학습 데이터에 존재하지 않았던 새로운 문제가 입력으로 주어졌을 때, 단원분류모델은 해당 문제에서 Feature(8)를 추출하고, 이를 기반으로 주어진 문제의 단원을 예측하여 반환한다.It is a method of automatically classifying the units of a question with artificial intelligence using the data extracted by OCR(1).
* After collecting data composed of a set of units of the problem converted into text, it is learned by deep learning (5) to make a unit classification model (7) *When the unit classification model (7) is created, the mathematical problem picture is recognized/converted into text through the process of converting the mathematical problem taken as a picture into text using OCR(1), and then the converted text is As described in [Definition and composition of the classification model (7)] If you put it as the input of the unit classification model, the unit of the problem is automatically displayed as the output of the model.
The unit classification model 7 is a deep learning (5)-based model whose purpose is to receive a text-converted problem (including natural language and formulas) as input and predict the unit to which the problem belongs.
Here, unit refers to a classification system of concepts commonly used in all countries including the subject in the curriculum. This classification system is hierarchically structured. That is, a specific unit in the classification system includes several other units. Accordingly, the unit classification model 7 performs hierarchical classification.
The unit classification model 7 is mainly composed of two components.
The first element is the Feature Extractor(9), which extracts the most suitable features(8) for judging a unit from the input data of the model (problem descriptions and formulas in text form). This feature extractor (9) is composed of a deep neural network (10), and the gradient (11) is back-propagated to reduce the error in unit classification, and its parameters are updated.
The second element is a classification network (12) that determines which unit the problem belongs to based on the extracted feature (8). This classification network (12) is trained by gradient (11) to reduce the error by generating a large error when the unit of each problem given to the training data does not fit properly. The above two elements are learned in the end-to-end method (13).
After learning, when a new problem that did not exist in the training data is given as an input, the unit classification model extracts a feature (8) from the problem and predicts and returns the unit of the given problem based on this.
*난이도분류모델(14)이 만들어지면, 1번의 과정을 통해 수학 문제 사진을 텍스트로 인식/변환 후, 변환 된 텍스트를 난이도분류모델(14)의 입력으로 넣으면 모델의 출력으로 해당 문제의 난이도가 자동으로 나온다.
[난이도분류모델(14)의 정의 및 구성]
난이도분류모델(14)은 텍스트로 변환된 문제(자연어 및 수식 포함)를 입력으로 받아, 해당 문제의 난이도를 예측하는 것을 목적으로 하는 딥러닝(5) 기반 모델이다.
여기서 난이도란, 해당 문제를 풀기 위해 요구되는 배경지식에 의해 정의될 수 있다. 일반적으로 난이도가 ‘낮은’문제는 적은 양의 배경지식으로 해결 가능하며, 난이도가 ‘높은’문제는 다양한 분야의 배경지식을 종합적으로 활용해야 해결 가능하다.
난이도는 근본적으로 상대적으로 정의되는 개념이다. 특정 문제는 다른 문제에 비해 해결하기 ‘더’어렵거나, ‘덜’어렵다. 이러한 특성을 반영하기 위해, 난이도분류모델(14)은 문제 간의 상대적인 난이도 수준(pair-wise ranking)을 학습하도록 훈련된다.
난이도분류모델(14)은 크게 두 가지의 구성 요소로 이루어진다.
첫 번째 요소는 모델의 입력 데이터(텍스트 형태의 문제 설명 및 수식)로부터 난이도를 판단하기에 가장 적합한 Feature(8)들을 추출하는 Feature Extractor(9)이다. 이 Feature Extractor(9)는 딥 뉴럴 네트워크(10)로 구성되며, 난이도 예측의 오차를 줄이도록 gradient(11)가 역 전파되어 그 파라미터(15)가 업데이트 된다.
두 번째 요소는 추출된 Feature(8)를 기반으로 문제 간의 상대적인 난이도 수준을 판단하는 Decision Network(16)이다. 이 Decision Network(16)는 학습 데이터에 주어진 문제들의 난이도 수준을 제대로 맞추지 못했을 때, 큰 오차를 생성하며 해당 오차를 줄이도록 하는 gradient(11)에 의해 학습된다. 위 두 요소는 End-to-End 방식(13)으로 학습된다.
학습 이후, 학습 데이터에 존재하지 않았던 새로운 문제가 입력으로 주어졌을 때, 난이도분류모델은 해당 문제에서 Feature(8)를 추출하고, 이를 기반으로 주어진 문제의 난이도를 예측하여 반환한다.
It is a method of automatically classifying the difficulty of questions by artificial intelligence using the data extracted by OCR(1). After collecting data consisting of a set of problems and problems converted into text, it is learned by deep learning (5). A difficulty classification model (14) is created.
* When the difficulty classification model 14 is created, after recognizing/converting the mathematical problem photo into text through step 1, if the converted text is input to the difficulty classification model 14, the difficulty of the problem is displayed as the output of the model. comes out automatically
[Definition and composition of the difficulty classification model (14)]
The difficulty classification model 14 is a deep learning (5)-based model that aims to predict the difficulty of a problem by receiving a text-converted problem (including natural language and formulas) as an input.
Here, the difficulty may be defined by the background knowledge required to solve the problem. In general, problems with 'low difficulty' can be solved with a small amount of background knowledge, and problems with 'high difficulty' can be solved only by comprehensively using background knowledge from various fields.
Difficulty is fundamentally a relatively defined concept. Certain problems are 'more' or 'less' difficult to solve than others. To reflect these characteristics, the difficulty classification model 14 is trained to learn the relative difficulty level (pair-wise ranking) between problems.
The difficulty classification model 14 is largely composed of two components.
The first element is the Feature Extractor (9) that extracts the most suitable features (8) for judging the difficulty from the input data of the model (problem descriptions and formulas in text form). This feature extractor 9 is composed of a deep neural network 10, and the gradient 11 is back-propagated to reduce the error of difficulty prediction, and the parameter 15 is updated.
The second element is a Decision Network (16) that judges the relative difficulty level between problems based on the extracted Feature (8). This decision network (16) is trained by gradient (11) to reduce the error by generating a large error when the difficulty level of the problems given to the training data is not properly matched. The above two elements are learned in the end-to-end method (13).
After learning, when a new problem that did not exist in the training data is given as an input, the difficulty classification model extracts a feature (8) from the problem and predicts and returns the difficulty of the given problem based on this.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020190162114A KR20210071681A (en) | 2019-12-06 | 2019-12-06 | How to automatically classify the unit and difficulty of math problems |
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| KR1020190162114A KR20210071681A (en) | 2019-12-06 | 2019-12-06 | How to automatically classify the unit and difficulty of math problems |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| KR20210071681A true KR20210071681A (en) | 2021-06-16 |
Family
ID=76603232
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| KR1020190162114A Ceased KR20210071681A (en) | 2019-12-06 | 2019-12-06 | How to automatically classify the unit and difficulty of math problems |
Country Status (1)
| Country | Link |
|---|---|
| KR (1) | KR20210071681A (en) |
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102724604B1 (en) | 2023-12-28 | 2024-10-31 | 주식회사 티맥스알지 | Method and apparatus for storing mathematical knowledge |
-
2019
- 2019-12-06 KR KR1020190162114A patent/KR20210071681A/en not_active Ceased
Cited By (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| KR102724604B1 (en) | 2023-12-28 | 2024-10-31 | 주식회사 티맥스알지 | Method and apparatus for storing mathematical knowledge |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN104575140B (en) | A kind of smart terminal Network teaching method | |
| KR20210094317A (en) | How to automatically provide feedback learning contents by using math problem solving | |
| CN107145559B (en) | Intelligent classroom Knowledge Management Platform and method based on semantic technology and game | |
| CN105374249B (en) | A kind of online exercise test method shown in mobile terminal based on picture | |
| Wessels et al. | Pre-service teachers’ confidence and attitudes toward teaching English learners | |
| KR20240131867A (en) | Method for providing training content based on a variety of ai management provider for education | |
| Salehudin | The influence of creative learning assisted by Instagram to improve middle school students’ learning outcomes of graphic design subject | |
| Yang et al. | Application of human-computer interaction technology in remote language learning platform | |
| CN111985282A (en) | A training and evaluation system for learning ability | |
| Mohanna | Using knowledge engineering for modeling mobile learning systems | |
| Torres et al. | Effectiveness of Artificial Intelligence (AI) in language teaching | |
| KR102492466B1 (en) | How to automatically classify units and difficulty levels of math questions | |
| KR20220123168A (en) | How to automatically classify units and difficulty levels of math questions | |
| KR20210071681A (en) | How to automatically classify the unit and difficulty of math problems | |
| KR20220123573A (en) | How to automatically extract similar and advanced questions from big data | |
| Li | Application of augmented reality technology in the teaching of literacy at low learning stage | |
| Juric et al. | Implementing M-Learning System for Learning Mathematics Through Computer Games and Applying Neural Networks for Content Similarity Analysis of an Integrated Social Network. | |
| KR20220094457A (en) | How to automatically classify the unit and difficulty of English grammar questions | |
| Zheng | [Retracted] Analyzing College Students’ Reading Behavior by AI Techniques | |
| Peng et al. | Application of Industrial Communication Device‐Based Mobile Learning in Ideological and Political Education | |
| KR20220117120A (en) | Video Sharing Platform for Mathematics Lectures Based on Mathematics Curriculum | |
| Wang | Generative Pre-Trained Transformer-4 based on English Assistant Teaching System in Higher Vocational Colleges | |
| KR20220006378A (en) | How to automatically extract high-difficulty questions of the same classification as twin questions | |
| TWM606688U (en) | Cloud intelligent item bank system for scoring knowledge point | |
| KR20220065310A (en) | A learning system that provides final learning with similar and advanced questions provided by artificial intelligence after 1:1 imaging classes with a tutor who wants to take a picture and register. |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20191206 |
|
| PA0201 | Request for examination | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210323 Patent event code: PE09021S01D |
|
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210415 Patent event code: PE09021S01D |
|
| E902 | Notification of reason for refusal | ||
| PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20210428 Patent event code: PE09021S01D |
|
| PG1501 | Laying open of application | ||
| E601 | Decision to refuse application | ||
| PE0601 | Decision on rejection of patent |
Patent event date: 20211203 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20210428 Comment text: Notification of reason for refusal Patent event code: PE06011S01I Patent event date: 20210415 Comment text: Notification of reason for refusal Patent event code: PE06011S01I Patent event date: 20210323 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |
|
| E601 | Decision to refuse application | ||
| PE0601 | Decision on rejection of patent |
Patent event date: 20211228 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20210428 Comment text: Notification of reason for refusal Patent event code: PE06011S01I Patent event date: 20210415 Comment text: Notification of reason for refusal Patent event code: PE06011S01I Patent event date: 20210323 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |
|
| E601 | Decision to refuse application | ||
| PE0601 | Decision on rejection of patent |
Patent event date: 20220107 Comment text: Decision to Refuse Application Patent event code: PE06012S01D Patent event date: 20210428 Comment text: Notification of reason for refusal Patent event code: PE06011S01I Patent event date: 20210415 Comment text: Notification of reason for refusal Patent event code: PE06011S01I Patent event date: 20210323 Comment text: Notification of reason for refusal Patent event code: PE06011S01I |