KR102328640B1

KR102328640B1 - 교육종단연구 데이터를 처리하는 장치 및 방법

Info

Publication number: KR102328640B1
Application number: KR1020190168818A
Authority: KR
Inventors: 박정; 이경민; 조완섭
Original assignee: 충북대학교 산학협력단
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2021-11-18
Also published as: KR20210077314A

Abstract

교육종단연구 데이터를 처리하는 장치 및 방법이 개시된다. 교육종단연구 데이터를 처리하는 장치는 교육종단연구 데이터를 수집하는 수집부, 수집한 교육종단연구 데이터에 대해 데이터 전처리를 수행하여 교육종단연구 시계열 데이터를 생성하는 데이터 전처리부, 교육종단연구 시계열 데이터에 기초하여 교육 성과를 분석하는 예측 모델을 생성하는 예측 모델 생성부 및 데이터 전처리부 및 예측 모델 생성부를 제어하는 제어부를 포함할 수 있다.

Description

교육종단연구 데이터를 처리하는 장치 및 방법{APPARATUS AND METHOD FOR PROCESSING EDUCATION LONGITUDINAL STUDY DATA}

실시예들은 교육종단연구 데이터를 처리하는 기술에 관한 것이다.

한국교육개발원 및 일부 교육청은 학생, 학부모, 학교 등과 관련된 데이터를 장기간에 걸쳐 수집하고, 수집한 데이터에 기반을 둔 한 교육정책을 설계하기 위해 종단연구를 수행하고 있다. 교육 관련 종단연구는 학생의 성장에 영향을 미치는 요인과 과정을 체계적으로 파악하기 위해 데이터를 생성하고, 생성한 데이터에 기초하여, 교육정책 및 예산투입 의사결정에 과학적 근거를 마련하기 위해 실시되고 있다. 교육종단연구는 학생, 학부모, 학교의 자가설문 방식으로 조사된 데이터와 학업성취도 및 학교정보공시자료와 같은 데이터를 포함하는 교육과 관련한 다차원적인 데이터를 활용하기 때문에, 데이터의 품질이 높은 것으로 평가되고 있다. 교육종단연구는 두 번째 코호트(cohort)를 설정하고 조사를 수행하는 경우도 있기에 앞으로 지속적으로 확장되고 널리 활용될 수 있을 것이다. 교육종단연구는 주로 시도교육청에서 실시되기 때문에, 교육 현장에 밀착한 데이터를 수집할 수 있고, 지역의 특수성에 적합한 교육정책 수립을 위한 데이터로서의 현실적 활용이 가능한 것으로 기대된다.

다만, 의료 및 자연과학 데이터와는 다르게 교육종단연구 데이터는 자가설문 방식으로 1문항이 1가지 요인을 뜻하는 것이 아니라 2~3가지 문항 혹은 크게 10개 이상의 문항이 1가지 요인을 나타내는 경우가 많다. 이러한 많은 문항을 각 요인별로 계산하거나 결측치(Missing value)를 처리하는 시간 또한 연구자들이 지나치게 많은 시간을 소모하게 되어, 정작 데이터를 통한 인사이트를 창출하기까지 오랜 시간이 걸린다. 기존의 데이터 처리 방법들은 대부분 데이터 셋 1개의 행(column)이 1개의 요인을 나타내는 방법에 한정되어 있어, 사회ㆍ과학 분야의 데이터 셋을 처리하기에 미흡한 편이다. 따라서, 미래 학생의 교육성취를 예측하고 데이터에 기반한 과학적 교육정책 입안을 위하여, 교육종단연구 데이터를 효과적으로 처리하기 위한 연구가 필요한 실정이다.

일 실시예에 따른 교육종단연구 데이터를 처리하는 장치는, 교육종단연구 데이터를 수집하는 수집부; 상기 수집한 교육종단연구 데이터에 대해 데이터 전처리를 수행하여 교육종단연구 시계열 데이터를 생성하는 데이터 전처리부; 상기 교육종단연구 시계열 데이터에 기초하여 교육 성과를 분석하는 예측 모델을 생성하는 예측 모델 생성부; 및 상기 데이터 전처리부 및 상기 예측 모델 생성부를 제어하는 제어부를 포함할 수 있다.

상기 교육종단연구 데이터는, 학생 조사 데이터, 학부모 조사 데이터 및 학교 조사 데이터 중 적어도 하나를 포함할 수 있다.

상기 데이터 전처리부는, 마스킹 데이터 생성, 요인화, 정규화 및 이진화 중 적어도 하나를 통해 데이터 전처리가 수행된 교육종단연구 데이터에 기초하여 상기 교육종단연구 시계열 데이터를 생성할 수 있다.

상기 데이터 전처리부는, 상기 교육종단연구 데이터의 결측 데이터(missing data)를 기계 학습을 통해 예측된 값으로 대체하여 상기 마스킹 데이터를 생성할 수 있다.

교육종단연구 데이터를 처리하는 방법은, 교육종단연구 데이터를 수집하는 단계; 상기 수집한 교육종단연구 데이터에 대해 데이터 전처리를 수행하여 교육종단연구 시계열 데이터를 생성하는 단계; 및 상기 교유종단연구 시계열 데이터에 기초하여 교육 성과를 분석하는 예측 모델을 생성하는 단계를 포함할 수 있다.

상기 교육종단연구 시계열 데이터를 생성하는 단계는, 마스킹 데이터 생성, 요인화, 정규화 및 이진화 중 적어도 하나를 통해 데이터 전처리가 수행된 교육종단연구 데이터에 기초하여 상기 교육종단연구 시계열 데이터를 생성하는 단계를 포함할 수 있다.

상기 마스킹 데이터 생성은, 상기 교육종단연구 데이터의 결측 데이터(missing data)를 기계 학습을 통해 예측된 값으로 대체하여 상기 마스킹 데이터를 생성할 수 있다.

일 실시예에 따르면, 학생의 교육 프로세스에 영향을 미치는 교육종단연구 데이터의 특징을 바탕으로, 추후 학생의 교육적 성취에 대한 예측의 정확성과 신뢰성을 확보할 수 있다.

일 실시예에 따르면, 학생 성취에 대한 예측으로 교육정책의 합리성과 예산 투입의 효율성을 확보할 수 있다.

도 1은 일 실시예에 따른 교육종단연구 데이터를 처리하는 시스템의 개요를 도시하는 도면이다.
도 2는 일 실시예에 따른 교육종단연구 데이터를 처리하는 방법을 설명하기 위한 흐름도이다.
도 3은 일 실시예에 따른 교육종단연구 데이터를 처리 과정을 도시한 도면이다.
도 4는 일 실시예에 따른 학생 조사 데이터를 도시하는 도면이다.
도 5는 일 실시예에 따른 학부모 조사 데이터를 도시하는 도면이다.
도 6은 일 실시예에 따른 학교 조사 데이터를 도시하는 도면이다.
도 7은 일 실시예에 따른 학생 마스킹 데이터를 도시하는 도면이다.
도 8은 일 실시예에 따른 학생 요인화 데이터를 도시하는 도면이다.
도 9는 일 실시예에 따른 학생 정규화 데이터를 도시하는 도면이다.
도 10은 일 실시예에 따른 학교 요인화 데이터를 도시하는 도면이다.
도 11은 일 실시예에 따른 학교 비율 데이터를 도시하는 도면이다.
도 12a 및 도 12b는 일 실시예에 따른 데이터 전처리가 수행된 교육종단연구 데이터를 설명하기 위한 도면들이다.
도 13은 일 실시예에 따른 교육종단연구 데이터를 처리하는 장치의 구성을 도시하는 도면이다.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.

실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

제1 또는 제2등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해서 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만, 예를 들어 실시예의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 1은 일 실시예에 따른 교육종단연구 데이터를 처리하는 시스템의 개요를 도시하는 도면이다.

교육종단연구 데이터를 처리하는 시스템은 학생의 교육 프로세스에 영향을 미치는 교육종단연구 데이터의 특징을 바탕으로 추후 학생의 교육적 성취에 대한 예측의 정확성과 효율성을 확보할 수 있도록, 교육종단연구 데이터를 처리하는 장치 및 방법을 제공할 수 있다.

도 1을 참조하면 교육종단연구 데이터를 처리하는 시스템은 교육종단연구 데이터베이스(110) 및 교육종단연구 데이터 처리 장치(130)를 포함할 수 있다.

교육종단연구 데이터베이스(110)는 교육종단연구 데이터를 저장할 수 있고, 교육종단연구 데이터 처리 장치(130)가 교육종단연구 데이터를 처리하는 데 있어서 필요한 데이터를 저장할 수 있다. 교육종단연구 데이터베이스(110)는 네트워크(120)를 통해 교육종단연구 데이터 처리 장치(130)에 교육종단연구 데이터를 전송할 수 있다. 교육종단연구 데이터 처리 장치(130)는 본 명세서에서 설명하는 교육종단연구 데이터를 처리하는 장치에 대응할 수 있다. 교육종단연구 데이터 처리 장치(130)는 교육종단연구 데이터베이스(110)에 저장된 교육종단연구 데이터에 대한 데이터 전처리 및 데이터 분석을 통해 처리할 수 있다.

도 2는 일 실시예에 따른 교육종단연구 데이터를 처리하는 방법을 설명하기 위한 흐름도이다.

도 2를 참조하면 단계(210)에서 교육종단연구 데이터를 처리하는 장치는 교육종단연구 데이터를 수집할 수 있다.

일 실시예에서 교육종단연구 데이터는 학생 조사 데이터, 학부모 조사 데이터 및 학교 조사 데이터 중 적어도 하나를 포함할 수 있다. 장치는 각 시도교육청 및 국책연구소의 데이터베이스로부터 교육종단연구 데이터를 수신하여 교육종단연구 데이터를 수집할 수 있다.

단계(220)에서 장치는 수집한 교육종단연구 데이터에 대해 데이터 전처리를 수행하여 교육종단연구 시계열 데이터를 생성할 수 있다. 장치는 교육종단연구 데이터에 대하여 마스킹 데이터 생성, 요인화, 정규화 및 이진화 중 적어도 하나를 통해 데이터 전처리를 수행할 수 있다. 장치는 데이터 전처리가 수행된 교육종단연구 데이터에 기초하여 교육종단연구 시계열 데이터를 생성할 수 있다. 장치는 교육종단연구 데이터의 결측 데이터(missing data)를 기계 학습을 통해 예측된 값으로 대체하여 마스킹 데이터를 생성할 수 있다. 장치는 교육종단연구 데이터와 함께 제공되는 코드북을 활용하여 요인화를 수행할 수 있다. 또한, 실시예에 따라 장치는 교육종단연구 데이터로부터 데이터 유도를 수행하여 비율 데이터를 생성할 수 있다. 비율 데이터는 예를 들어 학년 별 남녀 학생 비율, 학급 당 학생 수, 경력 별 교사 비율 및 중식 지원 학생의 비율 중 적어도 하나를 포함할 수 있다.

단계(230)에서 장치는 교육종단연구 시계열 데이터에 기초하여 교육 성과를 분석하는 예측 모델을 생성할 수 있다. 장치는 교육종단연구 시계열 데이터에 기초하여 모델을 학습시킴으로써 예측 모델을 생성할 수 있다.

도 3은 일 실시예에 따른 교육종단연구 데이터를 처리 과정을 도시한 도면이다.

도 3을 참조하면 제n차 년도 학생 조사 데이터(n은 자연수), 제n차 년도 학부모 조사 데이터 및 제n차 년도 학교 조사 데이터를 포함하는 교육종단연구 데이터는 데이터 전처리부(320)를 통해 데이터 전처리가 수행될 수 있다. 데이터 전처리부(320)는 교육종단연구 데이터에 대하여 마스킹 데이터를 생성하여 결측 데이터에 기계 학습을 통해 예측된 값을 부여할 수 있고, 요인화를 수행할 수 있고, 정규화 및 이진화를 수행할 수 있다. 데이터 전처리부(320)는 데이터 전처리가 수행된 교육종단연구 데이터에 대한 데이터 테이블의 조인(Join)을 통해 제1차 년도 내지 제n차 년도 분석 데이터를 생성할 수 있다. 데이터 전처리부(320)는 제1차 년도 내지 제n차 년도 분석 데이터에 대하여 데이터 테이블의 조인을 통해 교육종단연구 시계열 데이터를 생성할 수 있다. 데이터 분석부(310)는 종단연구 시계열 데이터에 기초하여 종단연구 시계열 분석 모델에 대한 종단연구 시계열 분석 학습을 수행할 수 있다. 데이터 분석부(310)는 학습된 종단연구 시계열 분석 모델을 통해 미래 학생의 교육 성취를 예측할 수 있고, 교육 성취에 영향을 줄 수 있는 요인을 도출할 수 있다.

교육종단연구 데이터를 처리하는 장치는 교육종단연구 데이터에 대한 데이터 전처리를 수행하기 위해, 교육종단연구 데이터에 기계학습 방법을 활용한 다중대체법을 적용하여 마스킹 데이터를 생성할 수 있다. 교육종단연구 데이터는 자가설문 방식을 기반으로 생성되는 자료이기 때문에, 결측 데이터가 포함될 수 있다. 교육종단연구 데이터에 결측 데이터가 포함된 경우, 데이터 전처리 과정에서 오류가 발생하거나, 또는 교육 성과를 예측하는 데 있어서 정확도를 낮출 수 있다. 따라서, 전처리부는 교육종단연구 데이터의 결측 데이터를 기계 학습을 통해 예측된 값으로 대체하여 마스킹 데이터를 생성할 수 있다.

장치는 마스킹 데이터 생성을 통해 결측 데이터를 대체한 마스킹 데이터 문항 간의 연산을 통해 요인화 데이터를 생성할 수 있다. 장치는 마스킹 데이터에 기초하여 요인화를 수행함으로써, 요인화 데이터를 생성할 수 있다. 마스킹 데이터는 단일 문항이 하나의 요인이 되는 단일 요인 문항과 여러 개의 문항이 하나의 요인을 나타내는 결합이 필요한 결합 요인 문항을 포함할 수 있다. 결합 요인 문항은 요인에 따른 문항의 총합(SUM 값)을 계산하여 각 문항이 하나의 요인으로 결합하는 요인화 과정을 거칠 수 있다. 요인화를 수행한 결과, 각 열(column) 별로 요인으로서의 의미를 갖는 요인화 데이터가 생성될 수 있다. 장치는 학생 및 학부모와 관련된 마스킹 데이터에 기초하여 요인화를 수행할 수 있고, 실시예에 따라 학교와 관련된 마스킹 데이터에 대해서는 요인화를 수행하지 않을 수도 있다.

장치는 요인화 데이터에 대하여 정규화를 수행할 수 있다. 요인화 데이터는 수치형 데이터와 범주형 데이터를 포함할 수 있다. 수치형 데이터는 문항 간의 합산을 통해 생성된 요인화 데이터로서, 각 요인(열: column) 별로 값의 범위가 다를 수 있다(예를 들어, 요인A는 3개의 문항을 합산한 것일 수 있고, 요인B는 10개의 문항을 합산한 것일 수 있음). 장치는 수치형 데이터가 일정한 범위의 수치를 갖도록 정규화를 수행하여 기준 범위를 설정하고 수치형 데이터들을 동일한 범위 내의 값으로 변환할 수 있다. 장치는 범주형 데이터에 대해 이진화를 수행하여 더미변수(dummy variable)와 같은 형태로 변환할 수 있다. 범주형 데이터의 이진화를 더미화, 원-핫 인코딩(One-Hot Encoding)이라고 지칭할 수도 있다. 정규화 및 이진화를 통해 요인화 데이터는 모두 일정한 범위의 값(예를 들어, 0과 1 사이의 값)을 갖는 정규화 데이터가 될 수 있다.

학교 조사 데이터는 학교의 규모에 비례하는 데이터(예를 들어, 학생 수, 교사 수 및 학년 별 학급 수 등)를 포함할 수 있다. 학교의 규모에 비례하는 데이터는 요인으로 묶이지 않는 수치 데이터이기 때문에 학교의 규모에 비례하는 데이터에 대해서는 요인화 과정이 제대로 수행되지 않을 수 있다. 장치는 학교의 규모에 비례하는 데이터의 비율을 산술하여, 새로운 변수로 생성해 내면, 학교의 규모에 비례하는 데이터를 통해 학교의 특징을 보다 정확하게 나타낼 수 있다. 따라서, 장치는 각 변수들 간의 산술을 통해 학교의 규모에 비례하는 데이터에 기초하여 학교 비율 데이터를 생성할 수 있다. 예를 들어, 교사의 수와 교직 경력 별 인원 수(예: 10년차 미만, 10년차 이상 ~ 20년차 미만, 20년차 이상 ~ 30년차 미만, 30년 이상)를 교사의 수로 나누어 그 비율을 계산하는 학교 비율 데이터를 생성할 수 있다. 장치가 학교 요인화 데이터에 기초하여 데이터를 도출하고, 데이터 전처리를 수행한 결과, 장치는 학교 비율 데이터를 생성할 수 있다.

장치는 교육종단연구 데이터에 대해 마스킹 데이터 생성, 요인화, 정규화, 이진화 및 비율 데이터 생성 중 적어도 하나를 수행하여 데이터 전처리를 수행할 수 있다. 장치는 데이터 전처리 과정을 통해 제n차 년도 학생 조사 데이터를 제n차 년도 학생 정규화 데이터로 변환할 수 있고, 제n차 년도 학부모 조사 데이터를 제n차 년도 학부모 정규화 데이터로 변환할 수 있다. 또한, 장치는 제n차 년도 학교 데이터를 제n차 년도 학교 정규화 데이터와 제n차 년도 학교 비율 데이터로 변환할 수 있다.

장치는 제n차 년도 학생 정규화 데이터, 제n차 년도 학부모 정규화 데이터, 제n차 년도 학교 정규화 데이터, 제n차 년도 학교 비율 데이터를 학생, 학부모 및 학교 중 적어도 하나의 차원을 기준으로 하여 조인 연산을 수행할 수 있다. 장치는 주로 학생 차원을 기준으로 한 조인 연산을 수행할 수 있다. 조인 연산의 결과로 장치는 제n차 년도 분석 데이터를 생성할 수 있다. 장치는 제n차 년도 분석 데이터에 기초하여 시계열 분석 데이터(또는 시계열 데이터)를 생성할 수 있다. 시계열 분석 데이터는 시계열 분석 모델을 통해 분석될 수 있다. 시계열 분석 모델은 시계열 분석 데이터에 대한 기계 학습을 통해 생성될 수 있다. 시계열 분석 모델은 예를 들어, 의사결정 나무(Decision Tree) 기반 앙상블(Ensemble) 방식의 XG부스트(XGboost), 랜덤 포레스트(Random Forest) 등 다양한 기계학습 방법을 활용하여 구현될 수 있다.

도 4 내지 도 6은 일 실시예에 따른 교육종단연구 데이터를 도시하는 도면이다.

도 4는 일 실시예에 따른 학생 조사 데이터를 도시하는 도면이다. 도 4를 참조하면 학생 조사 데이터는 예를 들어, 학생 ID, 학부모 ID, 학교 ID 및 문항코드를 포함할 수 있다.

도 5는 일 실시예에 따른 학부모 조사 데이터를 도시하는 도면이다. 도 5를 참조하면, 학부모 조사 데이터는 예를 들어, 학부모 ID, 학교 ID 및 문항코드를 포함할 수 있다.

도 6은 일 실시예에 따른 학교 조사 데이터를 도시하는 도면이다. 도 6을 참조하면, 학교 조사 데이터는 예를 들어, 학교 ID 및 문항코드를 포함할 수 있다.

도 7은 일 실시예에 따른 학생 마스킹 데이터를 도시하는 도면이다.

교육종단연구 데이터를 처리하는 장치는 학생 조사 데이터의 결측 데이터를 기계 학습을 통해 예측된 값으로 대체하여 학생 마스킹 데이터를 생성할 수 있다.

도 8은 일 실시예에 따른 학생 요인화 데이터를 도시하는 도면이다. 장치는 도 7의 학생 마스킹 데이터에 대해 요인화를 수행하여 학생 요인화 데이터를 생성할 수 있다. 장치는 예를 들어, 도 7의 학생 마스킹 데이터에 대하여 결합이 필요한 문항인 문항코드 X와 문항코드 Y에 대하여 합과 같은 산술을 수행하여 요인_A를 생성할 수 있다. 또한, 장치는 도 7의 학생 마스킹 데이터의 문항코드 Z에 대해 곱하기 1과 같은 산술을 수행하여 요인 C를 생성할 수 있다.

도 9는 일 실시예에 따른 학생 정규화 데이터를 도시하는 도면이다. 장치는 도 8의 학생 요인화 데이터에 대해 정규화 또는 이진화 중 적어도 하나를 수행하여 학생 정규화 데이터를 생성할 수 있다. 도 9의 요인_A는 수치형 데이터인 도 8의 요인_A에 대해 정규화를 수행한 결과로 생성될 수 있고, 도 9의 요인C_1은 범주형 데이터인 도 8의 요인C에 대해 이진화를 수행한 결과로 생성될 수 있다.

도 10은 일 실시예에 따른 학교 요인화 데이터를 도시하는 도면이다.

도 10을 참조하면 학교 요인화 데이터는 요인화가 수행되지 않은 데이터를 포함할 수 있다. 요인화가 수행되지 않는 데이터는 학교의 규모에 따라 달라지는 데이터를 포함할 수 있다. 학교의 규모에 따라 달라지는 데이터는 수치 데이터이기 때문에, 요인화가 수행되기에 적합하지 않을 수 있다. 따라서, 장치는 요인화가 수행되지 않은 데이터에 대해서는 비율 데이터를 생성할 수 있다.

도 11은 일 실시예에 따른 학교 비율 데이터를 도시하는 도면이다. 비율 데이터는 아래 식에 기초하여 산출될 수 있다.

ratio_요인A는 도 11에 포함된 학교 비율 데이터이고, 요인A, 요인B 및 요인 C는 도 10의 학교의 규모에 따라 달라지는 데이터일 수 있다.

도 12a 및 도 12b는 일 실시예에 따른 데이터 전처리가 수행된 교육종단연구 데이터를 설명하기 위한 도면들이다.

데이터 전처리가 수행된 교육종단연구 데이터는 분석 데이터라고도 지칭될 수 있다. 제n차 년도 교육종단연구 데이터는 학생에 대한 데이터(학생 ID), 학부모에 대한 데이터(학부모 ID) 및 학교에 대한 데이터(학교 ID)를 포함할 수 있다. 도 12a는 제n차 년도 학생 정규화 데이터(요인_A 내지 요인C_2, 제n차 년도 학부모 정규화 데이터(요인_A(학부모) 내지 요인C_2(학부모)), 제n차 년도 학교 정규화 데이터(요인_A(학교)), 제n차 년도 학교 비율 데이터(ratio_요인A(학교)) 를 포함할 수 있다.

도 12b는 일 실시예에 따른 교육종단연구 데이터를 기초로 하여 생성된 시계열 데이터(또는 시계열 분석 데이터)를 설명하기 위한 도면이다.

장치는 도 12a의 데이터 전처리가 수행된 교육종단연구 데이터에 기초하여 도 12b의 시계열 데이터를 생성할 수 있다. 교육종단연구 시계열 데이터는 제1차 년도 분석 데이터부터 제n차 년도 분석 데이터를 포함할 수 있다.

도 13은 일 실시예에 따른 교육종단연구 데이터를 처리하는 장치의 구성을 도시하는 도면이다.

도 13을 참조하면 교육종단연구 데이터를 처리하는 장치(1300)는 수집부(1310), 데이터 전처리부(1320), 제어부(1330) 및 예측 모델 생성부(1340)를 포함할 수 있다. 또한, 실시예에 따라 장치(1300)는 저장부(1350)를 포함할 수도 있다.

교육종단연구 데이터를 처리하는 장치(1300)는 도 1에서 설명한 교육종단연구 데이터 처리 장치에 대응할 수 있고, 도 2에서 설명한 교육종단연구 데이터를 처리하는 장치에 대응할 수 있다.

수집부(1310)는 교육종단연구 데이터를 수집할 수 있다. 수집부(1310)는 각 시도교육청 및 국책연구소의 데이터베이스로부터 교육종단연구 데이터를 수신하여 교육종단연구 데이터를 수집할 수 있다.

데이터 전처리부(1320)는 수집한 교육종단연구 데이터에 대해 데이터 전처리를 수행하여 교육종단연구 시계열 데이터를 생성할 수 있다. 데이터 전처리부(1320)는 교육종단연구 데이터에 마스킹 데이터 생성, 요인화, 정규화 및 이진화 중 적어도 하나를 수행하여 교육종단연구 시계열 데이터를 생성할 수 있다. 데이터 전처리부(1320)가 데이터 전처리를 수행할 교육종단연구 데이터는 제1차 년도부터 제n차 년도에 대응하는 학생 조사 데이터, 학부모 조사 데이터 및 학교 조사 데이터를 포함할 수 있다.

예측 모델 생성부(1340)는 교육종단연구 시계열 데이터에 기초하여 교육 성과를 분석하는 예측 모델을 생성할 수 있다. 예측 모델 생성부(1340)는 교육종단연구 시계열 데이터에 기초하여 예측 모델을 학습시킬 수 있다. 학습된 예측 모델은 교육성과를 분석하고 예측할 수 있다.

제어부(1330)는 수집부(1310), 데이터 전처리부(1320) 및 예측 모델 생성부(1340)의 동작을 제어할 수 있다.

위에서 설명한 내용은 본 발명을 실시하기 위한 구체적인 예들이다. 본 발명에는 위에서 설명한 실시 예들뿐만 아니라, 단순하게 설계 변경하거나 용이하게 변경할 수 있는 실시 예들도 포함될 것이다. 또한, 본 발명에는 상술한 실시 예들을 이용하여 앞으로 용이하게 변형하여 실시할 수 있는 기술들도 포함될 것이다.

저장부(1350)는 예측 모델이 교육 성과를 예측하는 데 있어서 필요한 데이터를 저장할 수 있고, 수집부(1310)가 수집한 교육종단연구 데이터를 저장할 수도 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

110: 교육종단연구 데이터베이스 120: 네트워크
130: 교육종단연구 데이터 처리 장치
310: 데이터 분석부 320, 1310: 데이터 전처리부
1300: 교육종단연구 데이터를 처리하는 장치
1310: 수집부 1330: 제어부
1340: 예측 모델 생성부 1350: 저장부

Claims

교육종단연구 데이터를 처리하는 장치에 있어서,
교육종단연구 데이터를 수집하는 수집부;
상기 수집한 교육종단연구 데이터에 대해 데이터 전처리를 수행하여 교육종단연구 시계열 데이터를 생성하는 데이터 전처리부;
상기 교육종단연구 시계열 데이터에 기초하여 교육 성과를 분석하는 예측 모델을 생성하는 예측 모델 생성부; 및
상기 데이터 전처리부 및 상기 예측 모델 생성부를 제어하는 제어부를 포함하고,
상기 데이터 전처리부는,
상기 교육종단연구 데이터의 결측 데이터(missing data)에, 기계 학습을 통해 예측된 마스킹 데이터를 부여하고,
요인에 따른 문항의 총합을 계산하여 각 문항이 하나의 요인으로 결합하는 요인화를 수행하고,
상기 요인으로 묶이지 않고 학교의 규모에 비례하는 수치 데이터에 기초하여 비율 데이터를 생성하고,
상기 비율 데이터에 기초하여 상기 시계열 데이터가 생성되는,
장치.
제1항에 있어서,
상기 교육종단연구 데이터는,
학생 조사 데이터, 학부모 조사 데이터 및 학교 조사 데이터 중 적어도 하나를 포함하는,
장치.
제1항에 있어서,
상기 데이터 전처리부는,
마스킹 데이터 생성, 요인화, 정규화 및 이진화 중 적어도 하나를 통해 데이터 전처리가 수행된 교육종단연구 데이터에 기초하여 상기 교육종단연구 시계열 데이터를 생성하는,
장치.
삭제
교육종단연구 데이터를 처리하는 장치에 의해 수행되는, 상기 교육종단연구 데이터를 처리하는 방법에 있어서,
교육종단연구 데이터를 수집하는 단계;
상기 수집한 교육종단연구 데이터에 대해 데이터 전처리를 수행하여 교육종단연구 시계열 데이터를 생성하는 단계; 및
상기 교육종단연구 시계열 데이터에 기초하여 교육 성과를 분석하는 예측 모델을 생성하는 단계를 포함하고,
상기 시계열 데이터를 생성하는 단계는,
상기 교육종단연구 데이터의 결측 데이터(missing data)에, 기계 학습을 통해 예측된 마스킹 데이터를 부여하는 단계;
요인에 따른 문항의 총합을 계산하여 각 문항이 하나의 요인으로 결합하는 요인화를 수행하는 단계; 및
요인으로 묶이지 않고 학교의 규모에 비례하는 수치 데이터에 기초하여 비율 데이터를 생성하는 단계를 포함하고,
상기 비율 데이터에 기초하여 상기 시계열 데이터가 생성되는,
방법.
제5항에 있어서,
상기 교육종단연구 데이터는,
학생 조사 데이터, 학부모 조사 데이터 및 학교 조사 데이터 중 적어도 하나를 포함하는,
방법.
제5항에 있어서,
상기 교육종단연구 시계열 데이터를 생성하는 단계는,
마스킹 데이터 생성, 요인화, 정규화 및 이진화 중 적어도 하나를 통해 데이터 전처리가 수행된 교육종단연구 데이터에 기초하여 상기 교육종단연구 시계열 데이터를 생성하는 단계
를 포함하는,
방법.
삭제