KR101895961B1 - 점수 추정 방법, 장치 및 컴퓨터 프로그램 - Google Patents
점수 추정 방법, 장치 및 컴퓨터 프로그램 Download PDFInfo
- Publication number
- KR101895961B1 KR101895961B1 KR1020170143774A KR20170143774A KR101895961B1 KR 101895961 B1 KR101895961 B1 KR 101895961B1 KR 1020170143774 A KR1020170143774 A KR 1020170143774A KR 20170143774 A KR20170143774 A KR 20170143774A KR 101895961 B1 KR101895961 B1 KR 101895961B1
- Authority
- KR
- South Korea
- Prior art keywords
- user
- external test
- modeling
- data
- test score
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 238000004590 computer program Methods 0.000 title 1
- 238000012360 testing method Methods 0.000 claims abstract description 160
- 239000013598 vector Substances 0.000 claims abstract description 72
- 238000007405 data analysis Methods 0.000 claims abstract description 55
- 238000012549 training Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 description 52
- 238000004458 analytical method Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
- G06Q50/2057—Career enhancement or continuing education service
-
- G06N99/005—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Educational Technology (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
본 발명은 데이터 분석 프레임워크에서, 외부 시험 문제에 대한 사용자의 예상 점수를 추정하는 방법에 대한 것으로, 복수의 문제를 포함하는 문제 데이터베이스를 구성하고, 상기 문제에 대한 사용자의 풀이 결과 데이터를 수집하고, 상기 풀이 결과 데이터를 상기 데이터 분석 프레임워크에 적용하여 상기 문제에 대한 사용자 각각의 특성을 설명하는 사용자 모델링 벡터 및 상기 사용자에 대한 문제 각각의 특성을 설명하는 문제 모델링 벡터를 계산하는 a 단계; 상기 사용자 중, 상기 문제 데이터베이스를 이용하지 않고 출제된 외부 시험 점수 데이터가 존재하는 사용자 그룹을 확인하는 b 단계; 상기 사용자 그룹의 외부 시험 점수 데이터를 이용하여, 상기 문제 데이터베이스에서 상기 외부 시험 점수 예측 효율이 높은 문제 세트를 구성하고, 상기 문제 세트의 정답 확률을 상기 외부 시험 점수로 변환하기 위한 모델링 함수를 계산하는 c 단계; 및 상기 사용자 그룹에 속하지 않는 사용자의 모델링 벡터를 이용하여, 상기 문제 세트에 대한 정답 확률을 추정하고, 상기 모델링 함수를 이용하여 상기 문제 세트에 대한 정답 확률을 외부 시험 점수로 변환하는 d 단계를 포함하는 것을 특징으로 한다.
Description
본 발명은 문제 데이터베이스 외부에서 진행된 시험 점수를 추정하는 방법에 대한 것이다. 보다 구체적으로 본 발명은 대량의 사용자의 문제 풀이 결과 데이터를 분석하여, 외부 시험에 대한 사용자 각각의 예상 점수를 추정하는 방법에 대한 것이다.
지금까지 특정 시험에 대한 피시험자의 예상 점수는 전문가들의 노하우에 따라 추정되는 것이 일반적이었다. 예를 들어 대학 수학능력 시험의 경우, 전문가들의 노하우에 따라 실제 대학 수학능력 시험과 유사하게 모의고사를 구성하고, 학생들이 모의고사를 풀어본 결과를 토대로 대학 수학 능력 시험의 예상 점수가 예측되게 된다.
그러나 이와 같은 방법은 전문가들의 주관적 경험과 직관에 의존하기 때문에 실제 시험 결과와 크게 차이가 나는 경우가 적지 않다. 예를 들어 모의고사에서는 2등급을 받던 학생이 실제 수학능력 시험에서 전혀 다른 등급을 받게 되는 경우가 허다한 것이다. 나아가 학생들이 불완전한 예상 점수라도 알아보기 위해서는 다수의 모의고사를 직접 풀어보아야 하는 부담이 발생한다.
이와 같이 종래의 교육 환경에서는 실제 시험에 대한 피시험자의 예상 점수가 수학적으로 계산되지 않으며, 예상 점수를 알아보기 위해서는 다수의 모의고사에 응시해야 하고, 신뢰도가 낮은 예상 점수 정보에 따라 피시험자가 해당 시험을 준비하게 되므로 학습 능률이 떨어지는 문제가 발생한다.
종래에는 한국공개특허 제10-2003-0041877(발명의 명칭: 평균 점수 예측을 통한 학습 능률 향상 방법 및 시스템, 공개일: 2003.05.27.)과 같이 사용자가 속해있는 그룹의 평균 점수를 예측하거나하는 기술은 있었으나, 동일한 문제 데이터베이스를 이용하지 않는 외부 시험의 예상 점수를 추정하는 방법은 개시된 바 없다.
종래에는 한국공개특허 제10-2003-0041877(발명의 명칭: 평균 점수 예측을 통한 학습 능률 향상 방법 및 시스템, 공개일: 2003.05.27.)과 같이 사용자가 속해있는 그룹의 평균 점수를 예측하거나하는 기술은 있었으나, 동일한 문제 데이터베이스를 이용하지 않는 외부 시험의 예상 점수를 추정하는 방법은 개시된 바 없다.
본 발명은 사용자가 외부 시험에 대한 모의고사 문제를 풀어보거나, 시스템에서 모의 고사를 구성하지 않고, 임의의 사용자에 대한 외부 시험의 예상 점수를 추정하는 방법을 제공하는 것을 목적으로 한다.
보다 구체적으로 본 발명은, 문제와 사용자에 대해 모델링하고, 외부 시험 점수 데이터가 존재하는 사용자들의 모델링 정보를 이용하여 다른 사용자의 외부 시험 점수를 추정하는 방법을 제공하는 것을 목적으로 한다.
본 발명의 실시예를 따르는 데이터 분석 프레임워크에서, 외부 시험 문제에 대한 사용자의 예상 점수를 추정하는 방법은, 복수의 문제를 포함하는 문제 데이터베이스를 구성하고, 상기 문제에 대한 사용자의 풀이 결과 데이터를 수집하고, 상기 풀이 결과 데이터를 상기 데이터 분석 프레임워크에 적용하여 상기 문제에 대한 사용자 각각의 특성을 설명하는 사용자 모델링 벡터 및 상기 사용자에 대한 문제 각각의 특성을 설명하는 문제 모델링 벡터를 계산하는 a 단계; 상기 사용자 중, 상기 문제 데이터베이스를 이용하지 않고 출제된 외부 시험 점수 데이터가 존재하는 사용자 그룹을 확인하는 b 단계; 상기 사용자 그룹의 외부 시험 점수 데이터를 이용하여, 상기 문제 데이터베이스에서 상기 외부 시험 점수 예측 효율이 높은 문제 세트를 구성하고, 상기 문제 세트의 정답 확률을 상기 외부 시험 점수로 변환하기 위한 모델링 함수를 계산하는 c 단계; 및 상기 사용자 그룹에 속하지 않는 사용자의 모델링 벡터를 이용하여, 상기 문제 세트에 대한 정답 확률을 추정하고, 상기 모델링 함수를 이용하여 상기 문제 세트에 대한 정답 확률을 외부 시험 점수로 변환하는 d 단계를 포함하는 것을 특징으로 한다.
본 발명에 따르면, 사용자 문제 풀이 결과에 대한 대량의 데이터를 이용하여 문제 및/또는 사용자에 대한 모델링 벡터를 생성하고, 데이터베이스 외부에서 치뤄진 외부 시험에 대한 사용자의 예상 점수를 추정하는 방법에 대한 것이다.
도 1은 본 발명의 실시예에 따라 외부 시험 문제에 대한 사용자의 예상 점수를 추정하는 방법을 설명하기 위한 순서도
도 2는 본 발명의 실시예를 따르는 다차원 평면에서 사용자 그룹의 정답 확률과 외부 시험 점수 데이터의 관계를 표현한 그래프의 예시
도 3은 본 발명의 실시예를 따라 외부 시험 점수 추정을 위한 점수 세트를 생성하기 위해 구성하는 문제 평면 그래프의 예시
도 4는 본 발명의 실시예를 따라 문제 세트의 업데이트 여부를 결정하는 방법을 설명하기 위한 예시도면
도 2는 본 발명의 실시예를 따르는 다차원 평면에서 사용자 그룹의 정답 확률과 외부 시험 점수 데이터의 관계를 표현한 그래프의 예시
도 3은 본 발명의 실시예를 따라 외부 시험 점수 추정을 위한 점수 세트를 생성하기 위해 구성하는 문제 평면 그래프의 예시
도 4는 본 발명의 실시예를 따라 문제 세트의 업데이트 여부를 결정하는 방법을 설명하기 위한 예시도면
본 발명은 이하에 기재되는 실시예들의 설명 내용에 한정되는 것은 아니며, 본 발명의 기술적 요지를 벗어나지 않는 범위 내에서 다양한 변형이 가해질 수 있음은 자명하다. 그리고 실시예를 설명함에 있어서 본 발명이 속하는 기술 분야에 널리 알려져 있고 본 발명의 기술적 요지와 직접적으로 관련이 없는 기술 내용에 대해서는 설명을 생략한다.
한편, 첨부된 도면에서 동일한 구성요소는 동일한 부호로 표현된다. 그리고 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 개략적으로 도시될 수도 있다. 이는 본 발명의 요지와 관련이 없는 불필요한 설명을 생략함으로써 본 발명의 요지를 명확히 설명하기 위함이다.
최근 IT 디바이스의 보급이 확대되면서, 사용자 분석을 위한 데이터 수집이 용이해지고 있다. 사용자 데이터를 충분히 수집할 수 있으면, 사용자의 분석이 보다 정밀해지고 해당 사용자에게 가장 적합한 형태의 컨텐츠를 제공할 수 있다.
이러한 흐름과 함께 특히 교육 업계에서 정밀한 사용자 분석에 대한 니즈가 높다.
간단한 예를 들어, 특정 대학 진학을 목표로 하는 어떤 학생이 수학능력시험에 대해 언어 영역 50점, 외국어 영역 80점을 맞을 것으로 높은 신뢰도로 예상할 수 있으며, 해당 학생은 대학의 모집 요강을 참고하여 어떤 과목에 주안점을 두고 공부할 것인지 판단할 수 있을 것이다.
시험 점수를 추정하기 위해서는 종래에 학생들은 전문가들이 해당 시험과 유사하게 구성한 모의고사를 여러 번 풀어보는 방식을 따랐다. 그러나 수험생들이 모의고사를 푸는 행위 자체는 능률적인 공부라고 보기 어렵다. 모의고사는 실제 시험과 유사한지를 기준으로 구성되기 때문에 응시자의 실력과는 무관하게 출제된다. 즉, 모의고사는 시험점수를 추정하여 전체 학생들 중에서 자신의 위치를 확인하는데 목적이 있을 뿐, 응시자의 학습을 위해 구성된 문제가 아니다.
따라서 개별 학생들은 모의고사를 통해 알고 있는 문제도 여러 번 풀어보게 된다. 나아가 종래의 모의고사는 전문가들의 노하우에 따라 구성되기 때문에 실제 시험과 유사한지 여부, 즉, 실제 시험과의 유사도 역시 수학적으로 계산될 수 없으며, 모의고사를 통해 추정된 학생의 예상 점수는 실제점수와 차이가 클 수 밖에 없는 문제가 있었다.
본 발명은 상기와 같은 문제를 해결하기 위한 것이다. 본 발명의 실시예를 따르는 데이터 분석 서버는 학습 데이터 분석에 머신 러닝 프레임워크를 적용하여 데이터 처리 과정의 사람의 개입을 배제하고 시험점수를 추정하는 방법을 제공하고자 한다.
본 발명의 실시예를 따르면, 외부 시험 점수를 추정하기 위한 모의고사 문제를 구성하거나, 사용자가 모의고사를 풀어볼 필요 없이 외부 시험 점수를 예측할 수 있는 효과가 있다.
보다 구체적으로, 본 발명의 실시예를 따르면 데이터 분석 시스템의 문제 데이터베이스를 통해 실제 시험 점수의 예측 효율이 높은 문제 세트가 구성될 수 있다. 특히 본 발명의 실시예를 따르는 상기 문제 세트는 종래의 모의 고사처럼 외부 시험과 유사한지를 기준으로 구성되는 것이 아니라, 외부 시험 점수에 대한 예측 효율이 높은지를 기준으로 구성되어 문제 개수 및/또는 문제 유형 등이 외부 시험에 종속될 필요가 없는 특징이 있다.
나아가 본 발명의 실시예를 따르면, 문제 데이터베이스에 대한 풀이 결과 데이터가 충분히 축적된 사용자들은 상기 문제 세트를 풀어볼 필요도 없이 사용자와 문제의 모델링 벡터를 사용하여 상기 문제 세트에 대한 정답 확률을 추정할 수 있다. 나아가 문제 세트에 대한 정답 확률은 외부 시험 문제에 대한 예측 점수로 변환되기 때문에 결과적으로 사용자 각각의 외부 시험 점수가 높은 신뢰도로 계산될 수 있다.
도 1은 본 발명의 실시예를 따르는 학습 데이터 분석 프레임워크에서 임의의 사용자의 외부 시험 점수를 추정하는 방법을 도시한 순서도이다.
단계 110 및 단계 120는 데이터 분석 시스템에서 개별 사용자에 대한 외부 시험 예상 점수를 추정하기 위한 전제가 되는 단계이다. 본 명세서에서 외부 시험은, 본 발명의 실시예를 따르는 문제 데이터베이스 외부의 문제로 구성된 시험을 포함하는 의미로 해석될 수 있다.
본 발명의 실시예를 따르면 단계 110에서 문제 데이터베이스에 대한 사용자의 풀이 결과 데이터가 수집될 수 있다.
보다 구체적으로, 데이터 분석 서버는 문제 데이터베이스를 구성하고, 상기 문제 데이터베이스에 속하는 전체 문제들에 대한 전체 사용자의 풀이 결과 데이터를 수집할 수 있다.
예를 들어 데이터 분석 서버는 시중에 나와 있는 각종 문제들에 대한 데이터베이스를 구축하고, 구축된 문제 데이터베이스를 사용자 디바이스에 제공하고, 사용자 디바이스를 통해 사용자가 해당 문제들을 푼 결과를 수집하는 방식으로 풀이 결과 데이터를 수집할 수 있다. 상기 문제 데이터베이스는 듣기 평가 문제를 포함하고, 텍스트, 이미지, 오디오, 및/또는 동영상 형태일 수 있다.
나아가 데이터 분석 서버는 수집된 문제 풀이 결과 데이터를 사용자, 문제, 결과에 대한 리스트 형태로 구성할 수 있다. 예를 들어 Y (u, i)는 사용자 u가 문제 i를 푼 결과를 의미하며, 정답인 경우 1, 오답인 경우 0의 값이 부여될 수 있다.
그런데 객관식 문제는 지문뿐만 아니라 보기 요소가 포함되어 구성되는데, 분석의 소스로 정오답 여부만을 반영하는 경우, 두 학생이 같은 문제를 틀렸으나 다른 선택지를 골랐을 경우, 두 학생의 벡터값 계산에 해당 문제가 미치는 영향이 동일하여 해당 문제가 분석 결과에 미치는 영향이 희석될 수 있다.
예를 들어 어떤 학생이 특정 문제를 동명사에 대한 보기를 선택하면서 틀린 경우와 동사의 시제에 대한 보기를 선택하면서 틀린 경우, 종래의 방식에 따르면 해당 문제의 벡터값 계산에 학생의 풀이 결과는 충분히 반영되지 못하고 실질적으로 희석되게 된다.
따라서 본 발명의 다른 실시예를 따르는 데이터 분석 서버는 수집된 문제 풀이 결과 데이터를 사용자가 선택한 보기 파라미터를 적용하여 확장할 수 있다.
이 경우 데이터 분석 서버는 수집된 풀이 결과 데이터를 사용자, 문제, 선택 보기에 대한 리스트 형태로 구성할 수 있다. 예를 들어 Y (u, i, j)는 사용자 u가 문제 i의 보기 j를 선택한 결과를 의미하며, 선택한 경우 1, 오답인 경우 0의 값이 부여될 수 있다.
단계 120에서 본 발명의 실시예를 따르는 데이터 분석 서버는 사용자와 문제로 구성된 다차원 공간을 구성하고, 사용자가 문제를 맞았는지 틀렸는지를 기준으로 상기 다차원 공간에 값을 부여하여, 각각의 사용자 및 문제에 대한 모델링 벡터를 계산할 수 있다.
이 경우 사용자 모델링 벡터는 개별 사용자의 전체 문제들에 대한 특성을 벡터 값으로 표현한 것이며, 문제 모델링 벡터는 개별 문제의 전체 사용자들에 대한 특성을 벡터 값으로 표현한 것으로 해석될 수 있다. 나아가 상기 사용자 모델링 벡터 및/또는 상기 문제 모델링 벡터를 계산하는 방법은 제한되지 않으며, 이를 계산하기 위해 사용되는 빅데이터 분석 프레임워크에 적용된 종래 기술에 따를 수 있다.
나아가 본 발명에서 상기 사용자 모델링 벡터, 상기 문제 모델링 벡터들이 어떤 속성, 또는 피처를 포함하고 있는지는 제한하여 해석될 수 없음을 유의해야 한다.
예를 들어 본 발명의 실시예를 따르면, 상기 사용자 모델링 벡터는 상기 사용자가 임의의 개념에 대해 이해하고 있는 정도, 즉 개념의 이해도를 포함할 수 있다. 나아가 상기 문제 모델링 벡터는 상기 문제가 어떤 개념들로 구성되어 있는지, 즉 개념 구성도를 포함할 수 있다. 나아가 본 발명의 실시예를 따르면 사용자 모델링 벡터 및 문제 모델링 벡터를 이용하여 특정 사용자의 특정 문제에 대한 정답 확률을 추정할 수 있다.
나아가 본 발명의 실시예를 따르면, 문제의 모델링 과정에서 해당 문제의 선택 보기들에 대한 파라미터를 추가하여, 문제 벡터는 문제-보기 벡터로 확장할 수 있으며, 상기 사용자 모델링 벡터와 상기 문제-보기 모델링 벡터를 이용하여 특정 사용자가 임의의 문제의 특정 보기를 선택할 확률이 계산될 수 있다.
보다 구체적으로, 본 발명의 실시예를 따르는 데이터 분석 서버는 사용자와 문제의 선택 보기로 구성된 다차원 공간을 구성하고 사용자가 해당 보기를 선택했는지를 기준으로 상기 다차원 공간에 값을 부여하여, 각각의 사용자 및 문제 보기에 대한 모델링 벡터를 계산할 수 있다.
본 발명의 실시예를 따라 사용자와 문제를 모델링 벡터로 표현하면, 특정 사용자가 특정 문제를 맞출지 틀릴지, 즉, 특정 사용자의 특정 문제에 대한 정답 확률을 수학적으로 계산할 수 있다.
예를 들어 데이터 분석 서버는 상기 사용자 모델링 벡터 및 상기 문제 모델링 벡터를 이용하여 특정 사용자의 특정 문제에 대한 이해도를 추정하고 상기 이해도를 이용하여 특정 사용자가 특정 문제를 맞출 확률을 추정할 수 있다.
예를 들어 사용자 벡터의 1번째 행의 값이 [0, 0, 1, 0.5, 1] 인 경우, 이는 제 1 사용자가 1, 2번째 개념은 전혀 이해하지 못하고, 3번째 및 5번째 개념은 완벽히 이해하고, 그리고 4번째 개념은 절반만큼 이해한 것으로 해석될 수 있다.
나아가 문제 벡터의 1번째 행의 값이 [0, 0.2, 0.5, 0.3, 0]이라 할 때, 이는 제 1 문제가 1번 개념은 전혀 포함하고 있지 않고, 2번 개념이 20% 정도 포함, 3번 개념이 50% 정도 포함, 4번 개념이 30% 정도 포함된 것으로 해석될 수 있다.
이때 제 1 사용자의 제 1 문제의 이해도를 추정하면, 0x0 + 0x0.2 + 1x0.5 + 0.5x0.5 + 1x0 = 0.75로 계산될 수 있다. 즉, 제 1 사용자는 제 1 문제를 75퍼센트 이해하는 것으로 추정될 수 있다.
그러나 사용자의 특정 문제에 대한 이해도와 특정 문제를 맞출 확률은 동일하다고 할 수 없다. 위의 예에서 제 1 사용자가 제 1 문제를 75 퍼센트 이해한다면 제 1 문제를 실제로 풀었을 때 정답일 확률은 어느 정도인 것인가?
이를 위해 심리학, 인지과학, 교육학 등에서 사용되는 방법론을 도입하여 이해도와 정답률의 관계를 추정할 수 있다. 예를 들어 Reckase 및 McKinely가 고안한 M2PL (multidimensional two-parameter logistic) 잠재적 특성 이론 (Latent Trait Model) 등을 고려하여 이해도와 정답률을 추정할 수 있다.
본 발명은 합리적인 방식으로 이해도와 정답률 관계를 추정할 수 있는 종래 기술을 적용하여 사용자의 문제에 대한 정답 확률을 계산할 수 있으면 족하며, 본 발명은 이해도와 정답률의 관계를 추정하는 방법론에 제한되어 해석될 수 없음을 유의해야 한다.
위와 같은 실시예를 따라 사용자 모델링 벡터와 문제 모델링 벡터를 계산하면, 사용자 모델링 벡터와 문제 모델링 벡터의 관계를 이용하여 사용자 모델링 벡터가 특정 문제의 정답률을 의미하도록 제공될 수 있다.
한편, 본 발명의 또 다른 실시예를 따르면, 사용자의 문제에 대한 정답률은 문제의 보기별 선택 확률을 이용하여 추정할 수도 있다. 예를 들어 제 1 사용자가 특정 문제에 대한 보기 선택 확률이 (0.1, 0.2, 0, 0.7)인 경우, 사용자는 높은 확률로 보기 4번을 선택할 것이고, 해당 문제의 정답이 4번인 경우, 제 1 사용자는 그 문제를 맞을 확률이 높을 것으로 예상할 수 있다.
이때 상기 사용자 모델링 벡터와 상기 문제-보기 모델링 벡터에 다양한 알고리즘을 적용하여 상기 선택률을 추정할 수 있으며, 본 발명을 해석함에 있어 선택률을 계산하기 위한 알고리즘은 제한되지 않는다. 즉, 사용자 모델링 벡터와 문제-보기 모델링 벡터의 관계를 이용하여 사용자 모델링 벡터가 특정 문제의 특정 보기에 대한 선택 확률을 의미하도록 제공될 수 있다
이후 데이터 분석 서버는 전체 사용자 중 외부 시험 점수 데이터가 존재하는 사용자 그룹을 확인할 수 있다. (단계 130) 이는 상기 사용자 그룹의 외부 시험 점수 데이터와 각 사용자 모델링 벡터, 문제-보기 모델링 벡터로부터 구할 수 있는 정답 확률과 관계를 이용하여, 외부 시험 점수 예측 효율이 높은 문제 세트를 구성하기 위한 것이다.
나아가 본 발명의 실시예를 따르는 데이터 분석 서버는, 문제 세트의 성능, 즉 문제 세트가 외부 시험 점수의 예측 효율이 높은지 여부를 검사하거나 또는 상기 문제 세트의 점수를 외부 시험 점수로 변환하는 모델링 함수의 성능을 검사하기 위해 상기 사용자 그룹의 일부를 테스트 그룹으로 분할할 수 있다. (단계 135)
예를 들어 데이터베이스에 속하는 전체 사용자 중, 외부 시험 데이터가 존재하는 사용자가 {A, B, C, D, E, F, G, H} 인 경우, 데이터 분석 서버는 {A, B, C, D, E}를 트레이닝 세트로 구분하고, {F, G, H}를 테스트 세트로 구분할 수 있다.
보다 구체적으로 데이터 분석 서버는 외부 시험 점수 데이터가 존재하는 사용자 그룹을 임의로 두 그룹으로 나누어, 하나의 그룹은 데이터 분석 프레임워크에 상기 문제 세트 및 시험 점수 변환 모델링 함수를 구성하기 위한 데이터를 제공하는 트레이닝 세트로 그룹핑하고, 다른 하나의 그룹은 상기 문제 세트 및 모델링 함수의 성능을 검사하기 위한 데이터를 제공하는 테스트 세트로 그룹핑할 수 있다.
다시 말하면, 외부 시험 점수 데이터가 존재하는 사용자 그룹 중, 상기 트레이닝 세트에 속하는 사용자들의 데이터는 문제 세트 및 시험 점수 변환 모델링 함수 구성에 사용되며, 상기 테스트 세트에 속하는 사용자들의 데이터는 상기 문제 세트 및 시험 점수 변환 모델링 함수의 성능을 검사하는데 사용될 수 있다.
도 1의 단계 135은 임의적인 단계이며, 시스템 구현에 따라 생략되거나 변형될 수 있다. 예를 들어 상기 사용자 그룹에서 복수의 트레이닝 세트를 운영하여 교차 검증의 방법을 통해 문제 세트 및 모델링 함수를 구성할 수 있다. 나아가 상기 사용자 그룹에서 복수의 테스트 세트를 운영하여 테스트 세트의 데이터를 교차 검증하는 방식으로 문제 세트 및 모델링 함수의 성능을 테스트할 수도 있다.
교차 검증의 방법을 이용하여 트레이닝 세트 및 테스트 세트의 데이터를 분석하는 보다 구체적인 방법은 후술된다.
이후, 데이터 분석 서버는 상기 사용자 그룹의 외부 시험 점수 데이터 및 사용자 모델링 벡터를 이용하여 문제 데이터베이스에서 외부 시험 점수 예측 효율이 높은 문제 세트를 구성할 수 있다.
특히 본 발명의 실시예를 따르는 문제 세트는 종래의 모의 고사처럼 외부 시험과 유사한지를 기준으로 구성되는 것이 아니라, 외부 시험 점수에 대한 예측 효율이 높은지를 기준으로 구성되어 문제 개수 및/또는 문제 유형 등이 외부 시험에 종속될 필요가 없는 특징이 있다.
보다 구체적으로 특히 데이터 분석 서버는, 문제 데이터베이스에 포함되는 각각의 문제에 대해, 외부 시험 점수 데이터가 존재하는 사용자 그룹의 모델링 벡터를 이용하여 계산한 정답 확률과 상기 사용자 그룹의 외부 점수 데이터의 관계를 다차원 평면에 표현할 수 있다.
예를 들어 문제 데이터베이스에 포함된 문제가 100문제인 경우, 데이터 분석 서버는 x축을 문제 개수만큼 100개를 생성하고, y 축을 외부 시험 점수로 구성하여 다차원 평면을 생성할 수 있다. 도 2는 상기 다차원 평면을 예시하고 있다.
예를 들어 외부 시험 점수 데이터가 존재하는 사용자 중, 트레이닝 세트에 속하는 사용자가 A, B, C, D, E, 5명인 경우, 데이터 분석 서버는 사용자 A에 대해 미리 계산한 모델링 벡터를 이용하여 제 1 문제의 정답 확률을 계산할 수 있으며, 이를 제 1 x축 (x1)의 x 값으로 설정하고, 사용자 A의 외부 시험 점수를 y 값으로 설정하여 사용자 A의 제 1 평면의 좌표 (210)를 결정할 수 있다.
데이터 분석 서버는 동일한 방식으로 사용자 B 내지 사용자 E의 제 1 평면의 좌표를 결정하여 제 1 문제 (x1)의 외부 시험 점수와의 관계를 도 2에 도시된 다차원 공간 중 x1 평면에 표현할 수 있다.
나아가 데이터 분석 서버는 동일한 방식으로 제 2 문제 내지 제 100 문제에 대한 평면을 형성하고 각각의 문제 평면에 대한 사용자 A 내지 E의 (x, y) 좌표를 결정하여 제 2 문제 내지 제 100 문제의 외부 시험 점수와의 관계를 다차원 공간에 표현할 수 있다.
이 경우, 상기 사용자 그룹의 개별 문제에 대한 추정 정답 확률과 외부 시험 점수는 실질적으로 2차원 평면에 표현될 것이며, 본 발명의 실시예를 따르는 데이터 분석 서버는 2차원 평면에 표현된 값들의 관계를 수학적으로 표현하는 모델링 함수로 변경할 수 있다. (단계 150)
예를 들어, 본 발명의 실시예를 따르는 데이터 분석 서버는, 도 2에서 트레이닝 세트에 속하는 사용자 A, B, C, D, E의 외부 시험 점수 및 사용자 A, B, C, D, E의 사용자 모델링 벡터를 이용하여 계산한 제 1 문제에 대한 정답 확률의 관계를 수학적으로 표현하는 모델링 함수 f1(x1)를 계산할 수 있다.
나아가 제 2 문제 내지 제 100 문제에 대한 데이터를 같은 방식으로 처리하여 모델링 함수 f1(x2) 내지 f1(x100) 구할 수 있다. 이때, f1(x1) 내지 f1(x100)은 동일한 기준에 따라 결정되어야1 한다.
즉, 문제 세트를 구성하기 위해 계산되는 모델링 함수의 형태는 데이터베이스에 속하는 전체 문제에 대해 동일한 형태로 결정되는 것이 적절하다. 예를 들어 제 1 문제의 모델링 함수 f1(x1)가 ax+b 형태의 1차원 함수로 표현되면, 제 2 문제 내지 제 100 문제에 대한 모델링 함수 f1(x2) 내지 f1(x100)의 모델링 함수 역시 1차원 함수 형태로 표현되는 것이 적절할 것이다.
문제 세트는 문제 데이터베이스에 속하는 문제 중, 외부 시험 점수 예측 효율이 높은 문제들로 구성되어 하기 때문에 비교 기준이 동일해야 하기 때문이다.
나아가 본 발명의 실시예를 따르는 모델링 함수는 전체 문제에 대해 동일한 기준이 적용되면, 그 형태는 제한되지 않는다. 즉, 모델링 함수는 트레이닝 세트의 데이터를 표현하기에 최적화된 형태로 작성되면 족하며, 종래 적용되는 다양한 알고리즘에 따라 계산될 수 있다.
각 문제에 대한 모델링 함수가 전체 문제에 대해 동일한 형태로 결정되면, 본 발명의 실시예를 따르는 데이터 분석 서버는 해당 문제의 모델링 함수 및 테스트 세트에 속하는 사용자의 외부 시험 점수의 편차를 이용하여 외부 시험 점수 예측 효율이 높은 문제세트를 구성할 수 있다.
예를 들어 데이터 분석 서버는 테스트 세트에 속하는 사용자 F, G, H의 사용자 모델링 벡터를 이용하여 계산한 제 1 문제 (x1)의 정답 확률을 제 1 문제의 모델링 함수 f(x1)에 적용한 값과 사용자 F, G, H의 외부 시험 점수의 차이값의 평균을 계산하고, 상기 평균값 (e)이 작으면 외부 시험 점수 예측 효율이 높은 것으로 판단할 수 있다.
상기 평균값 e을 구하는 수학식은 아래와 같으며, e는 문제 세트의 외부 시험 점수 추정 효율을 의미할 수 있다. 보다 구체적으로, e 값이 작을수록 해당 문제 세트의 외부 시험 점수 추정 효율이 높은 것으로 해석될 수 있다.
[수학식 1]
e1 = (ㅣyF ? f(x1F)ㅣ + ㅣyG ? f(x1G)ㅣ + ㅣyH ? f(x1HH)ㅣ) / 3
이후 데이터 분석 서버는 동일한 기준에 따라 e2 내지 e100을 계산할 수 있으며, 가장 작은 e를 가지는 문제가 외부 시험 점수 예측 효율이 가장 높은 것으로 판단할 수 있다.
예를 들어 제 4 문제에 대한 e4가 e1, e2, e3, e5 내지 e100 보다 가장 작은 경우, 제 4 문제가 외부 시험 예측 효율이 가장 높은 것으로 판단할 수 있기 때문에 데이터 분석 서버는 제 4 문제를 문제 세트에 최초로 포함시킬 수 있다.
이후 데이터 분석 서버는 제 4 문제와 함께 분석되는 것을 전제로 제 1, 제 2, 제 3 및 제 5 내지 제 100 문제 중에서 외부 시험 예측 효율이 높을 문제를 추출할 수 있다.
이를 위해 본 발명의 실시예를 따르는 데이터 분석 서버는, 도 3과 같이, 제 4 문제에 대한 평면을 고정하고, 나머지 제 1, 제 2, 제 3 및 제 5 내지 제 100 문제에 대한 평면을 형성하여, 트레이닝 세트에 속하는 사용자 A, B, C, D, E의 외부 시험 점수 및 사용자 A, B, C, D, E의 사용자 모델링 벡터를 이용하여 계산한 나머지 제 1, 제 2, 제 3 및 제 5 내지 제 100 문제에 대한 정답 확률의 관계를 수학적으로 표현하는 모델링 함수 f(x4, x1), f(x4, x2), f(x4, x3), f(x4, x5) 내지 f(x4, x100)를 다시 한번 계산할 수 있다. (제 2 모델링 함수)
상기 제 2 모델링 함수값은 제 4 문제와 해당 문제에 대한 외부 시험 점수 추정값으로 해석될 수 있다.
이때, 위의 2차원 모델링 함수 f(x4, x1), f(x4, x2), f(x4, x3), f(x4, x5) 내지 f(x4, x100)들은 제 4 문제만을 가지고 모델링 함수를 구성할 때와 동일한 기준에 따라 결정되어야 할 것이다.
즉, 예를 들어 제 4 문제와 함께 제공되는 제 1 문제의 모델링 함수 f(x4, x1)는 cx4+dx1+e 형태로, 기존의 f(x4)의 ax4+b 와 같이 선형 모델의 기준을 그대로 따르면서 x1의 변수를 추가해 차원만 늘린 2차원 함수로 표현되어야 한다., 제 4 문제와 함께 제공되는 제 2 문제, 제 3 문제, 제 5 문제 내지 제 100 문제에 대한 모델링 함수 f2(x4, x2), f2(x4, x3), f2(x4, x5) 내지 f2(x4, x100)의 모델링 함수 역시 기존의 f(x4)와 동일한 선형 모델이며, 각 문제 x가 변수로 추가된 2차원 함수 형태로 표현되는 것이 적절할 것이다.
제 4 문제가 문제 세트에 포함되는 것을 전제로, 나머지 문제에 대한 2차원모델링 함수가 결정되면, 본 발명의 실시예를 따르는 데이터 분석 서버는 해당 문제들의 2차원 함수 및 테스트 세트에 속하는 사용자의 외부 시험 점수의 편차를 이용하여 외부 시험 점수 예측 효율이 높은 문제세트를 구성할 수 있다.
예를 들어 데이터 분석 서버는 테스트 세트에 속하는 사용자 F, G, H의 사용자 모델링 벡터를 이용하여 계산한 제 1 문제 (x1)의 정답 확률, 제 4 문제 (x4)의 정답 확률을 2차원 모델링 함수 f(x4, x1)에 적용한 값 (이는 제 4 문제와 제 1 문제의 외부 시험 점수 추정값으로 해석될 것이다)과 사용자 F, G, H의 외부 시험 점수의 차이값의 평균을 계산하고, 상기 평균값이 작으면 외부 시험 점수 예측 효율이 높은 것으로 판단할 수 있다. 이를 수학식으로 표현하면 아래와 같다.
[수학식 2]
e4,1 = (ㅣyF ? f(x4F,x1F)ㅣ + ㅣyG ? f(x4F,x1G)ㅣ + ㅣyH ? f(x4H,x1H)ㅣ) / 3
이후 데이터 분석 서버는 동일한 기준에 따라 e4, 2 내지 e4, 100을 계산할 수 있으며, 가장 작은 e를 가지는 문제가 외부 시험 점수 예측 효율이 가장 높은 것으로 판단할 수 있다.
예를 들어 제 1 문제에 대한 e4,1가 e4,2, e4,3, e4,5 내지 e4,100 보다 가장 작은 경우, 제 4 문제와 함께 제공되기에 제 1 문제가 외부 시험 예측 효율이 가장 높은 것으로 판단할 수 있기 때문에 데이터 분석 서버는 제 1 문제를 문제 세트에 포함시킬 수 있다.
이후 데이터 분석 서버는 제 1, 4 문제와 함께 분석되는 것을 전제로 제 제 2, 제 3 및 제 5 내지 제 100 문제 중에서 외부 시험 예측 효율이 높을 문제를 전술한 방법과 같은 논리를 따라 추출할 수 있다.
한편, 이와 같은 방법에 따라 최소한의 e 를 가지는 문제들로 문제 세트를 구성하는 경우, 문제 세트 구성의 완료 시점이 문제될 수 있다. 문제 세트에 포함되는 문제의 개수가 많을수록 추정의 정밀도는 높아질 수 있으나, 문제 세트를 구성하기 위해 개별 문제마다 모델링 함수를 계산하고, 우선 순위를 계산하기 위해 소요되는 리소스 사용량이 증가될 수 있다. 따라서 외부 시험 점수 추정에 최적화된 개수로 문제 세트를 구성하는 것이 효율적이다.
도 4는 본 발명의 실시예를 따라 문제 세트의 업데이트 여부를 결정하는 방법을 설명하기 위한 예시도면 이다.
본 발명의 실시예를 따르면, 테스트 세트에 속하는 사용자들의 모델링 벡터를 이용하여 계산한 문제 세트에 대한 정답 확률을 해당 문제 세트의 모델링 함수에 적용한 값과 테스트 세트에 속하는 사용자들의 외부 시험 점수의 차이값의 평균, 즉, e를 계산하고, 문제 세트의 업데이트에 따르는 e의 변경 추이에 따라 문제 세트 구성 종료 여부를 결정할 수 있다.
도 4의 예는, 문제 세트의 업데이트에 따라 e가 변경되는 예시를 설명하는 그래프이다. 도 4의 410은 문제 세트가 제 4 문제 -> 제 1, 4 문제 -> 제 1, 4, 11 문제 순서로 업데이트된 경우, 문제 세트의 e의 변경 추이를 도시한 그래프의 예시이다.
본 발명의 실시예를 따르는 데이터 분석 서버는 문제 세트의 e의 업데이트 추이를 확인하여 문제 세트 업데이트 종료 여부를 결정할 수 있다. 보다 구체적으로, 문제 세트 업데이트를 종료하는 경우는 크게 두가지를 고려할 수 있다.
첫번째는 해당 시점의 문제 세트로 테스트 그룹에 속하는 사용자들의 외부 시험 점수를 충분히 추정할 수 있을 때이다. 즉, 특정 문제 세트만으로 외부 시험 점수 추정을 충분히 수행할 수 있는 경우이다. 이는 해당 시점의 문제 세트의 e가 임계값 이하인지 여부를 확인하여 판단할 수 있다. (도 4의 430)
두번째는 문제 세트에 다른 문제를 추가한다 하더라도 외부 시험 점수 추정의 효율이 더 이상 높아지지 않는 경우이다. 즉, 문제 추가의 효과가 없는 경우인데, 문제를 추가한다 하더라도 외부 시험의 점수 추정 효율의 변화가 없을 것으로 예상되는 경우이다. 이는 문제 세트의 업데이트에도 불구하고 업데이트 문제 세트의 추정 효율, 즉 e가 변경되지 않고 임의의 범위 내에서 유지되는지 여부를 확인하여 판단할 수 있다. (도 4의 440)
종합하면, 본 발명의 실시예를 따르는 데이터 분석 서버는 문제 세트의 업데이트를 수행하면서, 문제 세트의 외부 시험 점수 추정 효율, 즉, e의 변경 추이를 확인하고, 특정 시점의 문제 세트의 추정 효율이 미리 설정된 임계값을 내려가거나, 상기 추정 효율이 임의의 범위 내에서 유지되는 경우 문제 세트의 업데이트를 종료하고 문제 세트를 구성할 수 있다.
한편, 본 발명의 실시예를 따르는 모델링 함수는 문제 세트에 포함되는 문제들에 대해 동일한 형태인 것을 전제로 다양한 알고리즘에 따라 결정될 수 있다. 그런데 다양한 알고리즘을 적용하여 생성한 다수의 모델링 함수 중, 외부 시험 점수 추정에 가장 효율적인 함수를 선택하는 문제가 해결 과제로 남을 수 있다.
본 발명의 실시예를 따르면, 모델링 함수의 효율성은 e, 즉, 문제 세트의 외부 시험 점수 예측 효율을 이용하여 계산할 수 있다.
예를 들어, 트레이닝 세트 {A, B, C, D, E}에 속하는 사용자의 데이터를 이용하여 제 1 기준에 따라 제 1 모델링 함수 f1가 추출되고, 상기 제 1 모델링 함수를 적용하여 구성한 문제 세트가 {제 3 문제 (x3), 제 4 문제 (x4), 제 5 문제 (x5)}경우를 고려할 수 있다.
나아가 동일한 트레이닝 세트 {A, B, C, D, E}에 속하는 데이터를 이용하여 제 2 기준에 따라 제 2 모델링 함수 f2가 추출되고, 상기 제 2 모델링 함수를 적용하여 구성한 문제 세트가 {제 1 문제 (x1), 제 3 문제 (x3), 제 5 문제 (x5)} 인 경우를 고려할 수 있다.
위의 예에서 본 발명의 실시예를 따르는 데이터 분석 서버는 테스트 세트 {F, G, H}의 데이터를 이용하여 각 문제 세트 및 각 모델링 함수의 e, 즉 문제 세트의 외부 시험 점수 예측 효율을 계산하고 더 작은 e 값을 가지는 모델링 함수를 선택할 수 있다.
보다 구체적으로, 먼저 데이터 분석 서버는 테스트 세트에 속하는 사용자 F, G, H의 사용자 모델링 벡터를 이용하여 제 1 문제 세트인 {제 3 문제 (x3), 제 4 문제 (x4), 제 5 문제 (x5)} 의 정답 확률을 제 1 모델링 함수 f1에 적용한 값과 사용자 F, G, H의 외부 시험 점수의 차이값의 평균, 즉 제 1 모델링 함수에 대한 e1을 계산할 수 있다.
이후 데이터 분석 서버는 테스트 세트에 속하는 F, G, H의 사용자 모델링 벡터를 이용하여 제 2 문제 {제 1 문제 (x1), 제 3 문제 (x3), 제 5 문제 (x5)} 의 정답 확률을 제 2 모델링 함수 f2에 적용한 값과 사용자 F, G, H의 외부 시험 점수의 차이값의 평균, 즉 제 2 모델링 함수에 대한 e2을 계산할 수 있다.
이후 데이터 분석 서버는 더 작은 e 값을 가지는 모델링 함수 및 문제 세트를 선택하여, 사용자의 외부 시험 점수를 추정하는 이후의 절차를 진행할 수 있다.
다시 도 1에 대한 설명으로 복귀하면, 외부 시험 점수 예측 효율이 높은 문제 세트가 구성되고, 해당 문제 세트에 대해 사용자 모델링 벡터를 이용하여 추정한 각 문제들의 정답 확률을를 외부 시험 점수 추정 값으로 변환하기 위한 모델링 함수가 결정되면, 본 발명의 실시예를 따르는 데이터 분석 서버는 문제 세트 및 모델링 함수를 이용하여 외부 시험 점수 데이터가 존재하지 않는 다른 사용자들의 상기 문제 세트에 대한 점수를 추정할 수 있다. (단계 170)
보다 구체적으로, 외부 시험 점수 데이터가 존재하지 않는 다른 사용자들에 대해, 단계 120에서 사용자 모델링 벡터가 충분한 신뢰도로 계산된 경우, (단계 160) 상기 사용자 모델링 벡터를 이용하면 문제 세트에 포함된 문제들에 대한 정답 확률을 예측할 수 있으며, (단계 170) 예측된 정답 확률을 미리 결정된 모델링 함수에 적용하면 정답 확률을 외부 시험 점수로 변환할 수 있다. (단계 180)
그러나 외부 시험 점수 데이터가 존재하지 않는 다른 사용자들이 단계 120에서 사용자 모델링 벡터가 충분한 신뢰도로 계산되지 않는 경우, (단계 160) 먼저 해당 사용자 모델링 벡터가 생성될 필요가 있다. 이 경우, 본 발명의 실시예를 따르는 데이터 분석 서버는 사용자 모델링 벡터를 생성하기 위한 진단 문제를 제공하며 (단계 163) 상기 진단 문제의 풀이 결과 데이터를 수집하여 사용자 모델링 벡터를 생성하는 단계를 추가할 필요가 있다. (단계 167)
이후 사용자 모델링 벡터가 충분한 신뢰도로 생성되면, 데이터 분석 서버는 상기 사용자 모델링 벡터를 이용하여 문제 세트에 포함된 문제들에 대한 정답 확률을할 수 있으며, (단계 170) 예측된 점수를 미리 결정된 모델링 함수에 적용하면 정답 확률을 외부 시험 점수로 변환할 수 있다. (단계 180)
본 명세서와 도면에 게시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 게시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.
Claims (5)
- 데이터 분석 프레임워크에서, 데이터 분석 서버가 외부 시험 문제에 대한 사용자의 예상 점수를 추정하는 방법에 있어서,
복수의 문제를 포함하는 문제 데이터베이스를 구성하고, 상기 문제에 대한 사용자의 풀이 결과 데이터를 수집하고, 상기 풀이 결과 데이터를 상기 데이터 분석 프레임워크에 적용하여 상기 문제에 대한 사용자 각각의 특성을 설명하는 사용자 모델링 벡터 및 상기 사용자에 대한 문제 각각의 특성을 설명하는 문제 모델링 벡터를 계산하는 a 단계;
상기 사용자 중, 상기 문제 데이터베이스를 이용하지 않고 출제된 외부 시험 점수 데이터가 존재하는 사용자 그룹을 확인하는 b 단계;
상기 사용자 그룹의 외부 시험 점수 데이터를 이용하여 상기 사용자 그룹의 상기 문제에 대한 정답 확률과 상기 외부 시험 점수와의 관계를 나타내는 모델링 함수를 상기 문제 별로 계산하는 c 단계; 및
상기 사용자 그룹에 속하지 않는 사용자의 모델링 벡터를 이용하여, 상기 문제에 대한 정답 확률을 추정하고, 상기 모델링 함수를 이용하여 상기 문제에 대한 정답 확률을 외부 시험 점수로 변환하는 d 단계를 포함하는 예상 점수 추정 방법. - 제 1항에 있어서, 상기 d 단계는,
상기 사용자 그룹에 속하지 않는 사용자의 모델링 벡터의 신뢰도가 미리 설정된 값 이하인 경우, 상기 사용자에게 진단 문제를 제공하고, 상기 진단 문제에 대한 풀이 결과 데이터를 수집하여 상기 사용자의 모델링 벡터를 업데이트하는 단계를 포함하는 것을 특징으로 하는 예상 점수 추정 방법. - 제 1항에 있어서, 상기 c 단계는,
상기 문제 데이터베이스에 포함되는 각각의 문제에 대해, 상기 사용자 그룹의 모델링 벡터를 이용하여 계산한 정답 확률과 상기 사용자 그룹의 상기 외부 시험 점수 데이터의 관계를 다차원 평면에 표현하고, 상기 다차원 평면에 표현된 데이터를 설명하기 위한 상기 모델링 함수를 상기 문제 별로 생성하는 단계; 및
상기 정답 확률을 상기 모델링 함수에 적용한 값과 상기 외부 시험 점수의 차이가 미리 설정된 임계값 이내인 문제로 문제 세트를 구성하는 단계를 포함하는 예상 점수 추정 방법. - 제 3항에 있어서, 상기 c 단계는,
상기 사용자 그룹을 상기 모델링 함수 및 상기 문제 세트를 구성하기 위한 데이터를 제공하는 트레이닝 세트와 상기 모델링 함수 및 상기 문제 세트의 외부 시험 점수 추정 효율을 평가하기 위한 데이터를 제공하는 테스트 세트로 구분하는 단계;
상기 트레이닝 세트에 속하는 사용자들의 외부 시험 점수 데이터 및 상기 사용자들의 사용자 모델링 벡터를 이용하여 임의의 기준에 따라 제 1 모델링 함수 및 제 1 문제 세트를 생성하고, 다른 기준에 따라 제 2 모델링 함수 및 제 2 문제 세트를 생성하는 단계;
상기 테스트 세트에 속하는 사용자들의 사용자 모델링 벡터를 이용하여 상기 제 1 문제 세트에 속하는 문제들의 정답 확률을 상기 제 1 모델링 함수에 적용한 값과 상기 사용자들의 외부 시험 점수 데이터의 차이의 평균, e1을 계산하는 단계;
상기 사용자들의 사용자 모델링 벡터를 이용하여 상기 제 2 문제 세트에 속하는 문제들의 정답 확률을 상기 제 2 모델링 함수에 적용한 값과 상기 사용자들의 외부 시험 점수 데이터의 차이의 평균, e2을 계산하는 단계; 및
상기 e1 및 상기 e2 중 적은 값을 가지는 모델링 함수 및 문제 세트를 선택하여, 상기 사용자 그룹에 속하지 않는 다른 사용자의 외부 시험 점수를 추정하는 단계를 포함하는 것을 특징으로 하는 예상 점수 추정 방법. - 데이터 분석 프레임워크에서, 데이터 분석 서버가 외부 시험 문제에 대한 사용자의 예상 점수를 추정하는 방법에 있어서,
복수의 문제를 포함하는 문제 데이터베이스를 구성하고, 상기 문제에 대한 사용자의 풀이 결과 데이터를 수집하고, 상기 풀이 결과 데이터를 상기 데이터 분석 프레임워크에 적용하여 상기 문제에 대한 사용자 각각의 특성을 설명하는 사용자 모델링 벡터 및 상기 사용자에 대한 문제 각각의 특성을 설명하는 문제 모델링 벡터를 계산하는 a 단계;
상기 사용자 중, 상기 문제 데이터베이스를 이용하지 않고 출제된 외부 시험 점수 데이터가 존재하는 사용자 그룹의 외부 시험 점수 데이터를 제1 축으로 하고, 상기 문제 데이터베이스에 속하는 문제들 각각에 대한 상기 사용자 그룹의 정답 확률을 제2 축으로 하는 복수의 평면을 생성하고, 상기 사용자 그룹의 좌표 값을 설명하기 위한 모델링 함수를 상기 복수의 평면 별로 동일한 기준으로 계산하는 b단계; 및
상기 모델링 함수를 이용하여, 상기 문제 데이터베이스에서 상기 외부 시험 점수 예측 효율이 다른 문제보다 상대적으로 높은 n개의 문제로(상기 n은 자연수) 문제 세트를 구성하는 c 단계를 포함하는 것을 특징으로 하는 예상 점수 추정 방법.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170143774A KR101895961B1 (ko) | 2017-10-31 | 2017-10-31 | 점수 추정 방법, 장치 및 컴퓨터 프로그램 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020170143774A KR101895961B1 (ko) | 2017-10-31 | 2017-10-31 | 점수 추정 방법, 장치 및 컴퓨터 프로그램 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR101895961B1 true KR101895961B1 (ko) | 2018-09-06 |
Family
ID=63593714
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020170143774A KR101895961B1 (ko) | 2017-10-31 | 2017-10-31 | 점수 추정 방법, 장치 및 컴퓨터 프로그램 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101895961B1 (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102096301B1 (ko) | 2019-04-03 | 2020-04-02 | (주)뤼이드 | 액티브 러닝 기법을 적용한 머신 러닝 프레임워크 운용 방법, 장치 및 컴퓨터 프로그램 |
CN112131106A (zh) * | 2020-09-16 | 2020-12-25 | 电信科学技术第十研究所有限公司 | 基于小概率数据的测试数据构造方法及装置 |
KR102411190B1 (ko) * | 2021-10-08 | 2022-06-22 | (주)뤼이드 | 다중과제 학습에 근거하는 전체론적 학생 평가 프레임워크 |
WO2022149758A1 (ko) * | 2021-01-11 | 2022-07-14 | (주)뤼이드 | 풀이 경험이 없는 추가된 문제 컨텐츠에 대한 예측된 정답 확률을 기초로, 문제를 평가하는 학습 컨텐츠 평가 장치, 시스템 및 그것의 동작 방법 |
KR102541689B1 (ko) * | 2022-06-28 | 2023-06-13 | 주식회사 튜링 | 문제의 정답률을 보정하는 기법 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010070616A (ko) * | 2000-07-25 | 2001-07-27 | 박종성 | 문항반응이론을 이용한 온라인 자격 및 인증시험 서비스시스템 및 방법 |
JP2009288486A (ja) * | 2008-05-29 | 2009-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 教材提示装置、教材提示方法、教材提示プログラムおよびそのプログラムを記録した記録媒体 |
KR20160009155A (ko) * | 2014-07-15 | 2016-01-26 | 한양대학교 산학협력단 | 효과적인 학습 독려와 가이드 및 학습 전략 수립 서비스 제공을 위한 스마트 개인화 학습 가이드 방법 및 시스템 |
KR101592220B1 (ko) * | 2015-03-26 | 2016-02-11 | 단국대학교 산학협력단 | 예측적 군집화 기반 협업 필터링 장치 및 방법 |
-
2017
- 2017-10-31 KR KR1020170143774A patent/KR101895961B1/ko active IP Right Grant
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20010070616A (ko) * | 2000-07-25 | 2001-07-27 | 박종성 | 문항반응이론을 이용한 온라인 자격 및 인증시험 서비스시스템 및 방법 |
JP2009288486A (ja) * | 2008-05-29 | 2009-12-10 | Nippon Telegr & Teleph Corp <Ntt> | 教材提示装置、教材提示方法、教材提示プログラムおよびそのプログラムを記録した記録媒体 |
KR20160009155A (ko) * | 2014-07-15 | 2016-01-26 | 한양대학교 산학협력단 | 효과적인 학습 독려와 가이드 및 학습 전략 수립 서비스 제공을 위한 스마트 개인화 학습 가이드 방법 및 시스템 |
KR101592220B1 (ko) * | 2015-03-26 | 2016-02-11 | 단국대학교 산학협력단 | 예측적 군집화 기반 협업 필터링 장치 및 방법 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102096301B1 (ko) | 2019-04-03 | 2020-04-02 | (주)뤼이드 | 액티브 러닝 기법을 적용한 머신 러닝 프레임워크 운용 방법, 장치 및 컴퓨터 프로그램 |
WO2020204468A1 (ko) * | 2019-04-03 | 2020-10-08 | (주)뤼이드 | 액티브 러닝 기법을 적용한 머신 러닝 프레임워크 운용 방법, 장치 및 컴퓨터 프로그램 |
CN112131106A (zh) * | 2020-09-16 | 2020-12-25 | 电信科学技术第十研究所有限公司 | 基于小概率数据的测试数据构造方法及装置 |
CN112131106B (zh) * | 2020-09-16 | 2023-02-21 | 电信科学技术第十研究所有限公司 | 基于小概率数据的测试数据构造方法及装置 |
WO2022149758A1 (ko) * | 2021-01-11 | 2022-07-14 | (주)뤼이드 | 풀이 경험이 없는 추가된 문제 컨텐츠에 대한 예측된 정답 확률을 기초로, 문제를 평가하는 학습 컨텐츠 평가 장치, 시스템 및 그것의 동작 방법 |
KR102411190B1 (ko) * | 2021-10-08 | 2022-06-22 | (주)뤼이드 | 다중과제 학습에 근거하는 전체론적 학생 평가 프레임워크 |
KR102541689B1 (ko) * | 2022-06-28 | 2023-06-13 | 주식회사 튜링 | 문제의 정답률을 보정하는 기법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101895961B1 (ko) | 점수 추정 방법, 장치 및 컴퓨터 프로그램 | |
JP6960688B2 (ja) | 学習効率に基づいて個人カスタマイズ型教育コンテンツを提供するための機械学習方法、装置及びコンピュータプログラム | |
US20210233191A1 (en) | Method, apparatus and computer program for operating a machine learning framework with active learning technique | |
KR101642577B1 (ko) | 효과적인 학습 독려와 가이드 및 학습 전략 수립 서비스 제공을 위한 스마트 개인화 학습 가이드 방법 및 시스템 | |
JP6814492B2 (ja) | 試験点数を推定する方法、装置及びコンピュータプログラム | |
JP6625585B2 (ja) | 機械学習フレームワークを運用する方法、装置、及びコンピュータプログラム | |
KR20180127266A (ko) | 점수 추정 방법, 장치 및 컴퓨터 프로그램 | |
KR101285217B1 (ko) | 큐벡터를 이용한 문항출제 시스템 및 방법 | |
JP6879526B2 (ja) | データを分析する方法 | |
Intisar et al. | Classification of online judge programmers based on rule extraction from self organizing feature map | |
KR20190025873A (ko) | 교육 컨텐츠를 제공하는 방법, 장치 및 컴퓨터 프로그램 | |
KR102075936B1 (ko) | 학습 효율을 기반으로 개인 맞춤형 교육 컨텐츠를 제공하기 위한 기계학습 방법, 장치 및 컴퓨터 프로그램 | |
Güss et al. | Strategies, tactics, and errors in dynamic decision making in an Asian sample | |
KR101836206B1 (ko) | 개인 맞춤형 교육 컨텐츠를 제공하는 방법, 장치 및 컴퓨터 프로그램 | |
Contreas-Bravo et al. | Prediction of University-Level Academic Performance through Machine Learning Mechanisms and Supervised Methods | |
KR20190025871A (ko) | 사용자 맞춤형 컨텐츠를 제공하기 위한 방법, 장치 및 컴퓨터 프로그램 | |
KR101895963B1 (ko) | 신규 사용자를 분석하는 방법 | |
KR20190049627A (ko) | 기계학습 프레임워크의 분석 결과를 해석하는 방법, 장치 및 컴퓨터 프로그램 | |
KR20190004377A (ko) | 점수 추정 방법, 장치 및 컴퓨터 프로그램 | |
KR101996249B1 (ko) | 개인 맞춤형 교육 컨텐츠를 제공하기 위한 기계학습 프레임워크 운용 방법, 장치 및 컴퓨터 프로그램 | |
JP2017207691A (ja) | 択一問題の正答率予測方法 | |
JP6541849B1 (ja) | 出題傾向予測システムおよび出題傾向予測方法 | |
Gihar | Research Paradigms: Qualitative, Quantitative and Mixed Method | |
Kardan | A data mining approach for adding adaptive interventions to exploratory learning environments | |
Miao et al. | Research on application of deep neural network model in college English skill training system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A107 | Divisional application of patent | ||
GRNT | Written decision to grant |