KR101895963B1

KR101895963B1 - 신규 사용자를 분석하는 방법

Info

Publication number: KR101895963B1
Application number: KR1020170143772A
Authority: KR
Inventors: 차영민; 신동민; 허재위; 장영준
Original assignee: (주)뤼이드
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2018-10-04

Abstract

본 발명은 데이터 분석 프레임워크의 신규 사용자에 대한 진단용 문제 세트를 구성하는 방법에 대한 것으로, 복수의 문제를 포함하는 문제 데이터베이스를 구성하고, 상기 문제에 대한 사용자의 풀이 결과 데이터를 수집하고, 상기 풀이 결과 데이터를 상기 데이터 분석 프레임워크에 적용하여 상기 문제에 대한 사용자 각각의 특성을 설명하는 사용자 모델링 벡터를 계산하는 단계; 상기 문제 데이터베이스에서 구성한 진단 문제 세트에 대한 풀이 결과 데이터가 존재하는 사용자 그룹에서, 상기 진단 문제 세트만 푼 것으로 가정하고 계산한 제 1 가상 사용자 모델링 벡터를 계산하는 단계; 상기 진단 문제 세트에 포함되지 않는 적어도 하나 이상의 진단 문제 후보를 상기 문제 데이터베이스로부터 추출하고, 상기 진단 문제 세트 및 상기 진단 문제 후보에 대한 풀이 결과 데이터가 존재하는 사용자 그룹에서, 상기 진단 문제 세트 및 상기 진단 문제 후보만 푼 것으로 가정하고 계산한 제 2 가상 사용자 모델링 벡터를 계산하는 단계; 상기 제 1 가상 사용자 모델링 벡터와 상기 제 2 가상 사용자 모델링 벡터의 차이가 가장 큰 진단 문제 후보를 추가 진단 문제로 결정하는 단계를 포함하는 것을 특징으로 한다.

Description

신규 사용자를 분석하는 방법{METHOD FOR ANALYSIS OF NEW USERS}

본 발명은 데이터 분석 프레임워크를 이용하여 사용자 맞춤형 컨텐츠를 제공하는 방법에 대한 것이다. 보다 구체적으로 본 발명은 신규 사용자 분석에 최적화된 진단용 문제 세트를 추출하는 방법 및 장치에 대한 것이다.

지금까지 교육 컨텐츠는 일반적으로 패키지로 제공되어 왔다. 예를 들어 종이에 기록되는 문제집은 권당 최소 700문제가 수록되어 있으며, 온라인 또는 오프라인 강의 역시 1-2 시간 단위로 최소 한달간 공부할 양을 묶어서 한번에 판매된다.

그러나 교육을 받는 학생들 입장에서는 개별적으로 취약한 단원과 취약한 문제 유형이 모두 상이하기 때문에 패키지 형태보다는 개인 맞춤형 컨텐츠에 대한 니즈가 존재한다. 자신이 취약한 단원의 취약한 문제 유형만을 골라서 학습하는 것이 문제집의 7백 문제 전체를 푸는 것보다 훨씬 효율적이기 때문이다.

그러나 피교육자인 학생들 스스로 자신의 취약점을 파악하는 것은 매우 어렵다. 나아가 학원, 출판사 등 종래의 교육 업계에서도 주관적 경험과 직관에 의존하여 학생 및 문제들을 분석하기 때문에 개별 학생들에게 최적화된 문제를 제공하는 것을 쉽지 않다.

이와 같이 종래의 교육 환경에서는 피교육자가 가장 효율적으로 학습 결과를 낼 수 있는 개인 맞춤형 컨텐츠를 제공하는 것이 쉽지 않으며, 학생들은 패키지 형태의 교육 컨텐츠에 대해 성취감과 흥미를 금방 잃게 되는 문제가 발생한다. 이러한 문제를 해결하기 위하여 한국공개특허 제10-2000-0030514호(발명의 명칭: 인터넷을 이용한 맞춤 학습시스템 및 맞춤 학습 방법, 공개일: 2000.06.05)과 같은 기술이 개시된 바 있으나, 이러한 기술은 주관적으로 설정된 문제 난이도에 기반하므로, 사용자의 특성을 구체적으로 반영하지는 못한다는 문제가 있었다.

본 발명은 상기와 같은 문제를 해결하는 것을 목적으로 한다. 보다 구체적으로 본 발명은, 신규 사용자 분석을 위해 필요한 샘플 데이터를 효율적으로 추출하는 방법을 제공하는 것을 목적으로 한다.

본 발명의 실시예를 따르는 데이터 분석 프레임워크의 신규 사용자에 대한 진단용 문제 세트를 구성하는 방법은, 복수의 문제를 포함하는 문제 데이터베이스를 구성하고, 상기 문제에 대한 사용자의 풀이 결과 데이터를 수집하고, 상기 풀이 결과 데이터를 상기 데이터 분석 프레임워크에 적용하여 상기 문제에 대한 사용자 각각의 특성을 설명하는 사용자 모델링 벡터를 계산하는 단계; 상기 문제 데이터베이스에서 구성한 진단 문제 세트에 대한 풀이 결과 데이터가 존재하는 사용자 그룹에서, 상기 진단 문제 세트만 푼 것으로 가정하고 계산한 제 1 가상 사용자 모델링 벡터를 계산하는 단계; 상기 진단 문제 세트에 포함되지 않는 적어도 하나 이상의 진단 문제 후보를 상기 문제 데이터베이스로부터 추출하고, 상기 진단 문제 세트 및 상기 진단 문제 후보에 대한 풀이 결과 데이터가 존재하는 사용자 그룹에서, 상기 진단 문제 세트 및 상기 진단 문제 후보만 푼 것으로 가정하고 계산한 제 2 가상 사용자 모델링 벡터를 계산하는 단계; 상기 제 1 가상 사용자 모델링 벡터와 상기 제 2 가상 사용자 모델링 벡터의 차이가 가장 큰 진단 문제 후보를 추가 진단 문제로 결정하는 단계를 포함하는 것을 특징으로 한다.

본 발명에 따르면, 새로 유입된 사용자 분석을 위해 필요한 최적화된 진단용 문제 세트를 구성할 수 있는 효과가 있다.

도 1은 본 발명의 실시예를 따르는 데이터 분석 프레임워크에서 신규 사용자에 대한 진단용 문제 세트를 구성하는 방법을 설명하기 위한 순서도
도 2는 본 발명의 실시예를 따르는 데이터 분석 프레임워크에서 진단용 문제 세트를 신규 사용자에 따라 동적으로 구성하는 방법을 설명하기 위한 순서도
도 3은 본 발명의 실시예를 따르는 데이터 분석 프레임워크에서 신규 사용자 맞춤형 진단용 문제 세트를 구성하는 방법을 설명하기 위한 순서도

본 발명은 이하에 기재되는 실시예들의 설명 내용에 한정되는 것은 아니며, 본 발명의 기술적 요지를 벗어나지 않는 범위 내에서 다양한 변형이 가해질 수 있음은 자명하다. 그리고 실시예를 설명함에 있어서 본 발명이 속하는 기술 분야에 널리 알려져 있고 본 발명의 기술적 요지와 직접적으로 관련이 없는 기술 내용에 대해서는 설명을 생략한다.

한편, 첨부된 도면에서 동일한 구성요소는 동일한 부호로 표현된다. 그리고 첨부 도면에 있어서 일부 구성요소는 과장되거나 생략되거나 개략적으로 도시될 수도 있다. 이는 본 발명의 요지와 관련이 없는 불필요한 설명을 생략함으로써 본 발명의 요지를 명확히 설명하기 위함이다.

최근 IT 디바이스의 보급이 확대되면서, 사용자 분석을 위한 데이터 수집이 용이해지고 있다. 사용자 데이터를 충분히 수집할 수 있으면, 사용자의 분석이 보다 정밀해지고 해당 사용자에게 가장 적합한 형태의 컨텐츠를 제공할 수 있다.

이러한 흐름과 함께 특히 교육 업계에서 사용자 맞춤형 교육 컨텐츠 제공에 대한 니즈가 높다. 그런데 이와 같이 사용자 맞춤형 교육 컨텐츠를 제공하기 위해서는 각각의 컨텐츠 및 사용자 개개인에 대한 정밀한 분석이 필요하다.

종래에는 컨텐츠와 사용자를 분석하기 위해 해당 과목의 개념들을 전문가에 의해 수작업으로 정의하고 해당 과목에 대한 각 문제가 어떤 개념을 포함하고 있는지 전문가가 개별적으로 판단하여 태깅하는 방식을 따랐다. 이후 각 사용자가 특정 개념에 대해 태깅된 문제들을 풀어본 결과 정보를 토대로 학습자의 실력을 분석하는 것이다.

그러나 이와 같은 방법은 태그 정보가 사람의 주관에 의존하는 문제점이 있었다. 사람의 주관이 개입되지 않고 수학적으로 생성된 태그 정보들이 문제의 개념 포함도에 따라 부여되는 것이 아니기 때문에 결과 데이터에 대한 신뢰도가 높을 수 없는 문제가 있었다.

따라서 본 발명은 학습 데이터 처리 과정에 사람의 개입을 배제하기 위하여 빅데이터 처리 및 기계 학습을 위한 데이터 분석 프레임워크를 적용하고, 상기 데이터 분석 프레임워크를 통해 사용자 및/또는 문제를 분석하는 방법을 제공하는 것을 목적으로 한다.

이에 따르면, 사용자의 문제 풀이 결과 로그를 수집하고, 사용자 및/또는 문제로 구성된 다차원 공간을 구성하고, 사용자의 문제별 정답 여부 또는 문제의 보기별 선택 여부를 기준으로 상기 다차원 공간에 값을 부여하여, 각각의 사용자 및 문제에 대한 벡터를 계산하는 방식으로 사용자 및/또는 문제를 모델링하고 사용자 모델링 벡터 및 문제 모델링 벡터를 계산할 수 있다.

이 경우 사용자 모델링 벡터는 개별 사용자의 전체 문제들에 대한 특성을 벡터 값으로 표현한 것이며, 문제 모델링 벡터는 개별 문제의 전체 사용자들에 대한 특성을 벡터 값으로 표현한 것으로 해석될 수 있다. 나아가 상기 사용자 모델링 벡터 및/또는 상기 문제 모델링 벡터를 계산하는 방법은 제한되지 않으며, 이를 계산하기 위해 사용되는 빅데이터 분석 프레임워크에 적용된 종래 기술에 따를 수 있다.

나아가 본 발명에서 상기 사용자 모델링 벡터, 상기 문제 모델링 벡터들이 어떤 속성, 또는 피처를 포함하고 있는지는 제한하여 해석될 수 없음을 유의해야 한다.

예를 들어 본 발명의 실시예를 따르면, 상기 사용자 모델링 벡터는 상기 사용자가 임의의 개념에 대해 이해하고 있는 정도, 즉 개념의 이해도를 포함할 수 있다. 나아가 상기 문제 모델링 벡터는 상기 문제가 어떤 개념들로 구성되어 있는지, 즉 개념 구성도를 포함할 수 있다. 나아가 본 발명의 실시예를 따르면 사용자 모델링 벡터 및 문제 모델링 벡터를 이용하여 특정 사용자의 특정 문제에 대한 정답 확률을 추정할 수 있다.

나아가 본 발명의 실시예를 따르면, 문제의 모델링 과정에서 해당 문제의 선택 보기들에 대한 파라미터를 추가하여, 문제 벡터는 문제-보기 벡터로 확장할 수 있으며, 상기 사용자 모델링 벡터와 상기 문제-보기 모델링 벡터를 이용하여 특정 사용자가 임의의 문제의 특정 보기를 선택할 확률이 계산될 수 있다.

그런데 데이터분석 프레임워크를 이용하여 사용자와 문제를 수학적으로 모델링하기 위해서는 새로운 사용자나 문제가 추가되는 경우의 처리를 고려해야 한다.

신규 유입된 사용자나 문제의 경우, 해당 사용자나 문제에 대한 데이터가 축적되기 전에는 분석 결과를 제공할 수 없다. 따라서 데이터 분석 프레임워크에서 초기 분석 결과를 임의의 신뢰도로 도출하기 위해 신규 사용자 또는 신규 문제에 대한 학습 결과 데이터를 효율적으로 수집할 필요가 있다.

나아가 신규 사용자를 분석하기 위해 필요한 풀이 결과 데이터를 수집하기 위해, 초기 분석을 위한 진단 문제 세트를 구성하는 문제가 해결되어야 한다.

문제 풀이 결과 데이터가 축적되지 않은 신규 사용자에게는 신뢰도 있는 분석 결과를 제공할 수 없기 때문에 신규 사용자는 진단용 문제를 풀어야 하고 진단용 문제는 많을수록 보다 정밀한 분석이 가능하다. 그러나 사용자 입장에서는 진단 문제를 조금만 풀어도 신뢰성 있는 분석 결과를 제공받기를 바랄 것이다.

따라서 사용자 분석 결과의 신뢰도가 임의의 범위 이상 확보될 수 있는 최소한의 문제로 진단용 문제를 구성할 필요가 있다.

본 발명은 상기와 같은 문제를 해결하기 위한 것이다.

본 발명의 실시예를 따르면, 새로 유입된 사용자를 분석하기 위한 진단용 문제를 효율적으로 추출할 수 있다. 보다 구체적으로, 본 발명의 실시예를 따르면 데이터 분석 시스템의 문제 데이터베이스의 풀이 결과 데이터가 존재하지 않은 신규 사용자의 초기 벡터 값을 임의의 신뢰도로 계산하기 위해 신규 사용자가 풀어야 할 문제 세트를 효율적으로 추출할 수 있다.

본 발명의 실시예를 따르면 사용자 진단을 위한 문제 세트가 효율적으로 구성될 수 있어, 사용자가 해당 시스템에서 많은 문제를 풀어보지 않고서 신뢰성 있는 분석 결과를 제공할 수 있는 효과가 있다.

나아가 본 발명의 다른 실시예를 따르면, 사용자 진단을 위한 문제 세트가 신규 사용자 맞춤형으로 제공될 수 있어, 해당 신규 사용자 진단을 위해 최적화된 개수의 진단 문제를 구성할 수 있다.

도 1은 본 발명의 실시예를 따라 신규 사용자 진단용 문제 세트를 구성하는 방법을 설명하기 위한 순서도이다.

단계 110 및 단계 120는 데이터 분석 시스템에서 신규 사용자 진단용 문제 세트를 추출하기 위한 전제가 되는 단계이다.

본 발명의 실시예를 따르면 단계 110에서 전체 문제와 전체 사용자에 대해 풀이 결과 데이터가 수집될 수 있다.

보다 구체적으로, 데이터 분석 서버는 문제 데이터베이스를 구성하고, 상기 문제 데이터베이스에 속하는 전체 문제들에 대한 전체 사용자의 풀이 결과 데이터를 수집할 수 있다.

예를 들어 데이터 분석 서버는 시중에 나와 있는 각종 문제들에 대한 데이터베이스를 구축하고, 사용자 디바이스에 문제 데이터베이스를 제공하고, 상기 사용자 디바이스를 통해 사용자가 해당 문제들을 풀이한 결과를 수집하는 방식으로 풀이 결과 데이터를 수집할 수 있다. 상기 문제 데이터베이스는 듣기 평가 문제를 포함하고, 텍스트, 이미지, 오디오, 및/또는 동영상 형태일 수 있다.

나아가 데이터 분석 서버는 수집된 문제 풀이 결과 데이터를 사용자, 문제, 결과에 대한 리스트 형태로 구성할 수 있다. 예를 들어 Y (u, i)는 사용자 u가 문제 i를 푼 결과를 의미하며, 정답인 경우 1, 오답인 경우 0의 값이 부여될 수 있다.

그런데 객관식 문제는 지문뿐만 아니라 보기 요소가 포함되어 구성되는데, 분석의 소스로 정오답 여부만을 반영하는 경우, 두 학생이 같은 문제를 틀렸으나 다른 선택지를 골랐을 경우, 두 학생의 벡터값 계산에 해당 문제가 미치는 영향이 동일하여 해당 문제가 분석 결과에 미치는 영향이 희석될 수 있다.

예를 들어 어떤 학생이 특정 문제를 동명사에 대한 보기를 선택하면서 틀린 경우와 동사의 시제에 대한 보기를 선택하면서 틀린 경우, 종래의 방식에 따르면 해당 문제의 벡터값 계산에 학생의 풀이 결과는 충분히 반영되지 못하고 실질적으로 희석되게 된다.

따라서 본 발명의 다른 실시예를 따르는 데이터 분석 서버는 수집된 문제 풀이 결과 데이터를 사용자가 선택한 보기 파라미터를 적용하여 확장할 수 있다.

이 경우 데이터 분석 서버는 수집된 풀이 결과 데이터를 사용자, 문제, 선택 보기에 대한 리스트 형태로 구성할 수 있다. 예를 들어 Y (u, i, j)는 사용자 u가 문제 i의 보기 j를 선택한 결과를 의미하며, 선택한 경우 1, 오답인 경우 0의 값이 부여될 수 있다.

단계 120에서 본 발명의 실시예를 따르는 데이터 분석 서버는 사용자와 문제로 구성된 다차원 공간을 구성하고, 사용자가 문제를 맞았는지 틀렸는지를 기준으로 상기 다차원 공간에 값을 부여하여, 각각의 사용자 및 문제에 대한 모델링 벡터를 계산할 수 있다.

또 다른 예로 본 발명의 실시예를 따르는 데이터 분석 서버는 사용자와 문제의 선택 보기로 구성된 다차원 공간을 구성하고 사용자가 해당 보기를 선택했는지를 기준으로 상기 다차원 공간에 값을 부여하여, 각각의 사용자 및 문제 보기에 대한 모델링 벡터를 계산할 수 있다.

본 발명의 실시예를 따라 사용자와 문제를 모델링 벡터로 표현하면, 특정 사용자가 특정 문제를 맞출지 틀릴지, 즉, 특정 사용자의 특정 문제에 대한 정답 확률을 수학적으로 계산할 수 있다.

예를 들어 데이터 분석 서버는 상기 사용자 모델링 벡터 및 상기 문제 모델링 벡터를 이용하여 특정 사용자의 특정 문제에 대한 이해도를 추정하고 상기 이해도를 이용하여 특정 사용자가 특정 문제를 맞출 확률을 추정할 수 있다.

예를 들어 사용자 모델링 벡터의 1번째 행의 값이 [0, 0, 1, 0.5, 1] 인 경우, 이는 제 1 사용자가 1, 2번째 개념은 전혀 이해하지 못하고, 3번째 및 5번째 개념은 완벽히 이해하고, 그리고 4번째 개념은 절반만큼 이해한 것으로 해석될 수 있다.

나아가 문제 벡터의 1번째 행의 값이 [0, 0.2, 0.5, 0.3, 0]이라 할 때, 이는 제 1 문제가 1번 개념은 전혀 포함하고 있지 않고, 2번 개념이 20% 정도 포함, 3번 개념이 50% 정도 포함, 4번 개념이 30% 정도 포함된 것으로 해석될 수 있다.

이때 제 1 사용자의 제 1 문제의 이해도를 추정하면, 0x0 + 0x0.2 + 1x0.5 + 0.5x0.5 + 1x0 = 0.75로 계산될 수 있다. 즉, 제 1 사용자는 제 1 문제를 75퍼센트 이해하는 것으로 추정될 수 있다.

그러나 사용자의 특정 문제에 대한 이해도와 특정 문제를 맞출 확률은 동일하다고 할 수 없다. 위의 예에서 제 1 사용자가 제 1 문제를 75 퍼센트 이해한다면 제 1 문제를 실제로 풀었을 때 정답일 확률은 어느 정도인 것인가?

이를 위해 심리학, 인지과학, 교육학 등에서 사용되는 방법론을 도입하여 이해도와 정답률의 관계를 추정할 수 있다. 예를 들어 Reckase 및 McKinely가 고안한 M2PL (multidimensional two-parameter logistic) 잠재적 특성 이론 (Latent Trait Model) 등을 고려하여 이해도와 정답률을 추정할 수 있다.

본 발명은 합리적인 방식으로 이해도와 정답률 관계를 추정할 수 있는 종래 기술을 적용하여 사용자의 문제에 대한 정답 확률을 계산할 수 있으면 족하며, 본 발명은 이해도와 정답률의 관계를 추정하는 방법론에 제한되어 해석될 수 없음을 유의해야 한다.

위와 같은 실시예를 따라 사용자 모델링 벡터와 문제 모델링 벡터를 계산하면, 사용자 모델링 벡터와 문제 모델링 벡터의 관계를 이용하여 사용자 모델링 벡터가 특정 문제의 정답률을 의미하도록 제공될 수 있다.

한편, 본 발명의 또 다른 실시예를 따르면, 사용자의 문제에 대한 정답률은 문제의 보기별 선택 확률을 이용하여 추정할 수도 있다. 예를 들어 제 1 사용자가 특정 문제에 대한 보기 선택 확률이 (0.1, 0.2, 0, 0.7)인 경우, 사용자는 높은 확률로 보기 4번을 선택할 것이고, 해당 문제의 정답이 4번인 경우, 제 1 사용자는 그 문제를 맞을 확률이 높을 것으로 예상할 수 있다.

이때 상기 사용자 모델링 벡터와 상기 문제-보기 모델링 벡터에 다양한 알고리즘을 적용하여 상기 선택률을 추정할 수 있으며, 본 발명을 해석함에 있어 선택률을 계산하기 위한 알고리즘은 제한되지 않는다. 즉, 사용자 모델링 벡터와 문제-보기 모델링 벡터의 관계를 이용하여 사용자 모델링 벡터가 특정 문제의 특정 보기에 대한 선택 확률을 의미하도록 제공될 수 있다

이후 데이터 분석 서버는 신규 사용자에 대한 진단용 문제 세트를 구성하기 위해 문제 데이터베이스에서 적어도 하나 이상의 문제를 포함하는 진단 문제 세트를 추출할 수 있다. (단계 130)

이때, 초기 진단 문제 세트를 구성하기 위하여 본 발명의 실시예를 따르는 데이터 분석 서버는 문제 데이터베이스에서 적어도 하나 이상의 문제를 임의로 추출하여 초기 진단 문제 후보 세트를 적어도 하나 이상 구성할 수 있다.

나아가 데이터 분석 서버는 상기 초기 진단 문제 후보 세트 각각에 대해, 해당 초기 진단 문제 후보 세트에 대한 사용자들의 풀이 결과 데이터를 로딩하고, 해당 초기 진단 문제 세트의 풀이 결과 데이터만 적용한 가상 사용자 모델링 벡터를 계산할 수 있다.

이후 데이터 분석 서버는 상기 가상 사용자 모델링 벡터를 실제 사용자 모델링 벡터, 즉 전체 문제 데이터베이스의 풀이 결과 데이터를 적용하여 계산한 사용자 모델링 벡터와 비교하고, 실제 사용자 모델링 벡터와 가장 근접한 상기 가상 사용자 모델링 벡터 값을 가지는 초기 진단 문제 후보 세트를 초기 진단 문제 세트로 결정할 수 있다.

그러나 진단 문제 세트의 초기 값을 결정하는 방법은 제한되지 않으며, 데이터 세트의 초기값을 할당하는 다양한 알고리즘에 따라 결정될 수도 있다.

나아가 데이터 분석 서버는 단계 140에서 진단 문제 세트에 대한 풀이 결과 데이터가 존재하는 사용자 그룹을 확인하고, 상기 사용자 그룹이 상기 진단 문제 세트만 푼 것으로 가정하고 해당 사용자 그룹에 대한 제 1 가상 사용자 모델링 벡터를 계산할 수 있다.

상기 제 1 가상 사용자 모델링 벡터는 상기 사용자 그룹이 상기 진단 문제 세트만 푼 것으로 가정하고, 진단 문제 세트의 풀이 결과 데이터 또는 진단 문제 세트의 보기 선택 결과 데이터만 데이터 프레임워크에 적용하여 계산한 것이다. 따라서 상기 사용자 그룹의 실제 사용자 모델링 벡터와 상이할 수 있다.

단계 150 내지 170은 진단 문제 세트를 업데이트하기 위한 추가 진단 문제를 결정하기 위한 단계로, 데이터 분석 서버는 문제 데이터베이스에서 진단 문제 세트에 포함되지 않은 적어도 하나 이상의 문제들을 진단 문제 후보로 두고, 상기 진단 문제 후보들의 진단 효율을 각각 계산하고, 진단 효율이 가장 높은 문제를 추가 진단 문제로 결정할 수 있다.

보다 구체적으로 단계 150에서 데이터 분석 서버는 문제 데이터베이스에서 진단 문제 세트에 포함되지 않은 문제 중 적어도 하나 이상의 문제를 진단 문제 후보로 설정할 수 있다.

이후 단계 160에서 데이터 분석 서버는 진단 문제 후보의 진단 효율을 계산할 수 있다.

예를 들어 데이터 분석 서버는 진단 문제 세트에 대한 풀이 결과 데이터가 존재하는 제 1 사용자 그룹 중, 진단 문제 후보에 대한 풀이 결과 데이터도 존재하는 제 2 사용자 그룹을 추출하고, 상기 제 2 사용자 그룹이 진단 문제 세트 및 진단 문제 후보만 풀이한 것으로 가정하여 제 2 가상 사용자 모델링 벡터를 계산할 수 있다.

상기 제 2 가상 사용자 모델링 벡터는 제 2 사용자 그룹이 상기 진단 문제 세트 및 진단 문제 후보만 푼 것으로 가정하고, 진단 문제 세트 및 진단 문제 후보의 풀이 결과 데이터 또는 보기 선택 결과 데이터만 데이터 프레임워크에 적용하여 계산한 것이기 때문에, 제 2 사용자 그룹의 실제 사용자 모델링 벡터와 상이할 수 있다.

이는 데이터베이스에 존재하는 특정 사용자 그룹을 신규 사용자로 가정하고, 진단 문제 세트에 어떤 문제가 추가되는 경우, 신규 사용자의 모델링 벡터가 전체 문제에 대한 특성을 보다 크게 반영할 수 있는지 확인하기 위한 것이다.

사용자의 모델링 벡터는 전체 문제 데이터베이스에 대한 사용자의 특성, 예를 들어 전체 문제가 포함하고 있는 개념들 각각에 대한 해당 사용자의 이해도를 의미할 수 있다. 따라서 특정 문제의 풀이 결과 데이터가 사용자 모델링 벡터의 변위에 미치는 영향이 클 때, 해당 문제의 진단 효율이 높은 것으로 판단할 수 있다.

따라서 데이터 분석 서버는 제 1 가상 모델링 벡터와 제 2 가상 모델링 벡터의 차이가 가장 큰 진단 문제 후보를 추가 진단 문제로 결정할 수 있다. (단계 170)

이후 데이터 분석 서버는 추가 진단 문제를 진단 문제 세트에 포함하여 진단 문제 세트를 업데이트하고, 업데이트된 진단 문제 세트의 신뢰도가 충분한지, 즉 업데이트 진단 문제 세트만으로 신규 사용자의 모델링 벡터가 전체 문제에 대한 특성을 적절히 반영하고 있는지 확인할 수 있다. (단계 180)

전술한 바와 같이 진단 문제의 개수가 많을수록 진단의 정밀도는 높아질 것이나 사용자의 편의성은 떨어질 수 있다. 따라서 단계 180은 최적화된 개수의 진단 문제를 구성하기 위한 단계이다. 데이터 분석 서버는 해당 시점에 구성된 진단 문제 세트의 신뢰도가 충분하지 않으면 진단 문제를 추가할 것이나, 신뢰도가 충분하면 해당 시점에 구성된 진단 문제 세트만으로 진단 고사를 종료할 수 있기 때문이다.

진단 문제 세트의 신뢰도를 확인하는 보다 구체적인 방법은 첨부된 도 2에 대한 설명과 함께 후술된다.

나아가, 본 발명의 실시예를 따르는 데이터 분석 프레임워크의 운용에 필요한 리소스가 충분한 경우, 도 1의 예시는 데이터베이스에서 진단 문제에 대한 풀이 결과 데이터가 존재하는 사용자 그룹을 설정하지 않고, 신규 사용자에게 진단 문제를 하나씩 제공하면서 사용자 맞춤형으로 진행될 수 있다. 즉, 개별 신규 사용자마다 진단 문제를 하나씩 제공하면서, 해당 신규 사용자에게 최적화된 진단 문제를 최적화된 개수로 제공할 수도 있다.

신규 사용자 맞춤형 진단 문제 세트를 구성하는 보다 구체적인 방법은 첨부된 도 3을 참고하여 설명한다.

도 3은 본 발명의 다른 실시예를 따라 신규 사용자 맞춤형 진단 문제 세트를 구성하는 방법을 설명하기 위한 순서도이다.

도 3의 단계 310, 320, 330은 전술한 도 1의 단계 110, 120, 130을 참고하여 이해될 수 있다.

본 발명의 실시예를 따르는 데이터 분석 프레임워크는 단계 340에서 임의의 신규 사용자에게 진단 문제 세트를 제공하고, 제공된 진단 문제 세트에 대한 신규 사용자의 풀이 결과를 수집하여 신규 사용자의 초기 모델링 벡터를 계산할 수 있다. 즉, 데이터 분석 프레임워크는 해당 신규 사용자의 진단 문제 세트에 대한 풀이 결과 데이터를 데이터 분석 프레임워크에 적용하여 신규 사용자의 초기 모델링 벡터를 계산할 수 있다.

예를 들어, 특정 신규 사용자에게 a, b, c 보기로 구성된 제 1 문제를 제공하고, 해당 신규 사용자가 제 1 문제의 a보기를 선택한 경우, 데이터 분석 서버는 (unew, 1, a) = 1, (unew, 1, b) = 0, (unew, 1, c) = 0 데이터를 데이터 분석 프레임워크에 적용하여 신규 사용자 unew의 초기 모델링 벡터를 계산할 수 있다.

단계 350 내지 370은 진단 문제 세트를 업데이트하기 위한 추가 진단 문제를 결정하기 위한 단계로, 도 1과 달리 신규 사용자마다 다른 추가 진단 문제가 결정되는 특징이 있다.

보다 구체적으로 데이터 분석 서버는 문제 데이터베이스에서 진단 문제 세트에 포함되지 않은 적어도 하나 이상의 문제들을 진단 문제 후보로 두고, (단계 350) 신규 사용자의 초기 모델링 벡터를 이용하여 진단 문제 후보 각각에 대한 가상 모델링 벡터의 기대값을 계산할 수 있다. (단계 360)

앞의 예에서, 신규 사용자 unew에 대해 계산한 초기 모델링 벡터에 추가 진단 문제 후보인 제 2문제의 각 보기들을 선택한 가상 모델링 벡터를 생성할 것이다. 제 2 문제가 a, b, c 보기로 구성된 경우, 신규 사용자가 제 2 문제에서 a 보기를 응답했다고 가정하고 가상 모델링 벡터를 생성한다. 이와 같은 방법으로 b, c 보기에 대해 응답했을 때의 각각의 가상 모델링 벡터를 생성한다. 그리고 나서 초기 모델링 벡터로부터 각 가상 사용자 모델링 벡터의 변위를 구하여 평균함으로써 기대값을 계산할 수 있다.

이후 같은 방식으로 추가 진단 문제 후보인 제 3 문제의 가상 모델링 벡터의 기대값, 제 4 문제의 가상 모델링 벡터의 기대값 등을 각각 계산할 것이다.

이후 데이터 분석 서버는 신규 사용자의 초기 모델링 벡터와 가상 모델링 벡터의 기대값의 차이가 가장 큰 진단 문제 후보를 추가 진단 문제로 결정할 것이다. (단계 370)

이후 데이터 분석 서버는 추가 진단 문제를 진단 문제 세트에 포함하여 진단 문제 세트를 업데이트하고, 추가 진단 문제를 신규 사용자에게 제공하고 추가 진단 문제의 풀이 결과 데이터를 반영하여 신규 사용자의 모델링 벡터를 업데이트할 것이다. (단계 375)

이후 데이터 분석 서버는 업데이트된 모델링 벡터를 이용하여 다른 진단 문제 후보 각각에 대한 신규 사용자의 가상 모델링 벡터의 기대값을 계산하고, 업데이트된 모델링 벡터와 가상 모델링 벡터의 기대값의 차이가 가장 큰 진단 문제 후보를 추가 진단 문제로 결정하는 방식으로 진단 문제 세트를 구성할 수 있다.

나아가 데이터 분석 서버는 업데이트된 진단 문제 세트의 신뢰도가 충분한지, 즉 업데이트 진단 문제 세트만으로 신규 사용자의 모델링 벡터가 전체 문제에 대한 특성을 적절히 반영하고 있는지 확인할 수 있다. (단계 380)

전술한 바와 같이 진단 문제의 개수가 많을수록 진단의 정밀도는 높아질 것이나 사용자의 편의성은 떨어질 수 있다. 따라서 단계 380은 신규 사용자에게 최적화된 개수의 진단 문제를 구성하기 위한 단계이다. 데이터 분석 서버는 해당 시점에 구성된 진단 문제 세트의 신뢰도가 충분하지 않으면 진단 문제를 추가할 것이나, 신뢰도가 충분하면 해당 시점에 구성된 진단 문제 세트만으로 진단 고사를 종료할 수 있기 때문이다.

도 2는 본 발명의 실시예를 따라 진단 문제 세트의 신뢰도를 확인하여 진단 문제 추가 여부를 결정하는 방법을 설명하기 위한 순서도이다.

데이터 분석 서버는 진단 효율이 가장 높은 추가 진단 문제를 진단 문제 세트에 포함하고 업데이트 진단 문제 세트의 신뢰도를 계산할 수 있다. (도 2a의 단계 210, 220)

진단 문제 세트가 신규 사용자의 전체 문제에 대한 특성을 반영하는 정도를 의미하는 신뢰도는 예를 들어 진단 문제 세트의 실제 풀이 결과와 진단 문제 세트에 대한 가상 사용자 모델링 벡터의 차이로 계산할 수 있다.

예를 들어 제 1 진단 문제에 대한 풀이 결과 데이터가 존재하는 사용자의 가상 사용자 벡터, 즉, 제 1 진단 문제만 푼 것으로 가정하고, 제 1 진단 문제의 풀이 결과 데이터만 데이터 분석 프레임워크에 적용하여 계산한 사용자의 가상 사용자 벡터가 (0.1, 0.7, 0.3, 0.4) 인 경우를 예시할 수 있다.

데이터 분석 프레임워크가 사용자 모델링 벡터가 특정 문제의 보기 선택 확률을 의미하도록 제공한 경우, 상기 가상 사용자 벡터는 상기 사용자에게 제 1 문제를 제공하면 1번 보기를 선택할 확률이 0.1, 2번 보기를 선택할 확률이 0.7, 3번 보기를 선택할 확률이 0.3, 4번 보기를 선택할 확률이 0.4인 것으로 해석될 것이다.

한편, 상기 사용자의 제 1 문제의 실제 풀이 결과가 (0, 1, 0, 0)이라면, 이는 해당 사용자가 제 1 문제를 2번 보기를 선택하여 푼 것으로 해석될 것이다. 이 경우, 제 1 문제의 신뢰도는 사용자가 실제 선택한 2번 보기의 선택률 0.7에 사용자가 실제 선택하지 않은 1번, 3번, 4번 보기의 선택률을 차감한 -0.1 (0.7-0.1-0.3-0.4= -0.1)로 계산할 수 있다.

이후 데이터 분석 서버는 진단 문제 추가에 따른 진단 문제 세트의 신뢰도 업데이트 추이를 확인할 수 있다. (단계 230) 이는 진단 문제를 추가할 필요가 있는지 확인하기 위한 것이다.

앞의 예에서, 제 1 진단 문제에 제 2 진단 문제가 추가된 경우, 제 1, 제 2 진단 문제에 대한 풀이 결과 데이터가 존재하는 사용자의 가상 사용자 벡터, 즉, 제 1, 제 2 진단 문제만 푼 것으로 가정하고, 제 1, 제 2 진단 문제의 풀이 결과 데이터만 데이터 분석 프레임워크에 적용하여 계산한 사용자의 가상 사용자 벡터와 제 1, 제 2 진단 문제의 실제 풀이 결과 데이터의 차이가 -0.2인 경우, 업데이트에 따라 진단 문제의 신뢰도는 -0.1에서 -0.2로 떨어진 것으로 해석될 것이다.

도 2b는 진단 문제 세트의 업데이트에 따라 신뢰도가 변경되는 예시를 설명하는 그래프이다. 도 2b의 245는 진단 문제 세트가 제 1 진단 문제 -> 제 1, 2 진단 문제 -> 제 1,2,3 진단 문제 -> 제 1,2,3,4 진단 문제 순서로 업데이트된 경우 진단 문제 세트의 신뢰도의 변경 추이를 도시한 그래프의 예시이다.

이후 본 발명의 실시예를 따르는 데이터분석 서버는 진단 문제 세트의 신뢰도 업데이트 추이를 확인하여, 진단 문제 추가 종료 여부를 결정할 수 있다. (단계 230, 240)

진단 문제를 더 이상 추가할 필요가 없는 경우는 크게 두가지를 고려할 수 있다.

첫번째는 해당 시점의 진단 문제 세트로 신규 사용자의 특성을 충분히 파악할 수 있을 때이다. 즉, 진단 문제를 추가하지 않아도, 충분한 신뢰도로 신규 사용자의 모델링 벡터를 계산할 수 있는 경우이다. 이는 해당 시점의 진단 문제 세트에 대한 신뢰도가 임계값 이상인지 여부를 확인하여 판단할 수 있다. (도 2b의 250)

두번째는 문제를 추가한다 하더라도 신규 사용자의 특성을 더 이상 파악할 수 없을 때이다. 즉, 문제 추가의 효과가 없는 경우인데, 진단 문제를 추가한다 하더라도 신규 사용자의 모델링 벡터의 변화가 없을 것으로 예상되는 경우이다. 이는 진단 문제 세트의 업데이트에도 불구하고 업데이트 진단 문제 세트의 신뢰도가 변경되지 않고 임의의 범위 내에서 유지되는지 여부를 확인하여 판단할 수 있다. (도 2b의 260)

종합하면, 본 발명의 실시예를 따르는 데이터 분석 서버는 진단 문제 세트의 업데이트를 수행하면서, 진단 문제 세트의 신뢰도 추이를 확인하고 특정 시점의 진단 문제 세트의 신뢰도가 미리 설정된 임계값을 넘어가거나, 상기 신뢰도가 임의의 범위 내에서 유지되는 경우, 진단 문제 추가를 종료하여 진단 문제 세트를 구성할 수 있다.

한편, 상기 실시예를 따르면, 임의의 문제가 진단 문제 세트에 추가되는 시점에 따라, 진단문제 세트에 대한 신뢰도 계산 시 해당 문제의 기여도가 다르게 평가되는 문제가 있다.

예를 들어 도 2b의 예시와 같이 진단 문제 세트가 제 1 진단 문제 -> 제 1, 2 진단 문제 -> 제 1,2,3 진단 문제 -> 제 1,2,3,4 진단 문제 순서로 업데이트된 경우를 가정할 수 있다.

이 경우, 본 발명의 실시예를 따르는 데이터 분석 프레임워크는, 첫째로 제 1 진단 문제에 대한 풀이 결과 데이터가 존재하는 사용자 그룹의 가상 사용자 벡터를 이용하여 계산한 제 1 진단 문제의 보기 선택률과 상기 제 1 진단 문제를 신규 사용자에게 제공하여 수집한 신규 사용자의 실제 풀이 결과의 차이를 제 1 진단 문제 세트의 신뢰도로 계산할 것이다. (도 2b의 241)

둘째로 제 1, 2 진단 문제에 대한 풀이 결과 데이터가 존재하는 사용자 그룹의 가상 사용자 벡터를 이용하여 계산한 제 1, 2 진단 문제의 보기 선택률과 상기 제 1, 2 진단 문제를 신규 사용자에게 제공하여 수집한 신규 사용자의 실제 풀이 결과의 차이를 제 1,2 진단 문제에 대한 신뢰도로 계산할 것이다. (도 2b의 242) 셋째로, 제 1, 2, 3 진단 문제에 대한 풀이 결과 데이터가 존재하는 사용자 그룹의 가상 사용자 벡터를 이용하여 계산한 제 1, 2, 3 진단 문제의 보기 선택률과 상기 제 1, 2, 3 진단 문제를 신규 사용자에게 제공하여 수집한 신규 사용자의 실제 풀이 결과의 차이를 제 1, 2, 3 진단 문제에 대한 신뢰도로 계산할 것이다. (도 2b의 243) 넷째로 같은 방식으로 제 1,2,3,4, 진단 문제에 대한 신뢰도를 계산할 것이다. (도 2b의 244)

이후 데이터 분석 프레임워크는 제 1 진단 문제의 신뢰도, 제 1, 2 진단 문제의 신뢰도, 제 1, 2, 3 진단 문제, 제 1, 2, 3, 4 진단 문제의 신뢰도 업데이트 추이를 확인하게 될 것이다. 그런데 이 경우, 신뢰도 변경 추이에 제 1 진단 문제의 기여도가 가장 크게 반영되며, 제 4 진단 문제의 기여도가 가장 작게 반영되는 문제가 발생할 수 있다.

즉, 임의의 문제가 진단 문제 세트에 추가되는 시점에 따라 진단 문제 세트에 대한 신뢰도 계산의 기여도가 다르게 평가되는 문제가 발생할 수 있다.

이를 해결하기 위하여, 본 발명의 다른 실시예를 따르면, 진단 문제가 임의의 규모로 형성되는 초기 구간을 임의로 설정하고, 초기 구간의 신뢰도 계산에 미치는 각 문제의 영향을 희석화하여, 수정된 신뢰도 그래프를 작성하고, 수정된 그래프의 추이를 확인하여 종료여부를 결정할 수 있다.

상기 실시예를 따르면, 도 2b의 예에서, 진단 문제 세트의 업데이트와 신뢰도의 관계를 의미하는 그래프 245를 진단 문제 세트의 업데이트에 따른 신뢰도 변경의 평균값을 의미하는 그래프 270으로 수정하고, 수정된 그래프 270의 추이를 확인하여 종료 여부를 결정할 수 있다.

한편, 본 발명의 또다른 실시예를 따르면, 임의의 문제가 진단 문제 세트에 추가되는 시점에 따라 신뢰도 계산에 가중치를 적용할 수도 있다. 예를 들어 진단 문제 세트에 최근에 추가된 문제는 신뢰도 계산의 가중치를 크게 적용할 수 있다.

한편, 본 발명의 실시예를 따르는 데이터 분석 프레임워크의 운용에 필요한 리소스가 충분한 경우, 도 2의 예시는 데이터베이스에서 진단 문제에 대한 풀이 결과 데이터가 존재하는 사용자 그룹을 설정하지 않고, 신규 사용자에게 진단 문제를 하나씩 제공하면서 사용자 맞춤형으로 진행될 수 있다. 즉, 개별 신규 사용자마다 진단 문제 추가에 따른 신뢰도를 계산하여 해당 신규 사용자에게 최적화된 개수의 진단 문제만 제공할 수 있다.

예를 들어 데이터분석 서버는 제 1 진단 문제를 신규 사용자에게 제공하고, 상기 제 1 진단 문제에 대한 신규 사용자의 풀이 결과 데이터를 수집하고, 해당 풀이 결과 데이터를 데이터 분석 프레임워크에 적용하여 제 1 진단 문제에 대한 상기 사용자의 모델링 벡터를 계산할 수 있다.

이후 데이터 분석 서버는 상기 제 1 진단 문제에 추가할 제 2 진단 문제를 결정하고, 제 2 진단 문제를 상기 신규 사용자에게 제공하고, 제 2 진단 문제에 대한 신규 사용자의 풀이 결과 데이터를 수집하고, 해당 풀이 결과 데이터를 데이터 분석 프레임워크에 적용하여, 제 1 진단 문제 및 제 2 진단 문제에 대한 상기 사용자의 사용자 모델링 벡터를 계산할 수 있다.

이후 데이터 분석 서버는 진단 문제를 추가할 필요가 있는지 여부를 결정하기 위하여, 제 1 진단 문제에 대한 신규 사용자의 신뢰도 및 제 1, 제 2 진단 문제의 신규 사용자의 신뢰도를 계산할 수 있다.

즉, 신규 사용자의 제 1 진단 문제의 실제 풀이 결과와 제 1 진단 문제에 대한 사용자 벡터를 비교하여 제 1 진단 문제에 대한 신규 사용자의 신뢰도를 계산하고, 제 1, 제 2 진단 문제의 실제 풀이 결과와 제 1, 제 2 진단 문제에 대한 사용자 벡터를 비교하여 제 1, 제 2 진단 문제에 대한 신규 사용자의 신뢰도를 계산하여 양자를 비교할 수 있다.

이후 데이터 분석 서버는 상기 신뢰도 변경 추이를 확인하여 진단 문제 추가 여부를 결정할 수 있다. 즉, 신뢰도의 변경율이 미리 설정된 값 이내인 경우, 신규 사용자에 대한 진단 문제 추가의 효과가 없는 것으로 판단하여 해당 시점의 진단 문제로 진단용 문제 세트를 구성하거나, 또는 신뢰도가 미리 설정된 범위 이상인 경우, 진단 문제 추가를 하지 않아도 해당 신규 사용자 분석에 충분한 것으로 판단하여 해당 시점의 진단 문제로 진단용 문제 세트를 구성할 수 있다.

본 명세서와 도면에 게시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 게시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims

데이터 분석 서버가 데이터 분석 프레임워크의 신규 사용자에 대한 진단용 문제 세트를 구성하는 방법에 있어서,
복수의 문제를 포함하는 문제 데이터베이스를 구성하고, 상기 문제에 대한 사용자의 풀이 결과 데이터를 수집하고, 상기 풀이 결과 데이터를 상기 데이터 분석 프레임워크에 적용하여 상기 문제에 대한 사용자 각각의 특성을 설명하는 사용자 모델링 벡터를 계산하는 단계;
상기 문제 데이터베이스에서 구성한 진단 문제 세트를 신규 사용자에게 제공하고, 풀이 결과를 수집하여 상기 신규 사용자의 모델링 벡터를 계산하는 단계;
상기 진단 문제 세트에 포함되지 않는 적어도 하나 이상의 진단 문제 후보를 상기 문제 데이터베이스로부터 추출하고, 상기 신규 사용자의 모델링 벡터를 이용하여 상기 진단 문제 후보 각각에 대한 상기 신규 사용자의 가상 모델링 벡터의 기대값을 계산하는 단계; 및
상기 신규 사용자의 모델링 벡터와 상기 가상 모델링 벡터의 기대값의 차이가 가장 큰 진단 문제 후보를 추가 진단 문제로 결정하는 단계를 포함하며
상기 기대값은 상기 진단 문제 후보의 보기 별 가상 모델링 벡터- 특정 보기를 선택했다고 가정하고 계산한 모델링 벡터-와 신규 사용자 모델링 벡터 간 차이의 평균값인 진단용 문제 세트 구성 방법.
제 1 항에 있어서, 상기 결정하는 단계 이후에,
상기 추가 진단 문제를 상기 진단 문제 세트에 포함하여 업데이트 진단 문제 세트를 구성하는 단계;
상기 업데이트 진단 문제 세트의 실제 풀이 결과와 상기 업데이트 진단 문제 세트를 상기 신규 사용자에게 제공하여 계산한 상기 신규 사용자 모델링 벡터의 차이인 상기 업데이트 진단 문제 세트의 신뢰도를 계산하는 단계;
상기 신뢰도의 변경율이 미리 설정된 값 이내인 경우, 진단 문제 추가의 효과가 없는 것으로 판단하여 상기 업데이트 진단 문제 세트로 진단용 문제 세트를 구성하는 단계를 포함하는 진단용 문제 세트 구성 방법.
제 1 항에 있어서, 상기 결정하는 단계 이후에,
상기 추가 진단 문제를 상기 진단 문제 세트에 포함하여 업데이트 진단 문제 세트를 구성하는 단계;
상기 업데이트 진단 문제 세트의 실제 풀이 결과와 상기 업데이트 진단 문제 세트를 상기 신규 사용자에게 제공하여 계산한 상기 신규 사용자 모델링 벡터의 차이인 상기 업데이트 진단 문제 세트의 신뢰도를 계산하는 단계;
상기 신뢰도가 미리 설정된 범위 이상인 경우, 진단 문제 추가를 하지 않아도 상기 신규 사용자 분석에 충분한 것으로 판단하여 상기 업데이트 진단 문제 세트로 상기 진단용 문제 세트를 구성하는 단계를 포함하는 진단용 문제 세트 구성 방법.
제2항 내지 제3항 중 어느 한 항에 있어서,
상기 업데이트 진단 문제 세트의 신뢰도를 계산하는 단계는,
상기 업데이트 진단 문제 세트를 신규 사용자에게 제공하고, 상기 업데이트 진단 문제 세트의 상기 신규 사용자의 풀이 결과 데이터를 수집하고, 상기 풀이 결과 데이터를 상기 데이터 분석 프레임워크에 적용하여 상기 업데이트 진단 문제 세트에 대한 상기 신규 사용자의 모델링 벡터를 계산하는 단계; 및
상기 업데이트 진단 문제 세트에 포함되는 문제 각각에 대하여, 상기 신규 사용자의 모델링 벡터를 이용하여 계산한 보기 선택 확률과 상기 신규 사용자의 보기 선택 결과 데이터를 비교하는 단계를 포함하는 것을 특징으로 하는 진단용 문제 세트 구성 방법.
삭제