KR20050042743A - 테스트시스템 및 그 제어방법 - Google Patents

테스트시스템 및 그 제어방법 Download PDF

Info

Publication number
KR20050042743A
KR20050042743A KR1020047004513A KR20047004513A KR20050042743A KR 20050042743 A KR20050042743 A KR 20050042743A KR 1020047004513 A KR1020047004513 A KR 1020047004513A KR 20047004513 A KR20047004513 A KR 20047004513A KR 20050042743 A KR20050042743 A KR 20050042743A
Authority
KR
South Korea
Prior art keywords
partial
computer
examinee
test
model
Prior art date
Application number
KR1020047004513A
Other languages
English (en)
Other versions
KR100747141B1 (ko
Inventor
스스무 후지모리
히토시 야마시타
Original Assignee
가부시키가이샤 베네세 코포레이션
스스무 후지모리
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가부시키가이샤 베네세 코포레이션, 스스무 후지모리 filed Critical 가부시키가이샤 베네세 코포레이션
Publication of KR20050042743A publication Critical patent/KR20050042743A/ko
Application granted granted Critical
Publication of KR100747141B1 publication Critical patent/KR100747141B1/ko

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Computer Hardware Design (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Complex Calculations (AREA)
  • Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)
  • Emergency Protection Circuit Devices (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

본 발명에 의하면, 영어능력 테스트 등에 있어서 정오의 2치적인 평가뿐만 아니라 부분득점을 주는 채점을 가능하게 하는 테스트시스템이 제공된다. 이 테스트시스템에서는, 입출력장치(207, 208)를 포함하는 컴퓨터(101, 102)와 인터넷 등의 네트워크(103)가 이용되고, 항목 파라미터 및 능력의 추정에 종래의 항목반응이론을 수정한 부분득점모델이 사용된다. 이 부분득점모델에서는, 부분득점을 동일한 파라미터를 가지는 복수 항목의 정오의 평균으로서 구성되는 것으로 상정하고 있다. 본 발명의 테스트시스템을 사용함으로써, 외국어 테스트에 있어서의 쓰기나 말하기와 같이 정오만으로는 판정이 곤란하여 부분득점이 필요할 것 같은 출제형식의 테스트의 제어가 종래보다도 용이하게 된다.

Description

테스트시스템 및 그 제어방법{TEST SYSTEM AND CONTROL METHOD THEREOF}
본 발명은 테스트시스템 및 그 제어방법에 관한 것이다. 더욱 상세하게는 본 발명은 종래형의 항목반응이론을 수정한 부분 득점 모델에 의거하여 채점시에 단순한 정오의 2값 뿐만 아니라 복수의 단계를 가지는 부분 득점으로서의 평가도 허용하는 테스트를 종래보다도 간략화된 형태로 설계, 실시 및 평가하는 테스트시스템 및 그 제어방법에 관한 것이다.
현재, 테스트를 설계하여 그 결과를 처리할 때에 사용되는 이론으로서, 고전적 테스트 이론과 항목반응이론의 2가지가 널리 알려져 있다. 이들 테스트이론에 관해서는, 예를 들면 와타베 히로시 편저『심리통계의 기법』(후쿠무라 출판, 2002년)의 6장 및 7장에 각각 일반적인 해설이 주어져 있다. 또한, 테스트이론에 있어서의 테스트란, 학력 테스트뿐만 아니라, 심리학에 있어서의 성격검사나 임상검사 등도 포함하는 것이나, 이 출원에서는 그와 같은 넓은 응용분야를 시야에 넣은 추상적인 설명을 행하는 것이 아니고, 이해를 용이하게 하기 위하여, 특히 외국어시험 등의 학력 테스트를 염두에 두고 구체적인 설명을 시도하고 싶다. 또한 항목반응이론에 있어서의 「항목」이란, 학력 테스트의 경우이면 문제를 의미한다. 따라서 이 출원에서 구체예에 의거하여 설명할 때에는, 「항목」이 아니라 「문제」, 「피험자」가 아니라 「수험자」 등, 학력 테스트에 있어서의 일반적인 용어를 사용한다. 그러나, 본 발명은 일반의 테스트이론에 관한 범용적인 것으로서, 학력 테스트만에 한정되는 것은 아니고, 테스트이론이 일반적으로 적용되는 상기의 분야에도 적용이 가능하다.
고전적 테스트이론은, 현재 널리 사용되고 있으나, 얻어지는 결론이 수험자의 특성의 통계적인 분포에 의존한다는 특징을 가진다. 따라서 고전적 테스트이론에 의거하고 있는 경우에는, 특성이 다른 수험자의 집단에 대하여 실시된 복수의 테스트에서 얻어진 평균점이나 편차값을 비교하는 것은, 적절하지 않다.
고전적 테스트이론의 단점을 극복하는 이론으로서 항목반응이론이 있고, 현재에는 이 항목반응이론에 의거하여 설계되어 결과가 처리되는 학력 테스트가 많이 존재한다. 예를 들면 최근 출판된 항목응답이론의 교과서인 도요타 히데키 저『항목반응이론 입문편』(아사쿠라서점, 2002년)의 제16페이지에는 다음과 같은 기술이 있다. 「유명한 어학시험인 TOEFL …은 1년간에 몇번이나 실시된다. 또한 전 세계에서 실시된다. 동일한 피험자가 재수험할 가능성이 있기 때문에 동일한 항목의 모임인 동일한 테스트는 2번 다시 사용할 수 없다. 이 때문에 평균점이나 통과율은 테스트마다 각각 다르다. 지역에 따라 영어력에도 차가 있기 때문에 특성값의 분포도 다르다. 따라서 편차값이나 정규득점이나 경험분포함수를 사용하여 수험결과를 다른 테스트 사이에서 비교하는 것은 불가능하다. …TOEFL의 점수(예를 들면, 500점, 650점 등)는, 어디에서 수험하였는지, 언제 수험하였는지, 어떤 문제를 풀었는지에 관계없이 유학의 가부 판단에 이용된다. 즉 이질의 수험자가, 다른 항목을, 다른 일시에, 다른 장소에서 수험하였음에도 불구하고, 피험자는 통일된 처우를 받을 수 있다. 이 처우를 가능하게 하는 테스트를 계속적으로, 적극적으로 운용하는 시스템을 구축하는 수리모델이, …항목반응 모델이다. 」
또, 일본국 특개2002-006734호 공보에는, 출제가 예정되는 시험문제를 미리 나무형상으로 배치하여 두고, 수험자에 의한 해답의 정부에 따라 나무형상으로 배치된 경로를 따라 문제를 순서대로 출제하고, 단지 정답의 수뿐만 아니라, 어떠한 경로로 최종지점까지 도달하였는가라는 도중경과를 고려하여 수험자의 능력을 추정하는 테스트방법 및 시스템이 개시되어 있다. 이 공개특허공보에도 항목반응이론에 대한 언급이 보인다.
그러나, 종래형의 이론에 의거하는 항목반응 모델에서는 2값에 의해 채점이 가능한 O×식의 해답 이외의, 예를 들면 1과 0 사이의 부분점을 허용하지 않을 수 없는 형식의 문제의 처리가 용이하지는 않았다. 단계반응 모델 등, 다치(多値)의 결과도 처리할 수 있도록 구축된 방법도 종래부터 존재하고는 있으나, 종래의 방법은 후술하는 단점을 가지고 있다. 따라서 부분득점을 허용하지 않으면 적확한 채점이 곤란한 영작문이나 말하기 등은, 컴퓨터 적응형 테스트(CAT)에 포함되지 않는 것이 통상이다. 예를 들면 상기한 일본국 특개2002-006734호 공보에 개시되어 있는 발명에서는 항목반응이론의 이용이 분명하게 되어, 출제되어야 할 문제가 미리 나무형상으로 배치되어 있으나, 수험자가 어느 문제에 정답하면 우측 밑, 오답하면 좌측 밑에 배치된 문제로 이동한다는 바와 같이 해답이 정오 중 어느 하나의 2값 인 것이 예정되어 있다.
도 1은 본 발명에 의한 테스트시스템의 일례의 개요도,
도 2는 본 발명에 의한 테스트시스템을 구성하는 수험자 유닛의 개요도,
도 3은 본 발명에 의한 테스트시스템을 구성하는 채점자 유닛의 개요도,
도 4는 본 발명에 의한 시스템을 사용한 테스트실시의 개요를 나타내는 플로우차트로서, 특히 본 발명이 근거하는 부분득점에 관계하는 쓰기 및 말하기에 관한 수험 및 채점의 프로세스가 나타나 있는 도,
도 5는 본 발명에 의한 테스트시스템을 사용한 능력추정의 유효성을 확인하기 위하여 실시된 피험자 12명에 의한 점수안정성 확인조사의 결과를 나타내는 그래프,
도 6은 도 6a 내지 도 6g로 구성되고, 각각이 도 5의 점수안정성 확인조사에 있어서의 피험자 12명의 점수를 나타내는 그래프,
도 7은 도 7a 내지 도 7d로 구성되고, 반복수(sj)를 추정할 때에, 참인 s = 5, 10, 20, 40의 경우에, 추정된 경험분포와 이론분포의 분포함수의 차의 최대값(콜고모로프·스미르노프검정의 통계량)를 반복하여 수학식 3 내지 10에 대하여 나타낸 도,
도 8은 도 8a 및 도 8b로 구성되고, 각각이 영어능력테스트에서의 반복횟수 (sj)의 추정에 대한 적용예를 나타내는 도면이다.
본 발명은, 이러한 종래형의 2값의 해답을 예상하는 CAT와는 달리, 부분득점을 주는 채점을 허용하는 테스트시스템으로서, 또한 종래의 단계반응 모델 등의 복잡한 모델보다도 훨씬 용이하게 부분득점의 처리를 가능하게 하는 테스트시스템 및 그 제어방법을 제공하는 것을 목적으로 한다.
본 발명에 의하면, 입력장치와 출력장치를 구비한 제 1 컴퓨터와, 인터넷을 포함하는 네트워크를 거쳐 상기 제 1 컴퓨터와 접속되어 있고, 입력장치와 출력장치를 구비한 제 2 컴퓨터와, 상기 네트워크를 거쳐 상기 제 1 및 제 2 컴퓨터와 접속된 테스트 관리서버와, 상기 테스트 관리서버로부터 엑세스 가능하고 난이도와 식별력을 포함하는 항목 파라미터가 미리 추정되어 있는 복수의 문제가 기억된 문제 데이터 베이스에 의해 구성되고, 1명의 수험자에게 n 문의 문제를 출제하여 출제된 n 문의 문제에 대한 상기 수험자의 반응으로부터 상기 수험자의 능력(θ)을 추정하는 테스트시스템이 제공된다. 상기 테스트 관리서버는, (1) 상기 제 1 컴퓨터로부터 송신되거나 리퀘스트에 응답하여, 1 ≤j ≤n 인 문제 j 에 대하여 만점을 1로 하여 O ≤rj ≤1인 부분득점(rj)을 허용하는 형태로 채점될 수 있는 n 문의 문제를 상기 문제 데이터 베이스로부터 선택하여 상기 제 1 컴퓨터에 송신하는 수단과, (2) 상기 문제 데이터 베이스로부터 선택되어 상기 제 1 컴퓨터에 송신된 문제에 대하여 상기 제 1 컴퓨터로부터 반송된 해답을 기억하는 해답 기억수단과, (3) 상기 제 2 컴퓨터로부터 송신된 리퀘스트에 응답하여, 상기 해답 기억수단에 기억되어 있는 해답을 판독하여 상기 제 2 컴퓨터에 송신하는 수단과, (4) 상기 제 2 컴퓨터에 송신된 해답에 대하여 주어진 부분득점(rj)을 상기 제 2 컴퓨터로부터 수신하여 기억하는 부분득점 기억수단과, (5) 상기 부분득점 기억수단에 기억되어 있는 부분득점(rj)과 상기 문제 데이터 베이스에 기억되어 있는 문제 j의 항목 파라미터를 사용하여, 상기 부분득점(rj)을 획득한 수험자의 능력(θ)을 추정할 능력추정수단을 구비하고 있다. 그리고, (5)의 상기 능력추정수단에 있어서는, Pj(θ)는, 부분득점(rj)을 문제 j에 고유로서, 상기 수험자가 정답 1 또는 오답 0 중 어느 한쪽의 잠재적 반응을 취할 수 있는 잠재적 문제를 sj 회 반복하여 실시하였을 때에 상기수험자가 잠재적으로 취할 수 있는 정오반응의 평균이라고 상정한 경우에 상기 수험자가 상기 잠재적 문제에 정답할 확률로서,
로 나타내고, 이 수학식 1에 있어서의 aj 및 bj는 각각이 상기 문제 데이터 베이스에 기억되어 있는 문제가 가지는 고유의 특성인 식별력과 곤란도이며, D는 1.7이라는 정수이고, Qj(θ)는 1 - Pj(θ)인 경우에,
에 의하여 나타내는 대수우도[ℓpart(θ)]를 사용하여 수험자의 능력(θ)이 추정된다. 단, 상기한 수학식 1로서 표현되어 있는 Pj(θ)의 함수형은 단순한 예시이며, Pj(θ)가 이 표현형식에 한정되는 것은 필요없고, 여러가지 형식일 수 있다.
여기서 주의해야 할 것은, 관측 가능한 것은 수험자가 문제 j에 대하여 획득하는 0부터 1까지 사이의 값을 취할 수 있는 부분득점(rj)이며, 잠재적 문제에 대한 수험자의 잠재적인 반응은 관측할 수 없다고 하는 점이다.
또한 본 발명에 의한 테스트시스템에 의하면, 실제로 관측되는 문제 j에 대한 부분득점(rj)이 현재적인 복수의 정오문제의 평균에 의해 구성되어 있는 경우에도, 이들 정오문제의 정답확률의 평균을 수학식 1로 표현하고, 수학식 2를 사용하고 수험자의 능력(θ)을 추정하는 것이 가능하다.
또한 본 발명에 의한 테스트시스템에 의하면, 테스트가 실시된 집단의 능력분포를 가정한 후에, sj 회의 정오의 합인 2항 분포로 가정된 능력분포와의 곱을 능력의 차원에서 적분하여 부분득점의 이론적인 분포함수를 구하고, 구해진 이론적인 분포함수와 실제 데이터의 부분득점의 경험적인 분포함수가 가장 잘 일치하도록 잠재적인 문제의 반복횟수인 sj를 추정하는 것도 가능하다.
또한 본 발명에 의한 테스트시스템에 있어서, 상기 제 1 및 제 2 컴퓨터에 있어서의 상기 출력장치와 상기 입력장치의 각각 음성출력장치와 음성입력장치를 포함하는 경우에는, 상기 테스트서버에 송신되어 기억되는 해답으로서 음성 데이터를 포함하게 하는 것도 가능하다. 이 경우에는 제 1 컴퓨터에 있어서 듣기문제를 출제하거나, 수험자에게 실제로 말하게 하는 내용을 채점대상으로 하는 말하기문제도 출제 가능하게 된다.
또한 본 발명은, 상기한 테스트시스템을 제어하는 방법으로서도 실현할 수 있다. 또한 본 발명은, 그와 같은 테스트시스템 제어방법을 설치하는 컴퓨터 프로그램이 기억되어 있는 컴퓨터 판독 가능한 기억매체 자체로서 존재하는 것도 있을 수 있다. 또한 그와 같은 테스트시스템 제어방법을 실행하는 컴퓨터 프로그램 자체로서도 존재할 수 있다.
본 발명의 기초로서 사용하는 부분득점 모델에 대하여 설명하기 전에, 일반적인 2값의 항목반응 모델에 대하여 간단하게 설명한다. 2값이란, 해답이 정답 또는 오답인 2개의 값만을 취한다는 의미이다. 이 모델에서는 수험자가 문제에 정답할 확률을, 수험자의 능력을 나타내는 파라미터와 문제를 특징짓는 파라미터를 사용하여 표현한다. 예를 들면 본 발명에서는 각 문제를 2개의 파라미터(식별력 a 및 곤란도 b)에 의해 특징짓는 2 모수(파라미터) 로지스틱 모델을 사용하는 것이나, 이 경우, 능력(θ)을 가지는 수험자(i)가 문제 j에 정답할 확률은 다음과 같이 쓸 수 있다.
여기서, x는 수험자(i)가 문제 j에 정답하면 1이고, 오답하면 O인 더미변수이다. 또 D는 정수이다. 이 경우에 n 문의 문제를 종료한 시점에서의 수험자의 능력(θ)의 우도[LB(θ)] 는 다음과 같이 쓸 수 있다.
여기서, P(θ)는 수학식 3의 우변의 정답확률이고, Q(θ)는 오답확률, 즉 1 - P(θ)이다. 항목응답 이론에서는 수학식 4의 우도[LB(θ)]의 최대값을 주는 θ의 값을 수험자의 능력 파라미터의 추정값으로 하는 최우 추정법이 알려져 널리 사용되고 있다. 단, 수학식 4의 우변은 곱의 형식으로 쓰여져 있어 최대값을 구하는 것이 용이하지 않기 때문에, 합의 형식으로 고쳐 고찰하기 위하여 양 변의 자연대수를 취한 대수우도[ln(LB(θ))]의 최대값을 구하는 것이 일반적이다. 이것은 자연대수는 단조 증가함수로서, 우도[LB(θ)]의 최대값을 주는 θ와 그 자연대수[ln (LB(θ))]의 최대값을 주는 θ가 일치하기 때문이다.
이상이, 종래부터 공지인 일반적인 2 모수 로지스틱 모델이나, 본 발명에 있어서 사용하는 부분득점 모델에서는, 문제에 대한 반응(해답)의 평가가 정오라는 2값에 그치지 않고, 부분점으로서 평가되는 것이 가능하게 된다. 구체적으로는 수학식 4의 더미변수(xj)가 1 및 0의 2값뿐만 아니라, 0에서 1까지의 3개 이상의 복수의 값(예를 들면, 0, 0.2, 0.4, 0.6, 0.8, 1의 6개의 값)을 취하는 것을 허용한다. 수험자(i)의 문제 j에 대하는 부분득점을 rij라 하면, 부분득점에 대응하는 우도는 다음과 같이 나타낼 수 있다.
구체적인 외국어시험, 예를 들면 영어시험을 생각하면, 정오문제나 다지선택식 문제이면 정답 및 오답의 2값으로서 처리할 수 있다. 그러나 영작문이나 영어에서의 말하기(질문에 대한 구두로의 응답)는 단순한 정답 또는 오답으로서 평가하는 것은 곤란하고, 부분점을 줌으로써 평가하는 것이 필요하게 된다. 따라서 종래형의 2값의 항목응답 모델을 사용할 수는 없다. 그러나 수학식 5에 의하면 임의의 형식을 가지는 테스트의 채점결과를 부분득점으로 변환하여 분석용 데이터로 할 수 있다.
수학식 5의 의미를 해석하기 위하여, 동일한 문제 파라미터를 가지는 sj개의 문제가 동일한 수험자용으로 출제된다고 한다. 학력 테스트의 경우에는, 파라미터는 동일하나, 내용으로서는 다른 문제를 제시하면 상정하는 것이 무리가 없는 상정이다. 성격검사 등에 사용되는 질문지에서는 내용적으로도 동일한 문제를 제시하는 케이스도 생각할 수 있으나, 이것은 항목반응 이론의 전제인 국소 독립의 가정에 반할 가능성도 생기기 때문에, 여기서는 일단 동일 파라미터이나 내용이 다른 질문항목을 제시한다고 상정한다.
일반의 항목반응 모델에서는, 이러한 상정조건하의 우도는, 수학식 4로부터 다음과 같이 나타낼 수 있다.
모든 문제에 관하여 반복의 해답(sj)이 같다(= s)고 가정한 경우, 이 수학식 6의 s 승근을 취하면, 다음의 수식이 얻어진다.
LB(θ)와 LB(θ)*의 최대값을 주는 θ는 동일하기 때문에 최우 추정값은 수학식 6 및 수학식 7과 동일하다. 수학식 7에 있어서
로 두면, Lpart(θ) 와 LB *(θ)는 형식상 동일해진다. 즉, 파라미터가 동일한 문제의 반복에 의한 정오의 평균에 의해 부분득점이 표현되는 경우에는, 본 발명이 의거하는 부분득점 모델[Lpart(θ)]의 해와 일반의 항목반응 이론에 의한 LB(θ)의 해는, LB *(θ) 를 통하여 일치한다. 이상에 의하여 동일 파라미터의 문제를 복수회 실시하여, 그 정오의 합계 또는 평균에 의하여 성적을 부여하는 타입의 부분득점에 관해서는, 해당 항목의 모든 실시결과에 관하여 그 평균을 취함으로써 0에서 1까지 사이의 부분득점을 만드는 것으로 하면, 부분득점 모델[Lpart(θ)]에 의하여 처리하여도 종래의 2치 데이터에 의한 처리와 동일한 결과가 되는 것을 알 수 있다. 수학식 8로부터 제시한 횟수(sj)를 증가시키면, 실질적으로 O에서 1까지의 임의의 부분득점을 표현할 수 있는 것이 유도된다. 또한, 수학식 6과 수학식 7 사이에서 s 승근분의 상위가 있으면 실제로는 불편하기 때문에, 다음과 같이 수학식 5를 s 승하여, 그 자연대수를 부분득점화의 대수 우도로 하는 것이 바람직하다.
그런데, 실제의 학력 테스트에서는 서로 관련되는 복수의 문제가 출제되는 경우가 있다. 외국어 테스트의 예에서는 일정한 길이의 문장에 관하여 복수의 문제가 출제되는 경우 등이 이것에 해당한다. 그러나 이러한 문제군의 존재는 항목반응이론의 국소 독립의 가정에 반할 가능성이 있다.
인자분석적으로 생각하여 보면, 가령 테스트의 득점(z)이, 테스트문제의 전체에서 측정하는 인자(f1)와, 소정의 문제군 J에 공통되는 인자(f2)와, 각 문제에 독자적인 인자(u)로 구성된다고 하면, 수험자(i)에 의한 문제 j의 득점은 다음과 같이 표현할 수 있다.
여기서, a는 인자부하이다. 문제 j가 문제군 J에 속하는 경우에는 a2j는 제로가 아니고, 문제 j가 문제군 J에 속하는 경우에는 a2j = O 이다. 수학식 1O에있어서 문제군 J에 대한 합을 취하면, 다음과 같이 된다.
우변 제2항은 문제군 J에 공통되는 인자(f2)에 관한 합이나, 인자의 직교성의 가정으로부터는 다른 문제와의 상관을 가지지 않고 독자성 부분이라고 볼 수 있다. 항목반응 이론에서도 항목에 고유한 성분을 상정하고 있기 때문에, 우변 제2항은 이것에 해당된다. 즉, 국소 독립의 가정에 저촉되지 않고 끝나게 된다. 인자 (f1)를 항목반응 이론의 능력 파라미터(θ)라고 가정하면, 테스트에서 상호 관련되는 문제군의 합을 취하여 부분득점으로서 처리하는 것에는 불편은 없다. 국소 종속의 관계에 있는 문제에 관하여 본 발명이 제창하는 처리를 행하는 것은 항목반응 이론의 가정으로부터는 오히려 바람직하다고 조차 할 수 있다.
만약 완전한 동일 파라미터의 항목이 아니고 유사 파라미터의 항목의 반복을 상정하는 경우는, 일반의 2값의 우도는 항목 j의 반복 제시의 정오패턴에 따라 다르며, 다음과 같이 된다.
θ고정, 항목 파라미터 소여(所與)라 한다. 수학식 12의 대수 우도를 취하여 유사항목 j에 관한 부분만을 인출하면,
이 얻어진다(단, 정답확률 등에 대한 첨자 j, 및 θ은 생략한다). 그렇게 하면 그 정오반응 X에 관한 기대값은
이 된다. 또
라 할때, ΔPk는 각 항목이 유사항목이기 때문에 미소(微小)라고 가정한다. ΔPk의 2차이상의 항을 무시하면
이 성립한다. 수학식 17 및 18을 수학식 14에 대입하여,
임을 고려에 넣으면
다음에 부분득점에 대해서도 검토하여 보자. 조금 전과 마찬가지로 모든 항목에서 반복의 회답(sj)이 같다(= s)고 가정한 경우, 수학식 9의 정오의 확률을 수학식 15의 평균반응확률과
로 치환한다. 그러면
이 된다. 상기 식으로부터 특정한 유사문제 j에 관한 부분만을 인출하고, 또 부분득점(r)이 유사문제 j의 정오의 평균이기 때문에,
이 된다(단 정답확률 등에 대한 첨자 j, 및 θ은 생략한다). 그렇게 하면, 그 기대값은
이고, 수학식 20 및 24로부터
이 성립한다. 우도를 구성하는 모든 유사항목에 수학식 25가 성립하면, 부분득점의 최우해와, 2치 데이터에 의한 해는 근사적으로 일치한다고 생각된다.
또한 이상으로 본 발명에 있어서의 부분득점 모델은, 동일 파라미터의 문제 또는 유사 파라미터에 있어서 반복하여 정의의 횟수가 동일하면, 통상의 2값의 항목반응 모델과 대응관계를 가지는 것을 이미 나타내었다. 그러나 현실의 적용장면에서는, 모든 문제의 반복횟수가 동일한, 즉 부분득점의 단계수가 어느 문제에 대해서도 동일하다고는 한정하지 않는다. 예를 들면 학력 테스트에 있어서는 처음에 2값적으로 채점되는 쉬운 항목이 있고, 후반에 다치적으로 채점되는 어려운 항목이 배치되는 경우가 많다. 이와 같은 상황에 대응하기 위해서는, 수학식 9를 다음과 같이 확장할 필요가 있다.
이러한 확장형 부분득점 모델에서도 일반의 2값 모델의 최우해와 수학식 26의 해는 근사적으로 일치한다.
다음에 2항 분포를 이용한 반복횟수(sj)의 추정에 대하여 설명한다. 확장된 부분득점 모델
을 적용하는 경우, 각 항목의 반복횟수(sj)는 시뮬레이션이 아닌 한 실제로는 불명한 것이 많이 추정될 필요가 있다. 부분득점의 성질에 의하여 sj의 추정은 다르며, 이하에 설명을 가한다.
제 1로, 부분득점이 복수의 정오문제의 평균치인 경우에 대하여 고찰한다. 어느 문제 j의 부분득점이, 1세트의 세트문 등으로 이루어지는 복수의 정오 2값 문제의 평균치(즉 복수의 문제의 합계점을 채점결과로 하는 경우)인 경우는, 그들 문제의 수가, 그대로 반복횟수(sj)의 추정값이 된다.
제 2로, 부분득점이 질문지 등의 단계평정인 경우에 대하여 고찰한다. 질문지에서 다용되는 평정척도의 경우, 단계수를 m + 1 이라 할때 반복수(s)는 m이라 추정할 수 있다. 예를 들면 질문항목이 「1. 아주 적합하다」 「2. 약간 적합하다」 「3. 약간 적합하지 않다」 「4. 전혀 적합하지 않다」의 4단계의 평정으로 회답을 구하는 것이면, 회답결과를 0 내지 1의 부분득점으로서 처리하기 때문에, 각 회답을 x라 할때 (x - 1)/3으로 변환하여 「0, 1/3, 2/3, 1」의 4단계를 취하는 부분득점 데이터로서 분석하게 된다. 이것은 3개의 2값 항목의 득점의 합을 3으로 나눈 것과 동일하다. 즉 질문지의 회답이 m + 1단계의 평정이면, 2값 데이터의 반복수(sj)는 m이라고 추정할 수 있다.
제 3으로, 부분득점이, 복수의 정오 2값 문제의 평균치가 아니고, 채점자의 평정과 같은 채점결과로서, 비교적 단계수가 적은 경우에 대하여 고찰한다. 가장 간단한 sj의 추정방법은, 부분득점(r)이 s + 1 단계의 득점이면, 원래의 2치 데이터항목의 반복은 s라고 추정하는 것이다. 부분득점 모델의 생각에서는 2치 데이터의 합계를 반복횟수로 나눈 것이 부분득점(r)과 대응하고 있었기 때문에, 예를 들면 채점자의 평가결과가 0, 0.5, 1의 3단계로 표현되는 것이면, 이것은 2개의 2값 항목의 득점의 합을 2로 나눈 것 밖에 되지 않다. 물론 이것이 성립하기 위해서는 득점이 발생할 가능성이 있는 각 단계 사이의 등간격성이 필요하게 된다. 동일한 3단계의 부분득점이더라도 0, 0.5, 1과 0, 0.75, 1.0 이 가지는 의미는 다르다. 부분득점이 동일 모수항목의 반복에 의해 생긴다는 가정으로부터는 반복수 2로 후자의 패턴이 생긴다고는 생각하기 어렵고, 보다 큰 반복수를 가정할 필요가 있을 것이다. 예를 들면 0, 0.25, 0.5, 0.75, 1.0의 패턴을 상정하고, 반복하여 4를 생각하는 경우이다.
제 4로, 부분득점이 복수의 정오 2값 문제의 평균치가 아니고, 채점자의 평정과 같은 채점결과로서, 단계수가 많은 경우에 대하여 고찰한다. 이미 설명한 바와 같이 부분득점(r)이 m+ 1 단계일 때 2값의 정오항목으로 이것을 구성하기위해서는 반복횟수(s)는 m 인 것이 필요하다. 단계수가 적은 경우는, 전절의 추정으로 좋다고 생각되나, 단계수가 많아지면 문제가 발생할 가능성이 높아진다. 예를 들면 100점 만점의 테스트에서, 1명의 결과를 제외한 해답에 채점자가 10점씩으로 채점한 경우, 단계수는 11단계에서 반복수는 10이다. 그러나 채점자가 남은 1명의 해답결과에 69점이라는 점수를 주었다고 하면 그 순간, 반복수를 101로 하지 않으면 부분득점화가 곤란하게 된다. 또 득점을 정수로 한정하지 않고 실수도 허용하는 경우에는, 이러한 사고방식으로는 반복수를 추정하는 것은 곤란하게 된다.
이상과 같은 문제를 해소하기 위하여, 여기서는 약간의 가정을 설정한 다음에 반복수를 추정한다. 문제 j의 부분득점은, 해당 문제에 관계하는 잠재적인 문제의 반복실시에 의한 정오의 평균으로 부분득점이 구성되는 것을 가정하고, 정답확률은 Pj, 오답확률은 Qj = 1-Pj 라 한다(이상 부분득점의 가정). 이때 θ를 고정하면 부분득점(R)이 0, 1/m, 2/m, …, 1을 취할 확률 Pm(R = r|θ)은 2항 분포
에 일치한다. 그렇게 하면 모집단 전체에서는 m 회의 반복으로 부분득점(r)이 될 확률은,
이고, 그 분포함수는
이 된다. 여기서 ψ(θ)는 모집단 분포이다. 이 이론분포와 데이터로부터 얻어지는 경험분포가 일치하는 것이 바람직하다. 이 때문에 이론분포와 경험분포의 일치도를 콜모고로프 스미르노프 검정의 통계량
로 평가한다. 여기서 F(r)은 이론분포에 있어서의 단계 r까지의 분포함수의 상대누적도수이고, F'(r)은 경험분포에 있어서의 단계 r까지의 상대누적도수이다.
실제로 콜모고로프 스미르노프 검정의 통계량을 구하기 위해서는, 이론분포, 경험분포 모두 r이 이산량이고, 또 양자에서 단계의 값이 반드시 일치하지 않기 때문에 생기는 비교의 곤란함이 있어, 여기서는 다음과 같은 방법으로 비교하기로 하였다.
먼저 ψ(θ)을 표준정규분포라 가정한다. 물론 이것은 필요에 따라 θ의 모집단 분포와 상정되는 임의의 것을 사용할 수 있다. 이에 의하여 수치적분을 행하면 수학식 29가 구해지고, 그 결과 수학식 30을 알 수 있다. R은 0, 1/m, 2/m, …, 1의 m + 1단계의 값을 취할 수 있는 것이나, R이 잠재적으로는 연속량이라고 가정하면, 예를 들면 ℓ번째의 단계값(ℓ/m)의 도수는, 구간 에 포함되는 R의 도수의 반영임이 분명하다. 이 때문에 ℓ번째의 단계값 ℓ/m까지의 이론분포함수 F(ℓ/m)와 비교하는 경험분포함수 F'(ℓ/m)는, 부분득점으로서의 구간[0, 1] 내의 구간의 상대누적도수라 하기로 한다.
이상과 같은 방법으로, 최소의 콜모고로프 스미르노프 검정의 통계량을 주는 단계수(m)를, 반복수(sj)의 추정값으로 하는 것이 가능하고, 이하의 시뮬레이션 및 실제의 데이터에의 적용에 의하여 이 방법의 유효성이 확인되어 있다.
제 5로, 시뮬레이션에 의한 반복수(sj)의 추정법의 검토에 대하여 설명한다. 문제 j의 부분득점(rj)이 정오 2값 문제의 반복제시에 의한 정오 평균으로서 표현되는 것을 가정하여, 시뮬레이션에 의해 이것을 재현하고, 반복수(sj)로 하여 sj = 5, 10, 20, 40의 4종류(하나의 문제의 부분득점 데이터를 만들기 위하여 2값의 문제를 5 내지 40개 이용하였다는 것)를 행하고, 40문제 3000인분의 데이터를 작성하였다.
전절의 반복수(sj)의 추정법은, 항목 모수가 주어져 있지 않으면 안된다. 이 때문에 작성된 부분득점 데이터에 의거하여 항목 모수와 능력 모수의 동시추정을 행하였다[이 단계에서의 반복회수(sj)는 1].
도 7a는, 참이 s = 5일 때, 추정된 경험분포와 이론분포의 분포함수의 차의 최대값(콜모고로프 스미르노프 검정의 통계량)을, 반복수 s = 3 내지 10에 대하여 플롯한 것이다. 여기서 문제로 하고 있는 것은 반복수가 클 때의 케이스이기 때문에, 반복수(s = 1, 2)는, 원래 불필요하므로 생략하고 있다(2항 분포를 이용한 반복수의 추정은 최저라도 s = 3부터로 하고 싶다). 이 도면으로부터 분명히 참인 반복수 5의 점에서 콜모고로프 스미르노프 검정의 통계량이 최소값을 주고 있는 것을 알 수 있다. 도 7b에는 s = 10, 도 7c에는 s = 20, 도 7d에는 s = 40인 경우를 나타내었으나, 모두 참인 반복수로 최소값을 취하고 있음을 알 수 있다.
제 6으로, 능력검사에 대한 적용예로서, 실제의 데이터에서의 반복수의 추정예에 대하여 설명한다. 영어력 테스트에서의 반복횟수(sj)의 추정에 대한 적용예를 나타낸다. 상기 테스트는 수험자 9480명, 문제수 43항목의 데이터이고, 장문독해에 얽혀 복수의 소문을 맞히고 있기 때문에 5문세트가 2세트 존재하고 있다. 양 세트의 소문의 정오평균으로 부분득점을 작성하여, 전절의 반복수의 추정을 시도하였다. 그 결과 얻어진 것이 도 8a 및 도 8b 이다. 어느쪽도 해당 군의 문제수 5이고 콜모고로프 스미르노프 검정의 통계량은 최소값을 취하고 있는 것을 알 수 있어, 추정의 유효성이 나타나 있다.
이상에서는, 본 발명에 의한 컴퓨터적응형 테스트설계 및 처리시스템에 있어서 사용되는 부분득점 모델에 대하여 설명하였다. 이 부분득점 모델은, 2값의 항목반응 모델을 수정함으로써 얻어지고 있다. 따라서 이 부분득점 모델에서는 추정해야 할 파라미터의 수도 2값 모델의 경우와 동일하고, 문제의 특성에 특별한 관심이 있을 때 이외는, 학력 테스트의 설계 및 결과처리시에 종래 시도되어 왔던 것 같은 복잡한 다치 모델을 이용할 필요성은 적다고 할 수 있다.
본 발명에 있어서 사용되는 부분득점 모델을 종래부터 공지였던 단계반응 모델 등과 비교하면, 다음과 같은 것이 분명해진다. (1) 항목반응 이론에서는 통상은 데이터가 2치이고, 1차원인 것을 요구하고 있으나, 부분득점 모델은 다치, 다차원 데이터에 적용할 수 있다. (2) 부분득점 모델은(단계반응 모델이나 다른 다치 모델에 비교하여 ) 간단하고 명료한 모델로 이용자에게 이해되기 쉽다. (3) 부분득점 모델은(단계반응 모델이나 다른 다치 모델과 다르다), 일반적으로 흔히 이용되고 있는 2 모수 로지스틱 모델과 똑같기(seamless) 때문에, 결과의 해석도 용이하고, 2값과 다치의 혼재 데이터의 분석에도 편리하다. (4) 부분득점 모델은, 모델의 파라미터의 수가(단계반응 모델이나) 다른 모델에 비교하여 적어, 추정에 문제가 생기지 않는다. (5) 부분득점 모델은, 어떠한 해답(회답)결과라도 O부터 1의 부분득점으로 변환하면 적용할 수 있기 때문에 응용범위가 넓다. (6)부분득점 모델은, 테스트뿐만 아니라 질문지 데이터에도 용이하게 적용할 수 있다. (7) 부분득점 모델은, 해답(회답)의 단계수가 늘어나더라도(단계반응 모델이나 다른 모델과 같이) 모델의 파라미터가 증가하지 않기 때문에, 채점결과의 변경에 대응이 용이하다.
또, 본 발명의 발명자 1명(후지모리)은, 부분득점 모델을 사용한 시뮬레이션을 행하였는데, 그 결과에 의하면 (1) 단계반응 모델은, 테스트가 소수항목이면 식별력의 추정에 바이어스가 걸리나, 부분득점 모델에서는 이 현상은 생기지 않는다. (2) 정답수 득점과 능력 추정값의 순위상관은, 부분득점 모델의 쪽이 단계반응 모델보다 높다(참된 값과의 상관에서는 양 모델 모두 거의 동등).
이상으로 본 발명에 의한 테스트시스템에 있어서 사용되는 부분득점 모델의 개요를 설명하였으나, 그 요지를 재확인하여 두고 싶다. 본 발명이 의거하는 부분득점 모델에 있어서는, 합계점을 합을 취한 항목수로 나눔으로써 O에서 1 사이의 부분득점으로서 입력 데이터로 하는, 즉 2값 모델의 우도의 정오에 사용되는 더미 변수를 부분득점을 나타내는 실질적 변수 또는 정오확률의 가중으로서 처리한다. 이러한 상정하에서 부분득점을 처리하여도, 이론적으로도 종래의 2값형 처리의 경우와의 정합성이 유지되고, 또 시뮬레이션의 결과를 보더라도 2치 데이터 경우의 우도함수를 사용하는 추정결과와 부분득점 모델에 의한 우도함수를 사용하는 추정결과는 실질적으로 동일하다고 할 수 있다.
다음에 상기한 부분득점 모델이 본 발명에 의한 테스트시스템에 있어서 어떻게 구체적으로 적용되는지를 설명하고 싶다. 구체예로서, 영어능력 테스트를 생각한다. 다지 선택식 등 해답이 정답 또는 오답의 2값으로 평가되는 설문에 관해서는 종래형의 항목반응 이론이 적응되어, 수학식 4의 우도함수(LB)를 사용하여 항목 파라미터와 능력값(θ)이 추정된다. 이에 대하여 쓰기(작문)나 말하기(회화)의 문제에서는, 정오판단에 의한 2치적인 채점이 아니라 부분점을 허용하는 채점을 행하는 것이, 수험자의 영어능력평가를 보다 분석적이고 또한 정밀하게 행하는 것을 가능하게 한다고 생각된다. 그와 같은 경우에는 2값 평가를 전제로 하는 종래형의 항목반응 이론을 적용할 수는 없어, 상기한 부분득점 모델이 사용된다.
부분득점 모델에서는, 예를 들면 작문문제에 대한 수험자의 해답을 채점할 때에, 영점 (0)부터 만점 (1)까지의 사이에 25%씩의 부분득점을 줄 수 있다. 구체적으로는 수학식 5에 있어서 rij가 0, 0.25, 0.50, 0.75, 1 이라는 5개의 값을 취할 수 있는 우도함수를 생각하고, 부분득점을 처리한다. P를 정의하는 수학식 3에 포함되는 항목 파라미터 a(식별력) 및 b(곤란도)는, 동일한 문제를 사용하여 미리 행하여진 사전 테스트에 있어서의 데이터를 사용하여 이미 추정되어 있다. 이미 일반론으로서 논한 바와 같이, 본 발명의 부분득점 모델에서는 부분득점을 동일 파라미터를 가지는 문제가 반복적으로 출제된 경우의 정오의 평균으로서 표현되는 것으로 상정하고 있기 때문에, 1개의 항목(= 문제) 내부에서는, 어떤 부분득점에 대해서도 항목 파라미터 a 및 b의 값은 동일하다.
구체예로서, 이와 같은 영작문의 문제가 3문제 출제되어, 소정의 수험자에 의해 주어진 해답이 각각 0.25, 0.75, 0.50 으로 평가되는 경우를 생각한다. 이 경우, 0과 1을 포함하면 5단계의 부분득점을 사용하여 평가되고 있기 때문에, 반복수는 4이고, 우도함수(Lpart)의 대수 우도를 생각하여 수학식 9의 rj에 부분득점 0.25, 0.75, 0.50을 대입함으로써 다음과 같이 결정된다.
여기서, 로지스틱 곡선(P)에 포함되는 항목 파라미터 a 및 b는, 각각의 문제에 대하여 미리 추정되어 있다. 수학식 32의 대수 우도를 사용하여 최우 추정법이나 베이즈 추정법에 의하여 수험자의 능력(θ)이 추정된다. 이들 방법 자체는 종래부터 알려져 있는 일반적인 통계학적 방법으로, 본 발명의 특징이 아니다. 그러나 어느쪽의 추정방법을 사용한다고 하더라도 필요한 대수 우도는, 본 발명의 핵심 인 부분득점 모델에 의해 비로소 얻어지는 것이다.
이상은, 부분득점 모델의 기본적인 적용예이다. 또한 부분득점 모델을 사용하면 이러한 단순한 예와는 달리, 복수의 평가기준을 마련하여 1문제를 복수의 시점으로부터 평가하는 분석적인 평가방법을 채용함으로써, 수험자의 능력추정의 정밀도를 향상시킬 수도 있다. 예를 들면 상기한 기본적인 적용예에서는 현재화하지 않은 수험자의 능력차를 분명하게 할 수 있는 가능성이 있다. 예를 들면 쓰기문제에서는 정밀도가 높은 평가를 위하여, (a) 목적달성의 유무(Goal Achievement), (b) 문법(Grammar), (c) 어록(Vocabulary), (d) 문장구성(Style), (e) 철자 ·구독점(Mechanics)라는 5개의 평가기준을 설정하고, 말하기문제이면 (a)부터 (c)에 더하여, (f)이야기의 유창함(Fluency), (g) 발음(Pronunciation)이라는 5개의 평가항목을 설정한다. 이러한 평가항목을 설정하는 이유는, 예를 들면 작문의 설문이면 매우 서투르나, 쓰는 사람의 의도가 일단은 읽는 사람에게 전해지는, 문법적으로는 오류는 없으나, 나머지에 부자연스럽고, 상황에 맞지 않는, 명확한 문법상의 오류가 있는, 단어의 철자에 틀림이 있는, 유사한 단어가 오용되고 있는, 문의 도중에서 중단하여 완결되어 있지 않은, 펑크추에이션(punctuation)이 틀려 있는 등, 단지 하나의 작문을 평가하는 경우에도, 다른 복수의 시점으로부터 평가를 행하면, 하나의 문제를 복수의 소문제로 구성되어 있는 것으로 생각하고, 시점마다 다른 평가가 가능하기 때문이다. 그리고 이와 같이 복수의 평가항목을 설정하면, 하나의 문제를 복수의 문제로 구성되어 있는 것으로 간주함으로써, 상기한 기본적인 적용예의 경우보다도 고정밀도의 평가가 가능해질 수 있다.
이상과 같은 평가항목을 마련한 경우에는, 다음과 같은 평가가 가능할 것이다. (1)의 목적달성의 유무에 대해서는, 예를 들면 「상대에게 숙소를 수배하여 주었으면 좋겠다는 의도의 전달」이라는 목적이 문제마다 설정되고, 설정된 목적이「달성되어 있다, 달성되어 있지 않다」의 2값(1 또는 0)으로 채점된다. 그것 이외의 평가항목에 관해서는, 0부터 1까지의 사이에 25% 씩의 부분득점을 허용하는 채점을 행한다. 즉, 수학식 5의 rij에 0, 0.25, 0.5, 0.75, 1 이라는 5개의 값이 대입된다. 상기한 기본적인 적용예와 마찬가지로, 우도함수에 포함되는 로지스틱곡선(P)을 정의하는 수학식 3에 포함되는 항목 파라미터 a(식별력) 및 b(곤란도)도, 상기한 예와 마찬가지로 동일한 문제를 사용하여 정식 테스트에 선행하여 행하여진 사전 테스트에 있어서의 데이터를 사용하여 미리 추정되어 있다. 이러한 채점방법을 사용하면, 단지 1 표제의 영작문 또는 회화의 문제를 출제함으로써, 매우 다각적인 평가가 가능하게 된다. 단, 여기서 든 평가항목은 단지 예시이며, 본 발명에 의한 테스트시스템에 있어서 다른 시점으로부터 평가를 행하는 것도 가능하다.
이상이, 부분득점 모델을 포함하는 항목반응 이론이 영어능력 테스트에 적용되어 수험자의 능력이 추정되는 형태에 대한 설명으로, 본 발명은 이러한 부분득점 모델을 포함하는 항목반응 이론에 의한 능력추정을 인터넷 접속환경에 있는 일반적인 퍼스널컴퓨터를 사용하여 실현하는 테스트시스템 및 테스트방법이다. 이하에서는 첨부의 도면을 참조하면서 본 발명에 의한 테스트시스템의 동작을 개설한다.
도 1에는, 본 발명에 의한 테스트시스템의 제 1 실시예의 개요가 나타나 있다. 수험자는 본 발명에 의한 시스템에 의하여 설계, 실시 및 처리되는 테스트(예를 들면 영어능력 테스트)를 실시하는 어학학교 등에 설치된 인터넷 접속환경에 있는 퍼스널 컴퓨터인 수험자 유닛(101)을 사용하여 테스트를 수험한다. 수험자의 인증이 적절하게 이루어진 것이면, 자택에서의 수험도 가능하다. 수험자에 의해 키보드, 마우스, 마이크로폰 등을 거쳐 퍼스널 컴퓨터인 수험자 유닛(101)에 입력되는 해답결과는, 인터넷 등의 네트워크(103)를 거쳐 채점자 유닛(102)에 보내지고, 예를 들면 테스트 대상인 영어를 모어로 하는 채점자가 부분득점을 허용하면서 채점을 행한다. 그때에 부분득점을 주는 평가항목은 문제의 난이도에 맞추어 변경되는 일은 없다. 단, 해답결과는 수험자 유닛(101)으로부터 직접으로 채점자 유닛 (102)에 송신되는 것은 아니고, 이 테스트를 집중적으로 관리하는 테스트 관리서버 (104)에 일단 보내진 후에 복수 존재하는 중으로부터 적절하다고 판단되는 채점자 유닛(102)으로 보내지는 것이 일반적이다. 테스트 관리서버(104)는, 문제 데이터 베이스(105)를 구비하고 있다. 문제 데이터 베이스(105)에는 사전 테스트로서 실시되어, 항목 파라미터(수학식 3에 있어서의 식별력 a 및 곤란도 b)가 미리 추정되어 있는 문제군이 기억되어 있다. 테스트 관리서버(104)는 수험자가 특정되면, 문제 데이터 베이스(105)로부터 1군의 문제를 선택하고, 선택된 문제군을 수험자 유닛 (101)에 송신한다.
도 2에는 수험자 유닛(101)의 개요가 도해되어 있다. 수험자 유닛(101)은 통상, 인터넷 접속환경을 가지는 일반적인 퍼스널 컴퓨터이다. 입력장치(207)는 키보드, 마우스, 터치패널 등 기계적인 입력장치이고, 음성 입출력장치(209)는 마이크로폰이나 스피커 등이다. 수험자는 우선 입력장치(207)로부터 수동으로, 또는 음성 입출력장치(209)로부터 음성으로 자기 자신의 ID를 입력함과 동시에, 테스트의 개시를 지시한다. 수험자의 ID는, 그 수험자가 수험의 신청을 행하는 등록시에, 테스트 관리서버(104)로부터 각 수험자에 대하여 일의적으로 발행된 것이 사용된다. 보안관리를 위해 ID와 함께 패스워드도 발행되는 것이 일반적이다. 일의적인 ID가 발행되어 있음으로써, 동일한 수험자가 복수회 수험하는 경우에는, 그 취지가 테스트 관리서버(104)에 있어서 인식되어 적절한 출제가 이루어진다. 지시에 응답하여 테스트 관리서버(104)로부터 송신되어 디스플레이(208)에 표시되는, 또는 스피커를 포함하는 음성 입출력장치(209)로부터 출력되는 자기의 레벨에 맞추어 선택된 문제에 대하여, 수험자는 입력장치(207) 또는 마이크로폰[음성 입출력 장치 (209)]을 거쳐 해답을 입력한다. 해답, 특히 부분득점을 허용하는 채점이 필요하게 되는 쓰기나 말하기의 설문에 대한 해답은, 통신 인터페이스(202)와 인터넷 등의 네트워크(103)를 거쳐 채점자 유닛(102)에 보내진다. 단, 이미 설명한 바와 같이 해답은 수험자 유닛(101)으로부터 직접 채점자 유닛(102)에 송신되어 실시간으로 채점되는 것이 아니라, 이 테스트를 집중적으로 관리하는 테스트 관리서버(104)에 일단 보내진 후에, 복수 존재하는 중으로부터 적절하다고 판단되는 채점자 유닛 (102)에 보내지는 것이 일반적이다. 일정수의 해답이 모이고 나서 채점하는 것이 효율적이라는 채점의 경제로부터도 이것은 당연할 것이다.
도 3에는 채점자 유닛(102)의 개요가 도해되어 있다. 채점자 유닛(102)은, 수험자 유닛(101)과 동일하게 통상 인터넷 접속환경을 가지는 일반적인 퍼스널 컴퓨터이다. 인터넷 등의 네트워크(103)를 거쳐 수험자 유닛(101) 또는 테스트 관리서버(104)로부터 보내져 오는 해답결과를 디스플레이(308)에 표시하고, 또는 스피커[음성 입출력장치(309)]로부터 출력하여 키보드나 마우스 등의 입력장치(407)를 사용하여 채점한다. 채점결과는 인터넷 등의 네트워크(103)를 거쳐 테스트 관리서버(104)에 반송한다.
이상으로 설명한 본 발명의 테스트시스템을 실현하는 제 1 실시예에서는, 수험자 유닛과 채점자 유닛과 테스트 관리서버가 인터넷 등의 통신회선을 사용한 통신 네트워크의 통신단말로 구성되어 있었다. 그러나 당업자에는 분명한 일이나, 본 발명에 의한 테스트시스템은, 제 2 실시예로서 통신기능을 구비하고 있지 않은 스탠드얼론의 퍼스널 컴퓨터를 사용하여 실현할 수도 있다. 그 경우, 난이도 및 식별력이 미리 추정된 다수의 문제가 기억되어 있는 데이터 베이스는, 예를 들면 해당 퍼스널컴퓨터의 하드 디스크 등의 기억장치에 구축되어 있고, 수험자는 예를 들면 CD나 DVD 등에 저장된 형태로 제공되는 본 발명의 테스트를 실시하는 프로그램에 포함되는 명령에 따라 출제되는 쓰기나 말하기 등의 문제에 대하여, 키보드나 마이크로폰을 거쳐 해답한다. 해답결과는 일단 하드 디스크 등에 기억되고, 채점자는 그 해답결과를 하드 디스크로부터 판독하여 부분득점을 허용하는 채점을 행한다. 이 제 2 실시예의 경우의 부분득점의 처리방법은, 제 1 실시예의 경우와 동일하다. 채점이 이루어지면 부분득점 모델에 의거하는 우도함수를 사용하여 수험자의 능력추정이 행하여진다.
도 4는 본 발명에 의한 테스트시스템을 사용한 테스트실시의 개요를 나타내는 플로우차트이고, 특히 제 1 실시예에 따라 본 발명이 의거하는 부분득점 모델이 사용되는 쓰기 및 말하기에 관한 테스트의 실시 및 처리 프로세스가 나타나 있다. 또한 쓰기 문제에서는 수험자는 키보드[도 2의 입력장치(207)]를 사용하여 영문 등의 문장을 찍어 넣는 형식으로 해답하는 것이 일반적이다. 말하기의 문제에서는 수험자가 퍼스널 컴퓨터에 구비된 마이크로폰[도 3의 음성 입출력장치(309)]을 거쳐 제시된 질문에 대한 응답으로서, 또는 자유로운 내용으로 음성을 입력하고, 그 음성으로서 이야기된 내용이 평가의 대상이 된다. 채점자는 수험자가 현재 이용하고 있는 퍼스널 컴퓨터와 인터넷 등의 네트워크를 거쳐 접속되어 있는 다른 단말인 채점자 유닛의 앞에서 대기하여 실시간으로 채점을 행하는 것도 가능하나, 실제로는 수험자의 해답은 일단 테스트 관리서버에 기억된 후에 채점자 유닛에 보내져 집합적으로 다수의 해답을 채점하는 것이 일반적이다.
먼저, 수험자는 수험자 유닛(101)에 있어서 인터넷상의 지정된 웹페이지에 엑세한다. 그 웹페이지에 있어서 자기자신의 수험자 ID와 패스워드를 입력하여 인증이 이루어진 다음에, 소정의 버튼을 클릭함으로써 쓰기 또는 말하기문제의 수험을 개시할 의도를 통지한다(400). 테스트 관리서버(104)는, 이 통지에 응답하여 쓰기 또는 말하기의 문제를 문제 데이터 베이스(105)로부터 선택한다(단계401). 이 선택시에는 이 수험자에 의한 다지 선택식 문제에 대한 해답의 채점결과로부터 추정된 능력(θ)과의 관계에서 가장 적절한 식별력 및 곤란도를 가지는 평가항목을 포함하는 문제를 선택할 수 있다. 예를 들면 쓰기문제 선택시에는 읽기문제에 대한 해답결과를 참고로 하고, 말하기문제 선택시에는 듣기문제에 대한 해답결과를 참고로 하는 것을 생각할 수 있다. 이는 쓰기 능력은 읽기 능력과 상관관계를 가지고, 말하기 능력은 듣기 능력과 상관관계를 가진다고 생각되기 때문이다. 단, 이러한 문제선택은 단순한 예시이며, 본 발명에 의한 부분득점 모델을 포함하는 항목반응이론에 의거하는 테스트시스템의 본질 부분이 아니다.
선택된 문제에 대응하는 로지스틱곡선에 포함되는 항목 파라미터는, 먼저 실시된 사전 테스트에 있어서의 데이터로부터 평가항목마다 미리 결정되어 있는 것이 일반적이다. 단, 능력 파라미터의 추정과 동시에 항목 파라미터를 추정하는 동시 최우 추정 등도 이론적으로는 가능하고, 본 발명에 의한 테스트시스템도 이 동시 최우 추정의 가능성은 배제하지 않는다. 그 경우에는 문제 데이터 베이스(105)에 기억되어 있는 문제의 항목 파라미터는 이미 추정되어 있는 경우와 그렇지 않은 경우가 병존하게 된다. 항목 파라미터의 추정은, 능력(θ)의 추정과 마찬가지로 수학식 5의 우도함수가 사용한 부분득점 모델에 의거하여 행하여진다. 또 항목 파라미터가 추정될 때에는 각각의 문제의 식별력 및 곤란도를 표준화하는 등화라 불리우는 프로세스도 행하여진다. 이 등화 프로세스에 의하여 수험자의 모집단에 좌우되지 않는 절대평가가 가능하게 된다. 단, 등화 자체는 항목반응이론 일반에 대하여 타당한 것으로서, 특히 본 발명의 특징이 아니다.
테스트 관리서버(104)에 의해 출제되어야 할 문제가 선택되면, 선택된 문제는 인터넷 등의 네트워크(103)를 거쳐 수험자 유닛(101)에 송신된다(단계 402). 송신된 문제는 텍스트형식의 문제이면 디스플레이(208)에 있어서, 음성형식의 문제이면 스피커[음성 입출력장치(209)]로부터 수험자에 대하여 출제된다(단계 403). 수험자는 그 출제된 문제에 대하여 문장을 찍어 넣는 형식으로, 또는 이야기된 음성형식으로 해답을 준다(단계 404). 해답을 구성하는 문서 또는 음성 파일은, 인터넷 등의 네트워크 (103)를 거쳐 테스트 관리서버(104)에 송신되어 일단 기억된다(스텝 405).
이상의 프로세스가 일정수의 수험자에 대하여 반복되고, 일정수의 해답 파일이 테스트 관리서버(104)에 기억된다. 단, 이들 복수의 수험자에 대하여 출제되는 문제는 동일하다고는 한정하지 않는다. 항목반응이론의 일반론으로부터 출제되는 문제는 달라도 능력(θ)은 적절하게 추정될 수 있기 때문이다. 채점자 유닛(102)으로부터 테스트 관리서버(104)에 의해 개설되어 있는 웹페이지에 대한 엑세스가 이루어지고, 테스트 관리서버(104)에 축적되어 있는 해답을 채점을 위해 송신하고 싶다라는 리퀘스트가 이루어지면, 일정수의 해답 파일이 채점자 유닛(102)에 보내진다(단계 406). 채점자는 이미 설명한 부분득점을 허용하는 방법에 의해 해답을 채점하여(단계 407), 채점결과를 테스트 관리서버(104)에 반송한다(단계 408). 단, 일반적으로는 이와 같이 복수의 해답이 정리되어 채점되거나, 실시간으로 채점되거나는 본 발명의 특징과는 관계없다.
다음에, 테스트 관리서버(104)는 채점자 유닛(102)으로부터 수신한 부분득점을 수학식 5의 우도함수에 대입하여 능력(θ)의 추정을 행한다(단계 409). 상기한 바와 같이 항목 파라미터가 동시에 추정되는 경우도 있을 수 있다. 추정의 방법은 최우 추정, 베이즈 추정 등이다. 추정이 종료되면 필요한 경우에는 추정된 θ의 값이 다른 테스트와의 비교에 적합한 점수로 환산된다(단계 410).
본 발명의 테스트시스템을 사용하여 상기한 바와 같이 처리를 행함으로써 종래부터 행하여져 온 일반적인 항목반응이론에서는 처리가 곤란하였던 부분득점을 허용하여 채점을 행하는 문제를 포함하는 테스트이더라도 종래형의 항목반응이론과 동일한 능력추정을 행할 수 있다.
발명자들은, 본 발명에 의한 테스트시스템을 사용한 능력추정의 유효성을 확인하기 위하여 2003년 5월 21일부터 28일에 있어서, 피험자 12명에 의한 점수안정성 확인조사를 행하였다. 방법으로서는 동일 피험자에게 3회 계속하여 본 발명에 의한 테스트시스템을 사용한 영어능력 테스트를 수험하게 하여 점수에 큰 편차가 생기는지의 여부를 확인하였다. 여기서 실시된 영어능력 테스트는, 듣기, 읽기, 쓰기, 말하기의 4개 기능의 테스트로 구성되어 있었다.
피험자는 동경의 비교적 영어가 능숙한 모대학의 대학생 12명이다. 만약 본 발명에 의한 테스트시스템에 의한 영어능력평가가 적절한 것이고 등화를 포함한 각 문제의 항목 파라미터의 추정이 본 발명에 의한 테스트시스템에 있어서 적절하게 이루어져 있는 것이면, 동일 수험자가 하루 중에 3회 테스트를 수험한 경우, 영어능력은 그 사이에 변화되지 않는다고 생각되기 때문에, 결과의 점수는 크게 변동되지 않을 것이다.
결과의 상세는 도 5의 그래프로서 나타내고 있다. 또 12명의 평균 점수는 도 6과 같다. 개인 차는 각각 있으나, 도 5 및 도 6에 있어서 관찰되는 바와 같이 1회째부터 2회째에 있어서 시험형식의 습관에 의한 득점의 향상 (일반적으로는「리허설효과」라 불리운다)과, 3회째 수험에 있어서의 피로효과(특히, 제일 마지막 회의 최종문제인 말하기의 득점에 보이는)에 의한 득점의 저하를 볼 수 있었다.
그러나 평균점에서 보면 각 기능에서 250점 만점 중 5.4 내지 18.5점의 점수의 변동(= 2.2% 내지 7.4%)이고, 총 점수에서도 3%의 변동폭에 그치고 있다. 따라서 다른 문제를 수험하여도 본 발명에 의한 테스트시스템에서는 테스트 점수의 변동은 적고, 점수의 표준화가 적절하게 행하여지고 있으며, 모집단의 능력레벨에 좌우되지 않는 절대평가가 가능한 것을 알 수 있었다.
동일 파라미터를 가지는 복수의 항목이 반복적으로 출제된 경우의 정오의 평균으로서 부분득점이 표현된다고 상정하면, 이론적으로는 수학식 5에 있어서의 rij를 실질적인 변수라고 생각하여 O에서 1까지 사이의 부분득점을 허용하여도 종래형의 항목반응이론에 있어서의 2치적인 평가에 사용되는 우도함수의 경우와 추정결과는 동일하게 된다, 라는 것이 본 발명에 의한 테스트시스템이 의거하는 부분득점 모델에 의한 제창이었다. 도 5 및 도 6에 있어서 나타내는 실험결과는, 이 이론적 귀결이 실험적으로도 확인되었음을 나타내고 있다.
따라서, 본 발명에 의한 테스트시스템에 의하면, 종래형의 항목반응이론과의 정합성을 유지하면서 종래보다도 고정밀도의 능력추정이 달성된다. 이것은 본 발명의 현저한 효과이다.
명세서의 제일 마지막에 본 발명의 발명자 1명(후지모리)에 의한 단계반응 모델과 부분득점 모델과의 비교에 관한 논문(『항목반응이론에 의한 다치 데이터의 분석에 대하여 1단계 반응모델과 부분득점 모델-』) 을, 글 중에서 언급되어 있는 도면(Figure)이나 표(Table)를 제외하고, 이하에 인용한다. 또한 이 논문은 이 출원에 있어서의 우선권주장의 기초가 되는 일본국 특허출원인 일본국 특원2002-279513가 출원된 평성 9월 25일 시점에서는 미발표이었으나, 그후 문교대학 인간과학부의 기요 (紀要)인『인간과학연구』24호에 있어서 발표되었다(2002년). 또 이 논문은 학력테스트만을 염두에 둔 것이 아니라, 보다 넓은 응용에 대해서도 언급하고 있기 때문에, 「문제」가 아니라 「항목」, 「수험자」가 아니라 「피험자」 등, 이상의 용례와 다른 개소가 포함되어 있다.
1. 연구의 목적
2 모수 로지스틱 모델(Birnmaum, 1968)과 같은 일반의 항목반응이론에서는 정답, 오답과 같은 2치 데이터를 처리할 수 있을 뿐이고, 다치의 데이터를 분석할 수는 없다. 그러나 심리학 일반의 연구에서는 질문지 데이터 등에서 다치 데이터를 이용하는 경우도 많다. 항목반응이론에서도 다치 데이터를 전혀 처리할 수 없는 것은 아니고, 몇가지 분석모델이 개발되어 있다. 예를 들면 사메지마(1969)의 단계반응 모델(graded response model), 평정척도모델(rating scale model; Andrich, 1978)이나 파셜 크레디트(partial credit)모델(Masters, 1982)은 이 종류의 대표적인 것이 된다. 그러나 현실문제로서는 분석하기 위한 소프트웨어 환경이 충분히 정비되어 있지 않은 것도 있어서 그런지 이들 모델이 널리 일반적으로 이용되고 있다고는 하기 어렵다.
이러한 상황을 감안하여 본 연구에서는 후지모리(2001)의 부분득점 모델(partial test score model)과 단계반응모델과의 비교를 시뮬레이션 및 질문지 데이터의 분석결과를 기초로 행하고, 항목반응이론을 이용한 다치 데이터에 관한 분석방법의 검토를 행하기로 한다.
다치 데이터에 항목반응이론을 적용한다 하여도 어떠한 모델이 좋은지 검토할 필요가 있다. 이를 위해서는 (1) 이론적 측면의 검토, 모델 모수의 재현성이나 능력 모수의 분포 등의 영향을 검토하기 위한 (2) 시뮬레이션에 의한 검토, 그리고 현실의 데이터에 어느 정도 잘 적합한 것인가라는 (3) 실증 데이터에 의거하는 검토가 요구될 것이다. 이를 위하여 본 연구에서는 (1)을 1.3절에서, (2)를 2절에서, 그리고 (3)을 3절에서 행하기로 한다.
1. 1. 단계반응모델
m개의 순서성을 가지는 단계반응을 허용하는 사메지마(1969)의 단계반응모델을 처음으로 설명한다. 여기서는 테스트의 소정의 하나의 항목만을 생각하기로 한다. 피험자 회답의 각 단계에 대응하여 결정되는 더미변수를 u라 하고, 소정의 단계보다 낮은 단계에 반응하였을 때 0, 그렇지 않을 때 1 이 되는 더미변수를 x라 한다. 능력(θ)을 가지는 피험자가 x = 1 이 될 확률을
으로 나타낼 때
가 단계반응모델이다. 단,
이다. 수학식 33은 단계의 사이를 확정하는 경계반응곡선이고, 수학식 34는 단계의 반응확률을 표현하는 단계반응곡선이 된다. 상기의 조건을 만족하는 한 수학식 33의 함수는 어떠한 것이어도 자유이나, 본 연구에서는 흔히 이용되는 2 모수 로지스틱 모델
을 가정한다. 수학식 35의 조건을 위해, a는 수학식 38의 모든 곡선에 공통된 모수가 되어 식별력이라 불리운다. bu는 각 단계의 역치에 관계된 모수이며 곤란도라고 불리운다. 즉 단계반응모델에서는 항목마다 하나의 식별력과 각 단계의 역치에 대응하는 m-1개의 곤란도 모수를 가지고 있게 된다.
1. 2. 부분득점모델
부분득점모델에서는 부분득점을 r(O 내지 1의 범위)이라 할 때 모수 추정을 위한 대수 우도는 다음식으로 나타낸다.
여기서 i는 피험자, θ는 그 특성값을 나타내는 모수, j는 항목, s는 2치 항목 환산의 반복수, p는 2 모수 로지스틱 모델, Q = 1 - p 이다.
즉 부분득점모델은 2 모수 로지스틱 모델을 그 기초에 두고 있다. 또 동일 또는 유사항목 모수를 가지는 항목을 피험자에 대하여 잠재적으로 반복하여 실시하는 것을 상정하고 있다. 이때 r은 반복실시의 정오 평균이라 생각할 수 있다. 이러한 부분득점모델과 반복실시를 생각한 2 모수 로지스틱 모델의 최우 해는 일치하는(유사 모수일 때는 근사)것을 증명할 수 있다(후지모리, 2002a).
1. 3. 이론적 측면으로부터의 검토
부분득점모델의 특징은, 이하와 같은 것이다(후지모리, 2002b).
(1) 항목 모수는 식별력과 곤란도에서 일반의 이용자에게도 비교적 이해하기 쉽다.
(2) 모델 모수의 수가 다른 다치 모델과 비교하여 적어 추정상의 문제가 없다.
(3) 어떠한 해답/회답결과이어도 값을 0 내지 1의 부분득점으로 변환하면 적용할 수 있기 때문에 응용범위가 넓다.
(4) 질문지의 평정척도에도 용이하게 적용할 수 있다.
(5) 해답의 단계수가 증가하여도 모수가 증가하지 않기 때문에, 채점결과의 변경이나 미세조정에도 대응이 용이하다.
(6) 2 모수 로지스틱 모델과 똑같기 때문에 식별력이나 곤란도 모수의 해석도 그대로 2 모수 로지스틱 모델과 동일하게 행할 수 있으므로, 2치와 다치의 혼재 데이터 등에서의 운용에 편리하다.
(7) 테스트할 /조문(組文) 등의 부분득점화에 의해 2치 항목으로 이루어지는 테스트에 조문이 존재하는 경우, 조문을 하나의 부분득점항목으로서 운용하는 것이 가능하게 되고, 부차적으로 테스트 전체에서의 모수의 수가 감소한다.
(8) 잔차 득점에 모델을 재적용하여 다차원 데이터에 대한 대응도 할 수 있다.
(7) (8)에 대해서는 본 연구에서는 받아 들이고 있지 않으나, 특징으로서는 큰 것이다.
계속해서 단계반응모델의 특징은, 이하와 같은 것이다.
(1) 항목반응이론에서 다치 데이터에 대응한 모델로서 저명한 것이다. (2) 발표되고 나서 30년 이상의 시간이 지난 응용연구도 보고되어 있다[예를 들면 노쿠치 (1999) 등]. (3) 공개되어 있는 분석용 소프트웨어 MULTILOG가 존재한다. (4) 각 단계반응곡선이 얻어지기 때문에, 각 단계에 대한 반응에까지 관심을 가지는 경우는 편리하다. 예를 들면 경계반응곡선의 모수를 이용하면, 단계마다의 반응이 θ 상의 어느 수준에서 발생하는 것인지에 대하여 예측도 할 수 있다.
양 모델을 비교하여 보면 모델화의 사고의 차이가 분명하다. 단계반응모델은, 모델의 모수의 수가 많은 만큼, 부분득점모델과 비교하여 데이터와의 적용도 좋아진다고 생각된다. 물론 모델 모수의 수가 많으면, 모수의 정확한 추정에는 데이터량이 필요한 등의 문제가 생길 위험성이 있다. 반대로 부분득점 모델은 단순할 뿐, 적용은 뒤떨어진다고 예상되나 추정값 등의 안정성은 좋다고 생각된다. 이점에 관해서는 아카이케 정보량 규준 AIC 등의 관점이 평가에 필요하게 될 것이다.
또 단계반응모델의 (4)의 점에 대해서는, 부분득점모델에서는 모델상 이것은 곤란하다. 행한다고 하면, 사후적으로는 단계마다 피험자의 분포를 작성하여 검토하게 될 것이다. 항목 모수는 주어지더라도 테스트실시의 사전이면 피험자의 능력분포에 대하여 적당한 가정을 설정하고, 시뮬레이션을 행하여 단계마다 피험자의 분포를 작성하여 검토하게 될 것이다. 어떻든간에 단계반응모델보다 시간이 걸리게 된다.
이러한 이점이 있는 한편으로 단계반응모델은(그리고 지금까지 제안된 대부분의 다치 모델도), 각 단계에 모델 모수를 두기 때문에 단계의 변화에 유연성이 부족한 문제가 있다. 예를 들면 능력 테스트에서 교사가 채점시에 20점 만점인 항목을 0, 5, 10, 15, 20의 대략 5단계로 평가하고 있다고 하면 5단계의 단계반응 모델에서의 분석이 된다. 그러나 만약 오자 탈자 등인 답안을 1점 감점하는 것으로 하면, 갑자기 모델의 모수의 값뿐만 아니라, 모수의 수 그 자체가 변화되어 버린다는 문제점이 있다. 질문지에서도 평정을 5단계로 행하고 있는 항목을 4단계로 하면, 단계반응모델에서는 그때까지의 항목 모수를 그대로 이용할 수는 없게 되어 버리는 것이다.
이상과 같이, 어느쪽의 모델도 일장 일단은 있는 것이나, 각 단계나 평정에 대해서는 그 정도의 관심을 가지지 않고, 항목의 전체적인 특성과 능력 모수의 추정에만 관심이 있는 경우에는 부분득점모델로 충분하다고 생각된다.
2. 시뮬레이션에 의한 검토
실제의 테스트나 질문지에 있어서 회답이 어떠한 메카니즘으로 생기하고 있는 것인지는 정확하게 알 수는 없다. 부분득점모델과 단계반응모델의 어느 쪽이 보다 현실에 가까운지는 현시점에서 판단하는 것은 어렵다. 이 때문에 양 모델의 비교를 시뮬레이션으로 행하게 하여도 데이터의 작성에 있어서는 어느 쪽인가의 모델에 따라 데이터를 작성해야 할지를 정하는 것은 곤란하다. 소정의 모델을 가정하여 데이터를 작성하고, 그 모델과 다른 모델로 분석하여도, 다른 모델은 좋은 성적을 발휘하는 것은 기대할 수 없고, 비교도 잘 행할 수 없을 것이다. 이 때문에 본 연구에서는 부분득점모델을 전제로 한 시뮬레이션과 단계반응모델을 전제로 한 시뮬레이션 2개를 행하기로 하였다. 각 모델은 자기의 모델에 따른 데이터와 다른 모델의 데이터 2개를 분석하게 된다. 물론 실제의 데이터는 이 2자 이외의 메카니즘에 의한 가능성도 있을 것이나, 양 모델의 공평한 비교를 행할 수는 있다. 즉 데이터가 모델에 따르고 있는 경우는, 모델의 재현성을 시뮬레이션에 의해 검토할 수 있고, 또 데이터가 모델에 따르고 있지 않은 경우는 모델의 완건성을 평가할 수 있다.
2. 1. 부분득점모델을 전제로 한 시뮬레이션 데이터
부분득점모델을 전제로 한 시뮬레이션 데이터는, 이하와 같이 하여 작성하였다. 먼저 부분득점모델의 구성요소로서 2 모수 로지스틱 모델을 가정한다. 이 2 모수 로지스틱 모델의 모수의 분포형을 이하와 같이 정한다. 식별력 모수는, 평균 0.65, 표준편차 0.25, 하한 0.3, 상한 2.0의 절단 정규분포, 또 곤란도 모수는 평균 0, 표준편차 0.5의 정규분포에 따른다고 가정한다. 능력 모수(θ)는 평균 0, 표준편차 1.0의 정규분포에 따른다고 가정한다. 능력 모수(θ)를 표준 정규분포에 따라 작성하고, 2 모수 로지스틱 모델로 부터 예상되는 정답확률을 범위 0 내지 1의 똑같이 난수와 비교하여 전자가 하회할 경우 피험자의 반응을 정답 1, 상회할 경우 오답 0으로 한다. 2 모수 로지스틱 모델에 따르는 이 2치 데이터 패턴을 피험자수 500, 항목수 200로 하여 각 10회 반복하여 작성한다(데이터 1 내지 10). 단 5항목씩 동일 모수로 하고 있다. 계속해서 이 데이터의 동일 모수의 5항목씩의 정오의 합의 평균을 취하여 0, 0.2, 0.4, 0.6, 0.8, 1.0의 5단계의 값을 취하는 부분득점 데이터로 하였다. 즉 부분득점 데이터는, 피험자수는 2치 데이터와 마찬가지로 500이나, 항목 수는 40이 된다. 마찬가지로 하여, 상기한 항목 모수를 부여하여 새롭게 피험자의 능력 모수(θ)를 500인분 추가하여 교차검증용 데이터를 작성하였다.
2. 2. 단계반응모델을 전제로 한 시뮬레이션 데이터
단계반응모델을 전제로 한 데이터는 이하와 같이 하여 작성하였다. 단계반응 모델도 그 구성요소로서 2 모수 로지스틱 모델을 가정한다. 또 그 모수의 분포형도 o 절과 동일하다. 또 데이터의 단계수로서는 1부터 5의 값을 취하는 5단계를 가정한다. 이 때문에 모델로부터 단계간의 경계반응곡선은 4개 필요하게 된다. 이 곡선군을 확정하기 위하여 우선 식별력 모수를 하나 분포에 따라 발생시키고, 이것을 각 경계반응곡선에 공통되는 식별력으로 한다. 계속해서 4개의 곤란도 모수를 작성하고 가장 작은 것을 선택하여 단계 1과 2의 경계반응곡선의 곤란도로 한다. 이하와 같이 하여 곤란도가 작은 것으로부터 순서대로 취하여 각 경계반응곡선의 곤란도를 결정한다. 이들 경계반응곡선간의 차를 취하여 각 단계반응곡선으로 한다. 표준 정규분포에 따르는 능력 모수(θ)를 하나 작성하고, 이 값을 고정하여 각 단계반응곡선에서 예상되는 반응확률의 구간(θ을 고정하였을 때의 전 단계 반응곡선의 크기의 합은 1이다)에 O 내지 1의 똑같이 난수가 들어 갔을 때 해당 반응이 생긴 것으로 한다. 이상의 과정을 500인분 반복하여 모수 추정용 데이터로 하였다. 또 o절과 마찬가지로 이상으로 확정한 항목 모수를 이용하여 교차검증용 데이터를 500인분 작성하였다.
2. 3. 모수의 추정
모수의 추정은, 양 모델 모두 항목 모수와 잠재 특성값(θ)의 교대 동시 최우추정에 의한 자작의 FORTRAN 프로그램에 의하였다. 부분득점 모델용에서는 교대 동시 최우 추정뿐만 아니라, 항목 모수의 주변 최우 추정이 가능하나, 단계반응모델의 추정 프로그램은 교대 동시 최우 추정에만 대응하고 있기 때문에, 비교의 편의를 고려하여 양 모델 모두 항목 모수를 최우 추정하였다(결과는 생략하나 부분득점모델에 관해서는 주변 최우 추정과 교대 동시 추정의 결과에 큰 차는 없다). 양 모델 모두 θ과 곤란도의 추정값은 -3.5 내지 3.5의 범위로 정하고, 식별력 추정값의 범위는 0.02 내지 2.0 으로 하고 있다.
2. 4. 시뮬레이션의 결과와 고찰
표 1은 부분득점모델에 의해 작성한 시뮬레이션 데이터(이하 부분득점 데이터라 함)의 능력 모수의 참값, 정답수 득점과 양 모델에서 추정한 θ의 추정값의 상관이다. 단 상관은, 켄들의 순위 상관계수를 구하고 있다(이하, 특별히 명시하지 않는 경우는 상관을 가리킨다). 일반적으로 흔히 이용되는 피아손의 적율상관이 아니고 순위상관을 구한 것은, 항목반응이론의 현실의 운용 장면에서는 정답수 득점 등과 추정값 순위의 역전현상이 문제가 되는 케이스가 많기 때문이다. 표 1에서 분명한 바와 같이 참 θ과의 상관은, 모두 부분득점모델에 의한 추정값쪽이 높으나, 단계반응모델과의 차는 거의 없다. 이에 비하여 정답수와의 상관은 약간 차가 확대되어 부분득점모델에 의한 추정값이 높은 상관을 주고 있다.
또한 부분득점모델의 항목 모수의 추정값에 관해서는 예를 들면 데이터 세트 1에 대해서는 식별력의 평균 자승 오차(MSE)는, 0.0014, 곤란도에 관해서는 0.0017로서, 특별히 문제는 없는 정밀도로 추정값이 얻어지고 있다. 덧붙여 말하면, 데이터작성의 기초가 된 모델과는 다르기 때문에 값의 좋고 나쁨은 판단할 수 없으나, 단계반응모델의 식별력과의 MSE는 0.027, 곤란도는 O.31로 되어 있다.
단, 곤란도에 관해서는 단계반응곡선의 곤란도의 추정값 평균에 의하여 MSE를 산출하고 있다.
계속해서 부분득점 데이터의 추정값을 이용하여 교차검증 데이터의 성적을 비교하여 보자(표 2). 교차검증에 있어서도 양상은 앞과 마찬가지고, 참값과의 상관은 모두 부분득점 데이터가 아주 약간 상회하고, 정답수 득점에 관해서는 약간 모델간의 차가 확대되는 것이 표시되어 있다.
그런데 단계반응모델에 의해 작성한 시뮬레이션 데이터(이하 단계반응 데이터라함)에 대한 결과가 표 3 이다. 또 상기 데이터에 의거하여 추정된 항목 모수를 교차검증 데이터에 적용한 결과가 표 4이다. 어느 쪽에 있어서도 부분득점모델에 비하여 단계반응모델의 쪽이 참인 θ과의 상관이 아주 약간 높으나, 큰 차는 아니고, 데이터 세트 1, 5와 같이 역전하고 있는 케이스도 보인다. 또 전체적으로 참값과의 상관이 표 1 및 표 2에 비하여 약간 낮아져 있어, 단계반응모델이 부분득점모델에 비하여 재현성이 어려운 모델임을 시사하고 있다고 할 수 있을 것이다. 단계반응 데이터임에도 불구하고, 정답수 득점과의 상관은 단계반응모델보다 부분득점모델에 의한 추정값의 쪽이 높아져 있다. 또한 부분득점 데이터의 경우보다 그 차가 확대되어 있음을 알 수 있다. 합계점과의 순서관계의 역전은 단계반응모델에 많게 되어 있는 것이나, 이 역전이 생기는 이유는 단계반응모델에서는 항목에 따라 평정 중간부분의 단계반응곡선이 상대적으로 매우 낮아지고, 다른 항목의 회답결과에 따라서는 해당 항목의 회답이 θ의 추정에(추정오차의 크기는 어쨌든, 그 점수 추정값의 결정에는) 거의 영향력을 가지지 않게 되기 때문이다. 이 현상은 단계반응모델뿐만이 아니라, 선택지나 카테고리마다의 반응확률곡선을 모델화하는 다른 다치 모델에도 공통되기 때문에, 이들 모델의 이용시에는 주의를 할 필요가 있다고 생각된다. 물론 부분득점모델도 2 모수 로지스틱 모델을 기초로 하고 있는 이상, 합계점과 θ의 역전도 일부 생기지 않을 수 없으나, 그 정도는 낮게 억제되어 있다.
다음에 단계반응모델의 항목 모수의 추정값에 대하여 검토하자. 예를 들면 데이터 세트 1에 대해서는 식별력의 평균 자승오차(MSE)는, 0.2993, 곤란도에 관해서는 0.0636으로, 부분득점모델의 경우와 비교하여 추정 정밀도가 약간 나쁜 것을 알 수 있다. 표 5에 나타낸 항목 8, 15는 데이터 세트 1 중의 추정성적이 나쁜 항목이나, 모두 참인 경계반응곡선이 서로 너무 접근하고 있는 경우에 추정을 할 수 없게 되어 있음을 알 수 있다. 이러한 경우에는 2개의 경계반응곡선을 하나로서 처리하는 등의 대처가 필요하게 된다고 생각되나, 어떠한 기준으로 행할지 등의 문제도 있어 본 연구에서는 이것을 행하고 있지 않다. 어느 의미에서는 이러한 대처를 필요로 하는 것에 단계반응모델의 문제점이 존재한다고도 할 수 있을 것이다. 또한 모델은 다르나 부분득점모델의 식별력의 MSE는 0.0136이 되어 단계반응모델보다도 좋은 추정값을 주고 있다. 단, 단계반응모델의 항목 모수의 추정에 관해서는 주변 최우 추정에서는 성적이 개선될 가능성도 남겨져 있기 때문에, 여기서는 더 이상 받아 들이지 않고, 다른 연구에서 보고하는 것으로 하고 싶다.
이상을 정리하면 본 연구의 시뮬레이션 조건하에서는, 부분득점 데이터, 단계반응 데이터의 어느 것이더라도 참값과의 상관은 어느쪽의 모델을 이용하더라도 큰 차는 생기고 있지 않다. 이에 대하여 정답수 득점과의 상관은 분명히 부분득점모델의 쪽이 좋은 성적이고, 특히 예기에 반하여 단계반응 데이터에서 차가 커져 있다. 또 항목 모수의 수가 많은 단계반응모델에서 위구된 교차검증 데이터에서의 부적합은 생기고 있지 않다(단, 모수 추정상의 문제는 남는다). 이것은 한편으로는 본 연구가 특별히 노이즈를 태우고 있지 않은 단순한 시뮬레이션인 영향을 미치고 있을지도 모른다.
3. 질문지 데이터에 의한 검토
3. 1. 질문지 데이터 및 모수의 추정
본 연구에서 분석의 대상으로 한 데이터는, O 현의 청소년 기본조사의 중고생 1849명의 데이터로, 교사와 학생의 심리적 거리에 대하여 조사한 9항목 척도이다 (표 6). 각 항목은 「1. 매우 적합하다」부터 「4. 전혀 적합하지 않다」의 4단계에서 평정을 구하는 것이나, 9항목 모두 회답은 값이 작을 수록 심리적 거리가 작아지도록 처리되어 있다. 부분득점모델에서는, 이 데이터를 0 내지 1의 부분득점으로서 처리하기 위하여 각 회답결과를 x라 할 때 r = (x - 1)/3으로 변환하여 「0, 1/3, 2/3」」의 4단계를 취하는 부분득점 데이터로 하였다. 또 추정방법은 시뮬레이션과 동일한 방법이다. 또한 본 조사의 상세에 대해서는 기라하 등(1997) 참조하고 싶다.
3. 2. 질문지 데이터의 결과와 고찰
단계반응모델의 식별력은 부분득점모델보다 전체적으로 높아져 있다(표 7). 이것과 유사의 현상은 데이터를 2치화하여 통상의 2 모수 로지스틱 모델로 분석한 경우에도 생긴다. 예를 들면 4단계 평정의 경우, 2치화는 실질적으로는 단계 2를 1로, 단계 3을 4로 대체하기 위하여 생기는 현상이다. 표 7의「2치 모델」은 이러한 데이터변환을 한 결과이다. 부분득점모델과 비교하여 약간 식별력이 높아져 있음을 알 수 있다. 이러한 현상이 발생하는 것은 도 1의 항목 4의 군별 평균 회답결과를 4값과 2값의 경우와 비교하여 보면 잘 이해할 수 있다. 단, 도면의 작성에 있어서는 4값 2값 어느쪽의 경우도 모든 회답을 0 내지 1의 범위로 변환하고 있다. 다치 데이터의 2치화가 식별력의 추정값에 큰 영향을 주는 것을 도면으로부터 이해할 수 있다. 그런데 경계반응곡선이 실질적으로는 다치의 회답을 2치화하여 얻어지는 데이터에 의거하여 정의되고, 추정되기 때문에, 이 2치화와 유사한 현상이 생기고 있을 가능성도 있다. 그러나 시뮬레이션의 결과에서는 부분득점모델의 식별력과 단계반응모델의 식별력의 추정값은 크게 달라 있지 않았기 때문에, 2치화를 원인으로 하는 것에는 약간 의문도 남는다.
또 하나의 가능성으로서, 테스트항목수의 차이가 있다. 시뮬레이션에서는 40항목이었으나, 본 질문지는 9항목이고, 이 차이가 영향을 미칠 가능성이 있다. 이 때문에 하나의 시뮬레이션을 추가하였다. 단계반응데이터의 데이터 세트 1의 처음의 10항목만을 취하여 단계반응모델에 의해 교대 동시 추정값을 구한 바, 식별력의 값은 표 8과 같이 되었다. 분명히 항목수가 적어지면 식별력이 커지는 경향이 있음을 알 수 있다(MSE = 0.2647). 단계반응모델에서는 소수항목에서의 식별력의 추정에 바이어스가 걸리는 것은 분명하다 하여도 그 원인이 모델에 존재하는 것인지, 그렇지 않으면 추정방법에 문제가 있는 것인지는 구별되지 않으면 안된다. 즉 단계반응모델 그 자체가 아니라, 동시 최우 추정이라는 방법이 추정에 악영향을 미치게 하고 있을 가능성도 있다(동시 최우 추정에 의한 항목 모수의 추정값이 일치성을 가지지 않은 것은 잘 알려져 있다). 이 때문에 MULTILOG(Thissen, 1991)에 의해 주변 최우 추정값도 산출하였으나, 바이어스는 거의 변하지 않는다(MSE = 0.2558). 이것은 추정법의 문제라고 하기 보다는 모델에 문제가 있는 것을 시사하는 것일지도 모른다. 또 한 표 8로부터는 항목 7은 언뜻 보면 동시 최우 추정의 식별력이 극단적으로 낮고, 반대로 MULTILOG의 추정값은 타당한 값을 얻고 있는 것 같으나, 실은 MULTILOG는 곤란도에 있어서 이상한 추정값으로 되어 있어, 잘 추정할 수 없는 것에는 변함은 없다. 이 때문에 MSE의 계산으로부터는 동 항목을 제외하고 있다.
부분득점 데이터 세트 1의 10항목을 이용한 부분득점모델의 분석에서는 교대동시 추정의 MSE는, 식별력이 0.0094, 곤란도가 O.0007이고, 주변 최우 추정에서는 식별력이 0.0032, 곤란도가 0.0014가 되었다(표 9). 상기 모델에서는 교대 동시 추정, 주변 최우 추정 모두 이 바이어스는 인정되지 않는다고 하여도 좋을 것이다. 표 10에는 질문지 데이터를 양 모델로 분석하여 주변 최우 추정을 이용한 추정값을 나타내고 있다. 마찬가지로 표 10으로부터 시뮬레이션과 마찬가지로 주변 최우 추정을 이용하여도 단계반응모델에서는 식별력이 커져 있음을 알 수 있다.
단계반응모델에 있어서 소수항목에서는 식별력의 위쪽 바이어스가 걸리는 것에 대해서는 신중한 검토가 필요하기 때문에, 이것에 대해서는 다른 연구에서 행하기로 하고, 여기서는 표 7의 동시 최우 추정의 결과에 의거하여 검토를 진행시킨다. 도 2에 항목 1의 부분득점모델의 항목반응곡선을, 또 도 3에 단계반응모델의 반응곡선을 나타내었다. 평정결과의 합계점과 양 모델의 θ의 켄들의 순위상관을 구한 바 단계반응모델과는 0.9104, 부분득점모델과는 0.9424의 상관을 얻었다(무회답이 없는 케이스 1588명만으로 산출하였다.). 부분득점모델의 쪽이. 합계점과의 상관이 약간 높고, 그 재현에는 적합한 것은 시뮬레이션의 결과와 일치하고 있다. 상관의 값은 단계반응 데이터의 시뮬레이션결과로부터 얻어진 양 모델의 상관과 가까운 것으로 되어 있으나, 이것만으로 본 데이터는 단계반응모델에 따라 발생하고 있다고 정하는 것으로는 행하지 않을 것이다. 그 이유로서는 예를들면 시뮬레이션 데이터의 작성시에 다차원성 등의 영향을 가미하면, 참값과 추정값의 상관뿐만 아니라 정답수(질문지의 경우는 합계점)와의 상관도 저하하면 용이하게 예상할 수 있는 것 등을 들 수 있기 때문이다.
본 절의 데이터는 실제의 조사이기 때문에 참값은 불분명하므로 어느쪽의 모델이 좋은지를 결정하기란 곤란하다. 그러나 단계반응모델에 있어서 합계점과의 상관이 낮은 것은 순위의 역전이 충분히 설명이 붙는 것이면 좋으나, 언뜻 봐서 알 수 있는 성격의 것이 아니기 때문에 모델의 이용자에게는 역전현상을 납득하기 어렵다는 것은 이용시에 고려하여 두는 쪽이 좋다. 어쨌든 시뮬레이션의 결과로부터는 (시뮬레이션의 조건에 가까운 경우는) 참 θ 값의 추정이라는 점에서는 큰 차는 양 모델에서 없는 것이 상상된다. 그러나 소수항목인 경우의 단계반응모델의 추정값의 바이어스가 어떠한 영향을 초래하는지는 좀더 검토할 필요가 있을 것이다. 어쨌든 항목특성으로서 식별력이나 항목 곤란도 이외에 큰 관심이 없는 경우, 즉 회답의 각 단계의 곤란도 등에 특별한 관심이 없는 경우(질문지를 이용한 많은 연구는 이것에 해당한다)에는, 복잡하고 많은 모수를 추정하지 않으면 안되는 단계반응모델보다 간단한 부분득점모델의 쪽이 적합하다고 할 수 있을 것이다. 물론, 하나하나의 단계의 반응에 까지 관심을 가지는 경우는 이 범위에 들지 않는다.
[문헌]
Andrich, D 1978 A rating formulation for ordered response categories. Psychometrika, 43, 561-573.
Birnmaum, A. 1968 Some latent trait models and their use in inferring an examinee's ability. In F. M. Lord & M.R. Novick(Eds.), Statistical theories of mental test scores(pp.395-479). Reading, MA: Addison-Wesley.
기하라 다카히로 ·다나카 하루히코·후지모리 스스무 1997 중학생·고등학생의 학교 부적응에 관한 연구 오카야마현 청소년 기본조사(1994)에 의거하는 분석 오카야마대학 교육학부 연구집록, 104, 105-122.
후지모리 스스무 2001 항목반응이론에 있어서의 부분득점의 처리에 대하여 일본 교육심리학회 제43회 총회 발표 논문집, 394.
후지모리 스스무 2002a 항목반응이론에 있어서의 테스트의 부분득점의 처리방법에 대하여 미발표 논문.
후지모리 스스무 2002b 부분득점 모델과 그 응용 제 1회 심리측정연구회.
Masters, G.N. 1982 A Rasch model for partial credit scoring. Psychometrika, 47, 149-174.
노쿠치 히로유키 1999 적응형 테스트에의 응용 : CAT방식에 의한 식별성 검사 (와타나베 나오토 ·노쿠치 히로유키 편저「조직심리측정론」제8장 시로모모책방).
Samejima, F. 1969 Estimation of latent ability using aresponse pattern of graded scores. Psychometrika Monograph, No.17.
Thissen, D 1991 Multilog user's guide. Chicago, IL: Scientific Software.

Claims (9)

  1. 입력장치와 출력장치를 구비한 제 1 컴퓨터와, 인터넷을 포함하는 네트워크를 거쳐 상기 제 1 컴퓨터와 접속되어 있고 입력장치와 출력장치를 구비한 제 2 컴퓨터와, 상기 네트워크를 거쳐 상기 제 1 및 제 2 컴퓨터와 접속된 테스트 관리서버와, 상기 테스트 관리서버로부터 엑세스 가능하고 난이도와 식별력을 포함하는 항목 파라미터가 미리 추정되어 있는 복수의 문제가 기억된 문제 데이터 베이스에 의하여 구성되고, 1명의 수험자에게 n 문의 문제를 출제하고, 출제된 n 문의 문제에 대한 상기 수험자의 반응으로부터 상기 수험자의 능력(θ)을 추정하는 테스트시스템에 있어서,
    상기 테스트 관리서버는,
    상기 제 1 컴퓨터로부터 송신된 리퀘스트에 응답하여, 1 ≤j ≤n 인 문제 j 에 대하여 만점을 1로 하여 O ≤rj ≤1인 부분득점(rj)을 허용하는 형태로 채점될 수 있는 n 문의 문제를 상기 문제 데이터 베이스로부터 선택하여 상기 제 1 컴퓨터에 송신하는 수단과,
    상기 문제 데이터 베이스로부터 선택되어 상기 제 1 컴퓨터에 송신된 문제에 대하여 상기 제 1 컴퓨터로부터 반송된 해답을 기억하는 해답 기억수단과,
    상기 제 2 컴퓨터로부터 송신된 리퀘스트에 응답하여, 상기 해답 기억수단에 기억되어 있는 해답을 판독하여 상기 제 2 컴퓨터에 송신하는 수단과,
    상기 제 2 컴퓨터에 송신된 해답에 대하여 주어진 부분득점(rj)을 상기 제 2 컴퓨터로부터 수신하여 기억하는 부분득점 기억수단과,
    상기 부분득점 기억수단에 기억되어 있는 부분득점(rj)과 상기 문제 데이터 베이스에 기억되어 있는 문제 j의 항목 파라미터를 사용하여, 상기 부분득점(rj)을 획득한 수험자의 능력(θ)을 추정하는 능력추정수단을 구비하고 있고,
    상기 능력추정수단에 있어서, Pj(θ) 는, 부분득점(rj)을 문제 j에 고유로서 상기 수험자가 정답 1 또는 오답 0 중 어느 한쪽의 잠재적 반응을 취할 수 있는 잠재적 문제를 sj회 반복하여 실시하였을 때에 상기 수험자가 잠재적으로 취할 수 있는 정오반응의 평균이라고 상정한 경우에, 상기 수험자가 상기 잠재적 문제에 정답할 확률이며, Qj(θ)는 1 - Pj(θ)인 경우에,
    [수학식 2]
    에 의하여 나타내고, 대수 우도[ℓpart(θ)]를 사용하여 수험자의 능력(θ)이 추정되는 것을 특징으로 하는 테스트시스템.
  2. 제 1항에 있어서,
    상기 Pj(θ)는, 2 파라미터 로지스틱 모델을 사용하여
    [수학식 1]
    로 표현되고, 이 수학식 1에 있어서의 aj 및 bj는 각각이 상기 문제 데이타베이스에 기억되어 있는 문제가 가지는 고유의 특성인 식별력과 곤란도이고, D는 1.7이라는 정수인 것을 특징으로 하는 테스트시스템.
  3. 제 2항에 있어서,
    실제로 관측되는 문제 j 에 대한 부분득점(rj)이 현재적인 복수의 정오문제의 평균에 의해 구성되어 있는 경우에도, 이들 정오문제에 공통된 정답확률을 수학식 1로 표현하고, 수학식 2를 사용하여 수험자의 능력(θ)이 추정되는 것을 특징으로 하는 테스트시스템.
  4. 제 1항 내지 제 3항 중 어느 한 항에 있어서,
    테스트가 실시된 집단의 능력분포를 가정한 후에, sj회의 정오의 합인 2항 분포로 가정된 능력분포와의 곱을 능력의 차원에서 적분하여 부분득점의 이론적인 분포함수를 구하고, 구해진 이론적인 분포함수와 실제 데이터의 부분득점의 경험적인 분포함수가 가장 잘 일치하도록 잠재적인 문제의 반복횟수인 sj를 추정하는 수단을 더 구비하고 있는 것을 특징으로 하는 테스트시스템.
  5. 제 1항 내지 제 4항 중 어느 한 항에 있어서,
    상기 제 1 및 제 2 컴퓨터에 있어서의 상기 출력장치와 상기 입력장치는 각각 음성출력장치와 음성입력장치를 포함하고, 상기 테스트서버에 송신되고 기억되는 해답은 음성 데이터를 포함하는 것을 특징으로 하는 테스트시스템.
  6. 입력장치와 출력장치를 구비한 제 1 컴퓨터와, 인터넷을 포함하는 네트워크를 거쳐 상기 제 1 컴퓨터와 접속되어 있고, 입력장치와 출력장치를 구비한 제 2 컴퓨터와, 상기 네트워크를 거쳐 상기 제 1 및 제 2 컴퓨터와 접속된 테스트 관리서버와, 상기 테스트 관리서버로부터 엑세스 가능하고 난이도와 식별력을 포함하는 항목 파라미터가 미리 추정되어 있는 복수의 문제가 기억된 문제 데이터 베이스에 의해 구성되어, 1명의 수험자에게 n 문의 문제를 출제하고, 출제된 n 문의 문제에 대한 상기 수험자의 반응으로부터 상기 수험자의 능력(θ)을 추정하는 테스트시스템을 제공하는 방법에 있어서,
    상기 테스트 관리서버에 있어서,
    (1) 상기 제 1 컴퓨터로부터 송신된 리퀘스트에 응답하여, 1 ≤j ≤n 인 문제 j 에 대하여 만점을 1로 하여 O ≤rj ≤1인 부분득점(rj)을 허용하는 형태로 채점될 수 있는 n 문의 문제를 상기 문제 데이터 베이스로부터 선택하여 상기 제 1 컴퓨터에 송신하는 단계와,
    (2) 상기 문제 데이터 베이스로부터 선택되어 상기 제 1 컴퓨터에 송신된 문제에 대하여 상기 제 1 컴퓨터로부터 반송된 해답을 기억하는 해답을 기억하는 단계와,
    (3) 상기 제 2 컴퓨터로부터 송신된 리퀘스트에 응답하여, 상기 단계 (2)에 이어서 기억된 해답을 판독하여 상기 제 2 컴퓨터에 송신하는 수단과,
    (4) 상기 제 2 컴퓨터에 송신된 해답에 대하여 주어진 부분득점(rj)을 상기 제 2 컴퓨터로부터 수신하여 기억하는 단계와,
    (5) 상기 단계 (4)에 있어서 기억된 부분득점(rj)과 상기 문제 데이터 베이스에 기억되어 있는 문제 j의 항목 파라미터를 사용하여, 상기 부분득점(rj)을 획득한 수험자의 능력(θ)을 추정하는 단계를 포함하고 있고,
    상기 단계 (5)에 있어서, Pj(θ)는, 부분득점(rj)을 문제 j에 고유로서, 상기 수험자가 정답 1 또는 오답 0 중 어느 한쪽의 잠재적 반응을 취할 수 있는 잠재적 문제를 sj 회 반복하여 실시하였을 때에 상기 수험자가 잠재적으로 취할 수 있는 정오반응의 평균이라고 상정한 경우에 상기 수험자가 상기 잠재적 문제에 정답할 확률이고, Qj(θ)는 1 - Pj(θ)인 경우에,
    [수학식 2]
    에 의해 나타내는 대수 우도[ℓpart(θ)]를 사용하여 수험자의 능력(θ)이 추정되는 것을 특징으로 하는 테스트시스템 제어방법.
  7. 제 6항에 있어서,
    상기 Pj(θ)는, 2 파라미터 로지스틱 모델을 사용하여,
    [수학식 1]
    로 표현되고, 이 수학식 1에 있어서의 aj 및 bj는 각각이 상기 문제 데이터베이스에 기억되어 있는 문제가 가지는 고유의 특성인 식별력과 곤란도이고, D는 1.7이라는 정수인 것을 특징으로 하는 테스트시스템제어방법.
  8. 제 7항에 있어서,
    실제로 관측되는 문제 j 에 대한 부분득점(rj)이 현재적인 복수의 정오문제의 평균에 의해 구성되어 있는 경우에도, 이들 정오문제에 공통되는 정답확률을 수학식 1로 표현하고, 수학식 2를 사용하여 수험자의 능력(θ)이 추정되는 것을 특징으로 하는 테스트시스템제어방법.
  9. 제 6항 내지 제 8항 중 어느 한 항에 있어서,
    (6) 테스트가 실시된 집단의 능력분포를 가정한 다음에, sj회의 정오의 합 인 2항 분포로 가정된 능력분포와의 곱을 능력의 차원에서 적분하여 부분득점의 이론적인 분포함수를 구하고 구해진 이론적인 분포함수와 실제 데이터의 부분득점의 경험적인 분포함수가 가장 잘 일치하도록 잠재적인 문제의 반복횟수인 sj를 추정하는 단계를 더 포함하는 것을 특징으로 하는 방법.
KR1020047004513A 2002-09-25 2003-09-25 테스트시스템, 테스트시스템 제어방법 및 그 제어방법을 실행하는 컴퓨터 프로그램을 기억하는 기억매체 KR100747141B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2002-00279513 2002-09-25
JP2002279513 2002-09-25

Publications (2)

Publication Number Publication Date
KR20050042743A true KR20050042743A (ko) 2005-05-10
KR100747141B1 KR100747141B1 (ko) 2007-08-07

Family

ID=32040459

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020047004513A KR100747141B1 (ko) 2002-09-25 2003-09-25 테스트시스템, 테스트시스템 제어방법 및 그 제어방법을 실행하는 컴퓨터 프로그램을 기억하는 기억매체

Country Status (7)

Country Link
US (1) US7103508B2 (ko)
JP (1) JP3645901B2 (ko)
KR (1) KR100747141B1 (ko)
CN (1) CN1578972A (ko)
AU (1) AU2003266616A1 (ko)
GB (1) GB2409314A (ko)
WO (1) WO2004029906A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101311036B1 (ko) * 2012-02-09 2013-09-24 이언주 라쉬 모형과 순차적 확률비 검증법을 이용한 유비티 시스템
WO2014069741A1 (ko) * 2012-10-31 2014-05-08 에스케이텔레콤 주식회사 자동 채점 장치 및 방법

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4872214B2 (ja) * 2005-01-19 2012-02-08 富士ゼロックス株式会社 自動採点装置
JP4628121B2 (ja) * 2005-02-02 2011-02-09 株式会社ワオ・コーポレーション 情報処理装置およびプログラム
US20070111182A1 (en) * 2005-10-26 2007-05-17 International Business Machines Corporation Method and system for distributing answers
JP2007279306A (ja) * 2006-04-05 2007-10-25 Nagaoka Univ Of Technology 項目応答理論におけるパラメータ推定方法
US20080046232A1 (en) * 2006-08-18 2008-02-21 Jan Groppe Method and System for E-tol English language test online
JP5029090B2 (ja) * 2007-03-26 2012-09-19 Kddi株式会社 能力推定システムおよび方法ならびにプログラムおよび記録媒体
US8376755B2 (en) * 2008-05-09 2013-02-19 Location Inc. Group Corporation System for the normalization of school performance statistics
JP5609193B2 (ja) * 2010-03-19 2014-10-22 富士通株式会社 試験プログラム、試験装置、および試験方法
US8761658B2 (en) * 2011-01-31 2014-06-24 FastTrack Technologies Inc. System and method for a computerized learning system
US20120329029A1 (en) * 2011-06-23 2012-12-27 Rauta Mihai Catalin Computer implemented teaching method and apparatus
US20130157245A1 (en) * 2011-12-15 2013-06-20 Microsoft Corporation Adaptively presenting content based on user knowledge
TWI485668B (zh) * 2013-01-24 2015-05-21 Univ Fooyin 拼字學習電腦程式、內儲程式之電腦可讀取記錄媒體及內儲程式之可攜式電子裝置
US20140295400A1 (en) * 2013-03-27 2014-10-02 Educational Testing Service Systems and Methods for Assessing Conversation Aptitude
WO2015008501A1 (ja) * 2013-07-16 2015-01-22 株式会社ベネッセコーポレーション 携帯型情報処理装置、テスト支援システム及びテスト支援方法
JP6408467B2 (ja) * 2013-07-19 2018-10-17 株式会社ベネッセコーポレーション 情報処理装置、情報処理方法及びプログラム
US10529245B2 (en) 2013-12-06 2020-01-07 Act, Inc. Methods for improving test efficiency and accuracy in a computer adaptive test (CAT)
CN103942993B (zh) * 2014-03-17 2016-05-18 深圳市承儒科技有限公司 一种基于irt的自适应在线测评系统及其方法
US20150279226A1 (en) * 2014-03-27 2015-10-01 MyCognition Limited Adaptive cognitive skills assessment and training
JP6247628B2 (ja) * 2014-12-09 2017-12-13 株式会社日立製作所 学習管理システムおよび学習管理方法
CN104505089B (zh) * 2014-12-17 2018-05-18 福建网龙计算机网络信息技术有限公司 口语纠错方法及设备
JP5904651B1 (ja) * 2014-12-25 2016-04-13 学校法人産業能率大学 維持管理指標算出装置及び維持管理指標算出方法
US20160225278A1 (en) * 2015-01-31 2016-08-04 Usa Life Nutrition Llc Method and apparatus for incentivization of learning
US20160293036A1 (en) * 2015-04-03 2016-10-06 Kaplan, Inc. System and method for adaptive assessment and training
EP3324254A1 (de) * 2016-11-17 2018-05-23 Siemens Aktiengesellschaft Einrichtung und verfahren zur bestimmung der parameter einer regeleinrichtung
CN106682768B (zh) * 2016-12-08 2018-05-08 北京粉笔蓝天科技有限公司 一种答题分数的预测方法、系统、终端及服务器
CN108921434B (zh) * 2018-07-04 2020-08-14 北京希子教育科技有限公司 一种通过人机交互完成用户能力预测的方法
WO2020065663A1 (en) * 2018-09-25 2020-04-02 Merittrac Services Pvt. Ltd Methods and systems for partial credit model (pcm) scoring in classical test theory (ctt)
KR102015075B1 (ko) * 2018-10-16 2019-08-27 (주)뤼이드 학습 효율을 기반으로 개인 맞춤형 교육 컨텐츠를 제공하기 위한 기계학습 방법, 장치 및 컴퓨터 프로그램
US11295059B2 (en) 2019-08-26 2022-04-05 Pluralsight Llc Adaptive processing and content control system
US11102530B2 (en) 2019-08-26 2021-08-24 Pluralsight Llc Adaptive processing and content control system
US20210343175A1 (en) * 2020-05-04 2021-11-04 Pearson Education, Inc. Systems and methods for adaptive assessment
JP7545723B2 (ja) 2020-11-20 2024-09-05 一般社団法人教職英語検定協会 外国語能力検定実施システム、外国語能力検定実施方法、及び外国語能力検定実施用のコンピュータプログラム
JP7371644B2 (ja) * 2021-02-01 2023-10-31 カシオ計算機株式会社 発音トレーニングプログラム及び端末装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001056634A (ja) * 1999-08-20 2001-02-27 Toshiba Corp 自動採点システム
JP2002006734A (ja) * 2000-06-26 2002-01-11 Society For Testing English Proficiency Inc コンピュータ適応型検定試験の方法及びシステム
JP3687785B2 (ja) * 2001-08-15 2005-08-24 株式会社日本統計事務センター 採点処理方法および採点処理システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101311036B1 (ko) * 2012-02-09 2013-09-24 이언주 라쉬 모형과 순차적 확률비 검증법을 이용한 유비티 시스템
WO2014069741A1 (ko) * 2012-10-31 2014-05-08 에스케이텔레콤 주식회사 자동 채점 장치 및 방법

Also Published As

Publication number Publication date
GB2409314A (en) 2005-06-22
AU2003266616A1 (en) 2004-04-19
WO2004029906A1 (ja) 2004-04-08
US20050256663A1 (en) 2005-11-17
CN1578972A (zh) 2005-02-09
GB0507837D0 (en) 2005-05-25
US7103508B2 (en) 2006-09-05
JP3645901B2 (ja) 2005-05-11
KR100747141B1 (ko) 2007-08-07
JPWO2004029906A1 (ja) 2006-01-26

Similar Documents

Publication Publication Date Title
KR100747141B1 (ko) 테스트시스템, 테스트시스템 제어방법 및 그 제어방법을 실행하는 컴퓨터 프로그램을 기억하는 기억매체
CN109523194B (zh) 汉语阅读能力测评方法、装置及可读存储介质
Johnson Quantitative methods in linguistics
Beischel et al. The gender/sex 3× 3: Measuring and categorizing gender/sex beyond binaries.
Levon Organizing and processing your data: The nuts and bolts of quantitative analyses
Kang et al. The roles of suprasegmental features in predicting English oral proficiency with an automated system
US10276055B2 (en) Essay analytics system and methods
Hanafi et al. Development and validation of a questionnaire for teacher effective communication in Qur’an learning
CN111444729A (zh) 信息处理的方法、装置、设备及可读存储介质
Cho et al. Modeling learning in doubly multilevel binary longitudinal data using generalized linear mixed models: An application to measuring and explaining word learning
Lee et al. Readability measurement of Japanese texts based on levelled corpora
González‐López et al. Lexical analysis of student research drafts in computing
Holcomb et al. First-year composition as “big data”: Towards examining student revisions at scale
Kim et al. Learning without awareness by academic and nonacademic samples: an individual differences study
Morgan et al. On using simulations to inform decision making during instrument development
Dunn et al. The data files 2: The statistical investigation process
Latifi Development and validation of an automated essay scoring framework by integrating deep features of English language
Peters-Sanders et al. Using Multivariate Adaptive Regression Splines to Predict Lexical Characteristics' Influence on Word Learning in First Through Third Graders
Jatmiko et al. The effectiveness of using picture to teach vocabulary at elementary school
Sproesser et al. Using models and representations in statistical contexts
US20190035300A1 (en) Method and apparatus for measuring oral reading rate
Adesiji et al. Development of an automated descriptive text-based scoring system
JP2005331615A (ja) 文章評価装置および文章評価方法
Erbilgin The Effect of Coding Classes on Mathematics Achievement of Preschool Students
JP7502831B2 (ja) 課題レコメンドシステム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130724

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140617

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150722

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160721

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180720

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20190619

Year of fee payment: 13