WO2004029906A1 - テスト・システム及びその制御方法 - Google Patents

テスト・システム及びその制御方法 Download PDF

Info

Publication number
WO2004029906A1
WO2004029906A1 PCT/JP2003/012252 JP0312252W WO2004029906A1 WO 2004029906 A1 WO2004029906 A1 WO 2004029906A1 JP 0312252 W JP0312252 W JP 0312252W WO 2004029906 A1 WO2004029906 A1 WO 2004029906A1
Authority
WO
WIPO (PCT)
Prior art keywords
test
partial score
computer
answer
model
Prior art date
Application number
PCT/JP2003/012252
Other languages
English (en)
French (fr)
Inventor
Susumu Fujimori
Hitoshi Yamashita
Original Assignee
Benesse Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Benesse Corporation filed Critical Benesse Corporation
Priority to AU2003266616A priority Critical patent/AU2003266616A1/en
Priority to JP2004539533A priority patent/JP3645901B2/ja
Priority to GB0507837A priority patent/GB2409314A/en
Priority to US10/529,263 priority patent/US7103508B2/en
Publication of WO2004029906A1 publication Critical patent/WO2004029906A1/ja

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages

Definitions

  • the present invention relates to a test system and a control method thereof. More specifically, the present invention relies on a partial scoring model that is a modification of the conventional item response theory, and allows scoring not only a single true and false value but also a partial score with multiple levels when scoring.
  • the present invention relates to a test system for designing, executing, and evaluating a test in a more simplified manner than before, and a control method thereof. Background art
  • test theory Today, there are two widely known theories used in designing tests and processing the results: classical test theory and item response theory. For a general explanation of these test theories, see Chapters 6 and 7 of “The Techniques of Psychological Statistics”, edited by Hiroshi Watanabe (Fukumura Publishing, 2002), respectively.
  • the test in the test theory includes not only academic ability tests but also personality tests and clinical tests in psychology.In this application, such wide application fields are considered. Rather than giving an abstract explanation, I would like to try to give a concrete explanation in order to facilitate understanding, especially with academic ability tests such as foreign language examinations in mind.
  • the term “item” in item response theory means a problem in the case of academic ability tests.
  • Item response theory is a theory that overcomes the shortcomings of classical test theory, and there are many scholarship tests designed and processed based on this item response theory.
  • Hideki Toyoda “Introduction to Item Response Theory” (Asakura Shoten, 2002)
  • the well-known language test T 0 EFL... is performed many times a year, and is performed worldwide. It is a collection of the same items because the same subject may be retaken. The same test cannot be used more than once, so the average score and pass rate will differ from test to test, and the distribution of characteristic values will also differ due to differences in English proficiency depending on the region.
  • the OEFL points (for example, 500, 650, etc.) Used to determine whether or not to take the exam regardless of where and when the exam was taken, that is, a quality candidate took a different item at a different date and time in a different location Despite this, the subject was given unified treatment A mathematical model that builds a system that continuously and positively performs tests that enable this treatment is an item response model. ”
  • the test questions to be set are arranged in a tree beforehand, and the questions are sequentially presented along the route arranged in the tree according to the correctness of the answer by the examinee.
  • a test method and system for estimating the examinee's ability in consideration of not only the number of correct answers but also the course of reaching the final point by a route is disclosed. This published patent publication also mentions item reaction theory.
  • the use of item response theory is stated, and the questions to be taken are arranged in a tree beforehand.However, if the examinee answers a certain question correctly, the question is located in the lower right corner, and if the wrong answer is answered, the question is located in the lower left corner It is expected that the answer will be one of two values: correct or incorrect. Disclosure of the invention
  • the present invention is different from the conventional CAT that predicts a binary answer, and is a test system that allows scoring to give a partial score.
  • An object of the present invention is to provide a test, a system, and a control method thereof, which enable processing of partial scores much more easily than a simple model.
  • a first computer having an input device and an output device, and a first input device and an output device connected to the first computer via a network including the Internet.
  • a second computer a test management server connected to the first and second computers via the network, and a difficulty level and discriminating ability accessible from the test management server.
  • a test system for estimating the ability 0 of the examinee from the response of the examinee is provided.
  • the test management server (1) responds to the request transmitted from the first computer, and sets 0 ⁇ r. ⁇ 1 with 1 being the perfect score for the problem j in which 1 ⁇ j ⁇ n.
  • ⁇ (( ⁇ ) indicates that the partial score r ; is specific to the question j, and the examinee has a potential response of either correct answer 1 or incorrect answer 0. If the candidate is assumed to be an average of the correct and incorrect responses that the candidate can potentially take when the potential problem that can be taken is repeated sj times, the probability that the candidate will correctly answer the potential problem is Yes.
  • a '' and b are the discriminating power and the difficulty, which are the inherent characteristics of the problem stored in the problem database, and D is 1.7. If Q j ( ⁇ ) is one and one P j ( ⁇ ),
  • the examinee's ability 0 is estimated using the log likelihood ⁇ represented by
  • the function form of P j ( ⁇ ) expressed as Equation 1 above is merely an example, and P j ( ⁇ ) need not be limited to this expression form, and may be in various forms. .
  • the correct answer It is possible to express the average of the probabilities by Equation 1 and to estimate the examinee's ability 0 using Equation 2.
  • the product of the binomial distribution which is the sum of the correctness of the times, and the assumed capability distribution is calculated based on the assumption of the capability distribution of the group on which the test was performed.
  • the theoretical distribution function of the partial score is calculated by integrating in the dimension of ability, and the obtained theoretical distribution function and the empirical distribution function of the partial score of the actual data best match.
  • the test server It is also possible to include voice data as the transmitted and stored answer. In this case, it becomes possible to set up a listening question on the first computer, and also to set up a speaking problem in which the content of the actual test taker's utterance is targeted.
  • the present invention can also be realized as a method for controlling the above-described test system. Further, the present invention may exist as a computer-readable storage medium itself storing a computer program for implementing such a test / system control method. Furthermore, it can also exist as a computer program that executes such a test / system control method.
  • FIG. 1 is an outline of an example of a test system according to the present invention.
  • FIG. 2 is an outline of a test taker unit constituting the test system according to the present invention.
  • FIG. 3 is an outline of a grader unit constituting the test system according to the present invention.
  • FIG. 4 is a flowchart outlining a test using the system according to the present invention.In particular, the process of taking an examination and scoring for writing and speaking related to the partial score on which the present invention is based is shown. ing.
  • FIG. 5 is a graph showing the results of a score stability confirmation survey conducted by 12 subjects performed to confirm the effectiveness of ability estimation using the test system according to the present invention.
  • FIG. 6 is a graph composed of FIGS. 6a to 6g, each showing the scores of 12 subjects in the score stability confirmation survey of FIG.
  • Fig. 7 is composed of Fig. 7a to Fig. 7d, and when estimating the number of repetitions s '', when the true s-5, 10, 20, 40, 40, the estimated empirical distribution and Distribution relation with theoretical distribution The maximum value of the number difference (statistic of the Korgomolov-Smirnov test) is plotted for 3 to 10 repetitions.
  • Fig. 8 is composed of Fig. 8a and Fig. 8b, each of which is an example of application to the estimation of the number of repetitions s "in the English proficiency test. BEST MODE FOR CARRYING OUT THE INVENTION
  • Binary means that the answer takes only two values: correct or incorrect.
  • the probability that the examinee answers the question correctly is expressed using parameters that represent the examinee's ability and parameters that characterize the question.
  • a two-parameter (parameter) logistic 'model is used in which each problem is characterized by two parameters (discriminating power a and difficulty b).
  • a candidate i having ability 0 has The probability of answering question j can be written as
  • x is a dummy variable that is 1 if the candidate i answers the question j correctly, and 0 if he answers incorrectly.
  • D is a constant.
  • L B ( ⁇ ) of the examinee's ability 0 at the end of the n questions can be written as follows.
  • P (0) is the probability of a correct answer on the right side of Equation 3
  • Q (0) is the probability of a wrong answer, that is, one-one P (0).
  • a maximum likelihood estimation method in which a value of 0 that gives the maximum value of the likelihood L B ( ⁇ ) in Equation 4 is an estimated value of the examinee's ability parameter is known and widely used.
  • the right side of Equation 4 is written in the form of a product and it is not easy to find the maximum value, take the natural logarithm of both sides to consider in terms of the sum. And determine the maximum value of the log likelihood I n (L B ( ⁇ ) ) are common. This is because the natural logarithm is a monotonically increasing function, and 0, which gives the maximum value of the likelihood L B ( ⁇ ), and 0, which gives the maximum value of its natural logarithm In (L B ( ⁇ )) Because.
  • the evaluation of the response (answer) to the problem is not limited to the two values of true and false, It is possible to be evaluated as.
  • the dummy variable X in Equation 4 is a binary value of 1 and 0, but also three or more values from 0 to 1 (for example, 0, 0.2, 0.4, 0. 6, 0.8, and 1). If the partial score of test taker i for question j is r, ”, the likelihood corresponding to the partial score can be expressed as follows.
  • Equation 5 To interpret the meaning of Equation 5, suppose that s j questions having the same question parameters are set for the same examinee. In the case of the academic test, it is reasonable to assume that the parameters are the same but present different problems. Questionnaires used for personality tests, etc. may present the same problem in terms of content, but this may violate the assumption of local independence, which is the premise of item response theory. Here, it is assumed that question items with the same parameters but different contents are presented.
  • Equation 7 Since L B (theta) and L B ( ⁇ ) * gives the maximum value of 0 is the same, the maximum likelihood estimate is the same in. Equation 6 and Equation 7. In Equation 7
  • L part ( ⁇ ) and L B * ( ⁇ ) are formally the same.
  • the solution of the partial score model L part ( ⁇ ) on which the present invention relies and the L by the general item reaction theory The solution to B ( ⁇ ) is consistent through and L B * ( ⁇ ).
  • Equation 8 it is derived that if the number of presentations s is increased, any partial score from 0 to 1 can be expressed. Note that it is actually inconvenient if there is a difference of the s-th root between Equations 6 and 7, so Equation 5 is raised to the s power and its natural logarithm is log likelihood of partial scoring as follows: It is preferred that
  • Equation 10 Taking the sum of the problem groups in Equation 10 yields:
  • zone is the second term on the right hand side is a sum related factor f 2 common problem group ", from the orthogonality of the assumption of factors, the unique part no correlation with other problems You can see.
  • the second term on the right corresponds to this because the item response theory also assumes components specific to the item. In other words, it is not necessary to mention the local independence assumption.
  • the factor f is the ability parameter 0 of the item response theory, there is no inconvenience in taking the sum of the interrelated problem groups in the test and processing it as a partial score. Performing the processing proposed by the present invention for a problem that is locally dependent may even be desirable from the assumption of the item response theory.
  • Equation 14 [-P) ln (lF) -AP k - ⁇ , ⁇ ( ⁇ - ⁇ ) holds. Substituting Equations 17 and 18 into Equation 14
  • Equation 2 5 Holds. If Equation 25 is satisfied for all the similar items constituting the likelihood, it is considered that the maximum likelihood solution of the partial score and the solution by the binary data approximately match.
  • the partial score model in the present invention has already been shown to have a correspondence with a normal binary item response model if the number of times of repetitive definition is the same for a problem with the same parameter or similar parameter.
  • the number of repetitions of all questions is the same, that is, the number of stages of partial scores is not always the same for all problems.
  • Equation 9 it is necessary to extend Equation 9 as follows.
  • the partial score is a graded grade such as a questionnaire.
  • the number of steps is m + 1
  • the number of repetitions s can be estimated to be m.
  • the question item is “1.
  • Well-applied” ⁇ 2.
  • Slightly applicable. ⁇ 3.
  • Not applicable at all ⁇ ⁇ ⁇ 4 ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ ⁇ . Therefore, when each answer is c, it is converted to (1-1) / 3, and it is analyzed as partial score data of four stages of "0,1 / 3,2 / 3,1".
  • the partial score is not the average value of multiple correct / false binary questions, but the scoring result such as the grader's rating.
  • the number of stages is large.
  • the partial score r when the partial score r is in the m + l stage, it is necessary to repeat The number of times s must be m. If the number of steps is small, the estimation in the previous section is considered to be good, but if the number of steps is large, the possibility of problems will increase. For example, if a scorer gives a score of 100 on a scale of 100 on a scale of 100 out of 100, and the answer is 1 on a scale of 1 to 10, the repetition rate is 10.
  • the scorer gives a score of 69 to the answer of the remaining one person, it becomes difficult to make a partial score unless the number of repetitions is 101 as soon as possible.
  • the score is not limited to an integer but also a real number, it is difficult to estimate the number of repetitions by such a concept.
  • ⁇ (r) is the relative cumulative frequency of the distribution function up to stage r in the theoretical distribution
  • F '(r) is the relative cumulative frequency up to stage r in the empirical distribution
  • Equation 29 is obtained, and as a result, Equation 30 is obtained: R is 0, l Z m, 2 m.
  • the minimum number of stages m that gives the Kolmogorov statistic of the Smirnov test can be used as an estimate of the number of repetitions, and by applying the following simulation and applying it to actual data, The effectiveness of this method has been confirmed.
  • the method for estimating the number of repetitions in the previous section requires that an item parameter be given. Therefore, based on the partial score data created, the item parameter and ability parameter were estimated simultaneously (the number of repetitions at this stage is 1).
  • the partial score model used in the computer adaptive test design and processing system according to the present invention has been described above.
  • This partial score model was obtained by modifying the binary item response model. Therefore, in this partial score model, the number of parameters to be estimated is the same as in the case of the binary model, except when there is a special interest in the characteristics of the problem, when designing the academic test and processing the results. It can be said that there is little need to use a complex multi-valued model that has been attempted in the past.
  • the partial score model used in the present invention is compared with a conventionally known step response model or the like, the following becomes clear.
  • Item response theory usually requires that data be binary and one-dimensional, but partial score models can be applied to multi-valued and multi-dimensional data.
  • the partial score model is a simple model (compared to the step response model ⁇ other multi-value models) and is easy for the user to understand.
  • the partial score model is seamless with the commonly used two-parameter logistic model (unlike the step response model and other multi-value models), so the results can be easily interpreted, It is also useful for analyzing mixed data.
  • the partial score model has fewer parameters than the other models (such as the step response model) and does not have a problem in estimation.
  • the partial score model has a wide range of applications because any answer (answer) result can be applied by converting it to a partial score from 0 to 1.
  • the partial score model can be easily applied to questionnaire data as well as tests,
  • one of the inventors of the present invention performed a simulation using a partial score model. According to the results, (1) the step response model identified that the test was a small number of items. Bias is applied to force estimation, but this phenomenon does not occur in the partial score model. (2) The rank correlation between the score of the number of correct answers and the ability estimation value is higher in the partial score model than in the step response model (the correlation with the true value is almost the same in both models).
  • the total score is divided by the sum of the number of items to obtain input data as a partial score between 0 and 1, that is, whether the likelihood of the binary model is correct or not.
  • the dummy variable used for is treated as a substantive variable representing a partial score or as a weight of the true / false probability.
  • Equation 5 when scoring the examinee's answer to an essay question, a partial score of 25% from zero (0) to full score (1) can be given.
  • r is treated as a likelihood function that can take five values: 0, 0 ⁇ 25, 0.50, 0.75, 1 .
  • the item parameters a (discriminating power) and b (difficulty) included in Equation 3 that defines P have already been estimated using data in pretests performed in advance using the same problem.
  • the item parameters a and b included in the logistic curve P are estimated in advance for each problem.
  • the ability 0 of the examinee is estimated by the maximum likelihood estimation method and the Bayes estimation method using the log likelihood of Equation 32. These methods themselves are generally known statistical techniques and are not features of the present invention. However, no matter which estimation method is used, the necessary log likelihood can be obtained for the first time by the partial score model which is the core of the present invention.
  • the partial score model is different from such a simple example, by setting multiple evaluation criteria and adopting an analytical evaluation method that evaluates one question from multiple viewpoints. Capacity estimation Accuracy can be improved. For example, there is a possibility that it is possible to clarify the test subject's ability difference that does not become apparent in the basic application example described above. For example, in a writing problem, (a) Goal Achievement, (b) Grammar (Grammar), (c)
  • the purpose of "communication of intention to arrange accommodation to the other party” is set for each problem, and the set purpose is "achieved or achieved. No "(1 or 0).
  • a score between 0 and 1 that allows partial scores in 25% increments shall be given.
  • five values of 0, 0.25, 0.5, 0.75, and 1 are assigned to in Expression 5.
  • the item parameters a (discriminating power) and b (difficulty) included in Equation 3 that defines the oralistic curve P included in the likelihood function are the same as those in the above-described example.
  • the evaluation items listed here are merely examples. In the test system according to the present invention, it is also possible to evaluate from another viewpoint.
  • the above is a description of how the item response theory including the partial score model is applied to the English proficiency test and the ability of the examinee is estimated.
  • the present invention is based on the item response theory including the partial score model.
  • This is a test system and a test method for realizing capability estimation by using a general personal computer in an Internet connection environment.
  • the operation of the test system according to the present invention will be outlined with reference to the accompanying drawings.
  • FIG. 1 shows an outline of a first embodiment of a test system according to the present invention.
  • Candidates are personal computers in an Internet-connected environment, such as at a language school that conducts tests (eg, English proficiency tests) designed, performed, and processed by the system according to the present invention. Take the test using 101. If the candidates are properly authenticated, they can take the test at home.
  • the results of the answers entered by the examinee into the examinee unit 101 which is a personal computer via a keyboard, mouse, microphone, etc., are sent to the grader unit 1 via a network 103 such as the Internet. It is sent to 0 2 and, for example, a grader whose native language is English to be tested performs scoring while allowing partial scores.
  • the test management server 104 has a problem database 105.
  • the problem database 105 stores a group of problems which are implemented as a pretest and in which the item parameters (the discriminating power a and the difficulty b in Equation 3) are estimated in advance.
  • the test management server 104 selects a group of questions from the question database 105 and transmits the selected group of questions to the examinee unit 101.
  • FIG. 2 illustrates the outline of the test taker unit 101.
  • Candidate 101 is usually a general personal computer with an Internet connection. One night.
  • the input device 207 is a mechanical input device such as a keyboard, a mouse, and a touch panel
  • the voice input / output device 209 is a microphone, a speaker, or the like.
  • the examinee first inputs his / her own ID manually from the input device 207 or by voice from the voice input / output device 209, and instructs the start of the test.
  • the examinee's ID that is uniquely issued to each examinee from the test management server 104 when the examinee registers to apply for an examinee is used.
  • a password is issued along with an ID for security management.
  • the test management server 104 recognizes the fact and gives an appropriate question. In response to the instruction, it is transmitted from the test management server 104 and displayed on the display 208, or selected according to its own level output from the audio input / output device 209 including the speaker.
  • the examinee inputs the answer to the question via the input device 207 or the microphone (voice input / output device 209).
  • the answer especially the answer to writing / speaking questions that require scoring that allows partial score, is sent to the grader unit via the communication interface 202 and the network 103 such as the Internet. Sent to 102.
  • the answers are not sent directly from the examinee's unit 101 to the grader's unit 102, but are scored in real time. After being sent to the test management server 104 to be evaluated once, it is generally sent to the grader unit 102 judged to be appropriate from among a plurality of testers. This is not surprising from the scoring economy, where it is efficient to score after a certain number of answers have been collected.
  • FIG 3 illustrates the outline of the grader unit 102.
  • the grader unit 102 like the examinee unit 101, is usually a general personal computer having an Internet connection environment. Answer results sent from the examinee's unit 101 or the test management server 104 via the network 103 such as the Internet are displayed on the display 108, or a speaker (sound input / output device) is displayed. 309) and scored using an input device 407 such as a keyboard or mouse. The scoring result is returned to the test management server 104 via the network 103 such as the Internet.
  • the examinee's unit, the grader's unit, and the test management server communicate over a communication network using a communication line such as the Internet. Was configured as a terminal.
  • the test system according to the present invention can be realized as a second embodiment using a stand-alone personal computer having no communication function.
  • a database storing a number of questions whose difficulty and discrimination power have been estimated in advance is built in a storage device such as a hard disk of the personal convenience, and the examinee can use, for example, a CD or the like.
  • Answering via a keyboard and a microphone the questions of writing and speaking that are set according to instructions included in a program for performing the test of the present invention provided in a form stored in a DVD or the like.
  • the answer results are temporarily stored in a hard disk or the like, and the grader reads the answer results from the hard disk and performs scoring allowing partial scores.
  • the method of processing partial scores in the case of the second embodiment is the same as in the case of the first embodiment.
  • the candidate's ability is estimated using a likelihood function based on the partial score model.
  • FIG. 4 is a flow chart showing the outline of the test execution using the test system according to the present invention.
  • the lighting using the partial score model on which the present invention is based is used.
  • the implementation and treatment process of the test on speaking In the writing problem, test takers generally use a keyboard (input device 207 in Fig. 2) to answer in the form of typing in sentences such as English sentences.
  • the examinee uses a microphone (a voice input / output device 309 in FIG. 3) provided at the personal convenience room to respond to the presented question or to make free speech. Is input, and the content spoken as the voice is the target of the evaluation.
  • the grader waits in front of the grader unit, another terminal connected to the personal computer currently used by the examinee via a network such as the Internet, and scores in real time. Although it is possible to do so, in practice, it is common practice that the examinee's answers are stored in the test management server and then sent to the grader unit to collectively score a large number of answers. It is. First, the examinee accesses the designated web page on the Internet at the examinee unit 101. On that web page,
  • the test management server 104 selects a writing or speaking problem from the problem database 105 (step 401).
  • select the question that includes the evaluation item that has the most appropriate discriminating ability and difficulty in relation to the ability 0 estimated from the results of scoring the multiple-choice questions by the candidate. can do.
  • writing skills have a correlation with reading abilities, and speaking abilities have a correlation with listening abilities.
  • problem selection is merely an example, and is not an essential part of the test system based on the item response theory including the partial score model according to the present invention.
  • the item parameters included in the oral sticky curve corresponding to the selected question are determined in advance for each evaluation item from the data in the pretest conducted earlier.
  • the test system according to the present invention does not exclude the possibility of simultaneous maximum likelihood estimation.
  • the item parameters of the problem stored in the problem database 105 coexist both when they are already estimated and when they are not.
  • Estimation of item parameters is performed based on the partial score model used by the likelihood function of Equation 5 as in the estimation of ability 0.
  • a process called equalization that standardizes the discriminating power and difficulty of each problem is also performed. This equalization process allows for absolute evaluation that is independent of the population of the candidate.
  • the equalization itself is valid for the item reaction theory in general, and is not a feature of the present invention.
  • the selected question is sent to the examinee unit 1 via a network 103 such as the Internet. 0 1 is transmitted (step 4 02). If the question is sent in text format, the question is given to the examinee on the display 208, and if the question is audio format, the speaker (speech input / output device 209) gives the subject a question (step 40). 3). The examinee gives an answer to the question in the form of typing in a sentence or in the form of a spoken voice (step 404). The document or voice file that constitutes the answer is transmitted to the test management server 104 via the network 103 such as the Internet, and is temporarily stored (step 405).
  • the above process is repeated for a fixed number of examinees, and a fixed number of answer files are stored in the test management server 104.
  • the questions that are given to these multiple candidates are not necessarily the same. This is because, from the general theory of item response theory, ability 0 can be appropriately estimated even if the questions to be asked are different.
  • the grader unit 102 accesses the web page opened by the test management server 104, and sends the answers stored in the test management server 104 for scoring. When a request is made, a certain number of answer files are sent to the grader unit 102 (step 406).
  • the grader grades the answer in a manner that allows the partial score already described (step 407), and returns the grading result to the test management server 104 (step 408).
  • whether a plurality of answers are scored collectively or in real time is not related to the feature of the present invention.
  • the test management server 104 substitutes the partial score received from the grader unit 102 into the likelihood function of Expression 5, and estimates the ability 0 (Step 409).
  • item parameters may be estimated at the same time. Estimation methods include maximum likelihood estimation and Bayesian estimation.
  • the estimation is completed, if necessary, the estimated value of 0 is converted to a score suitable for comparison with another test (step 410).
  • the problem of allowing partial scores which was difficult to process with conventional general item reaction theory, has been solved. Even for tests that include the same, it is possible to perform the same capacity estimation as in the conventional item response theory.
  • the inventors set the score stabilization by 12 subjects on May 21 to 28, 2003. A gender identity check was conducted. As a method, the same subject was asked to take an English proficiency test using the test system according to the present invention three times in succession, and it was confirmed whether or not a large fluctuation occurred in the score.
  • the English proficiency test conducted here consisted of four skills tests: listening, reading, writing, and speaking.
  • the subjects were 12 university students from a certain university in Tokyo who are relatively good at English. If the test according to the present invention ⁇ The English proficiency evaluation by the system is appropriate and the parameter estimation of each problem including equalization is properly performed in the test system according to the present invention. For example, if the same candidate took the test three times a day, their English proficiency would not change during that time, and the resulting score should not change significantly.
  • the absolute evaluation is not affected by the ability level of the population. Turned out to be possible. Assuming that the partial score is expressed as an average of correctness when multiple items having the same parameter are repeated, theoretically, rij in Equation 5 is considered as a substantial variable.
  • the estimation result is the same as that of the likelihood function used for the binary evaluation in the conventional item reaction theory.
  • the experimental results shown in Figs. 5 and 6 show that this theoretical result was confirmed experimentally.
  • test system of the present invention it is possible to achieve higher-precision capability estimation than before, while maintaining consistency with the conventional item response theory. This is a remarkable effect of the present invention.
  • Equation 3 5 p u (e)> o is the step response model.
  • Equation 3 3 is the boundary response curve that determines between the steps
  • Equation 3 4 is the step response A step response curve expressing the reaction probability is obtained. As long as the above condition is satisfied, any function in Equation 33 can be used freely.
  • a is a parameter common to all curves in Equation 38 and is called discriminative power.
  • b u is a parameter related to the threshold value of each stage and is called difficulty.
  • the step response model has one discriminative power and m ⁇ 1 difficulty parameter corresponding to the threshold value of each step for each item.
  • i is the subject
  • 0 is the parameter representing its characteristic value
  • j is the item
  • s is the number of repetitions of binary item conversion
  • P is the two-parameter logistic model
  • Q 1-P.
  • the partial score model is based on the two-parameter mouth dystic model. Also, it is assumed that items having the same or similar item parameters are potentially repeatedly performed on subjects. In this case, r can be considered as a true / false average of repeated execution. It can be proved that the maximum likelihood solution of such a partial score model and the two-parameter mouth-distic model considered for repetition are the same (approximate for similar parameters) (Fujimori, 2002a).
  • the characteristics of the step response model are as follows. (1) It is famous as a model corresponding to multi-valued data in item response theory. (2) It has been more than 30 years since its publication, and applied research has been reported (for example, Noguchi (1) 9 9 9) etc.). (3) There is a publicly available analysis software MULTI LOG.
  • the step response model has a better fit to the data than the partial score model because the number of model parameters is large.
  • the number of model parameters is large, there is a risk that problems arise, such as the need for a large amount of data for accurate estimation of the parameters.
  • the partial score model is only simple, and the fit is expected to be inferior, but the stability of the estimated values and the like is considered to be good. I will need it.
  • the step response model (and most of the multivalued models proposed so far) has the problem of inflexibility in changing the steps because of the model parameter at each step.
  • the teacher assessed the items that were scored out of 20 at the time of the proficiency test in five coarse scales of 0, 5, 10, 15, and 20, the analysis using the five-step response model Become.
  • you decide to deduct one point for an answer that is a typographical error or the like there is a problem that not only the value of the parameter of the model but also the number of the parameter itself changes immediately. If a questionnaire was assigned a rating of 5 on a 4-point scale, the graded response model would not be able to use the previous parameter values as it was.
  • the simulation data based on the partial score model was created as follows. First, a 2-parameter mouthstick model is assumed as a component of the partial score model.
  • the t- discriminating parameter that determines the distribution type of the parameter of this two-parameter mouth dystic model as follows is an average of 0.65, a standard deviation of 0.25, a lower limit of 0.3, and an upper limit of 2.0. It is assumed that the cut normal distribution and the difficulty parameter follow a normal distribution with mean 0 and standard deviation 0.5. Assume that the capacity parameter 0 follows a normal distribution with mean 0 and standard deviation 1.0.
  • the ability parameter 0 is created according to the standard normal distribution, and the probability of correct answer expected from the two-parameter mouth dystic model is compared with a uniform random number in the range 0 to 0. False answer 0
  • This binary data pattern according to the two-parameter logistic model was repeatedly created 10 times for each of 50,000 subjects and 200 items (data 1 to 10). However, the same parameter is used for each of the five items. Next, the average of the sum of the correctness and error for each of the 5 items of the same parameter of this data is taken, and the values are taken in five stages of 0, 0.2, 0, 4, 0.6, 0.8, and 1.0. Partial score data was used.
  • the number of subjects is 500 as in the case of the binary data, but the number of items is 40.
  • data for cross-validation was created by adding a new capacity parameter 0 of the subject for 500 people.
  • the data based on the step response model was created as follows.
  • the step response model also assumes a two-parameter logistic model as a component.
  • the distribution form of the parameter is the same as in Section 0.
  • the number of data steps is assumed to be 5 from 1 to 5. Therefore, four boundary response curves between stages are required from the model.
  • one discriminating parameter is first generated according to the distribution, and this is used as the discriminating power common to each boundary reaction curve.
  • four difficulty parameters are created, and the smallest one is selected as the difficulty of the boundary reaction curves of stages 1 and 2. In the same way, the difficulty level of each boundary response curve is determined in order from the one with the smallest degree of difficulty. The difference between these boundary response curves is taken as each step response curve.
  • One capacity parameter 0 according to the standard normal distribution is created, and this value is fixed, and the interval of the reaction probability expected in each step response curve (the sum of the magnitudes of all the step response curves when 0 is fixed is 1 ), It is assumed that the reaction occurred when a uniform random number from 0 to 1 was entered.
  • the above process was used as data for repetition parameter estimation for 500 people.
  • data for cross validation was created for 500 people using the item parameters determined above.
  • the estimation of the parameters was based on a home-built FORTRAN program based on the alternate simultaneous maximum likelihood estimation of the item parameter and the latent characteristic value 0.
  • the maximum likelihood estimation of the number is possible, since the estimation program of the step response model supports only the alternating simultaneous maximum likelihood estimation, both models use the maximum likelihood estimation in consideration of the convenience of comparison. (The results are omitted, but there is no large difference between the marginal likelihood estimation and the alternate simultaneous estimation for the partial score model).
  • the estimated value of 0 and the degree of difficulty are set in the range of -3.5 to 3.5, and the range of the estimated value of discriminative power is set to 0.02 to 2.0.
  • Table 1 shows the correlation between the true value of the ability parameter of the simulation data created by the partial score model (hereinafter referred to as partial score data), the score of the number of correct answers, and the estimated value of 0 estimated by both models.
  • partial score data For correlation, Kendall's rank correlation coefficient is calculated (hereinafter, unless otherwise specified, correlation refers to Kendall's rank correlation).
  • rank correlation was calculated instead of Pearson's product moment correlation, which is commonly used, is that in many cases where the actual number of correct answers is scored and the order inversion of estimated values becomes a problem in the actual operation of item response theory.
  • the correlation with true 0 is higher in the partial score model, but there is little difference from the step response model.
  • the correlation with the number of correct answers slightly increases, and the estimated value by the partial score model gives a high correlation.
  • the mean square error (MSE) of the discriminating power is 0.014 for Dataset 1 and 0.017 for the difficulty level.
  • MSE mean square error
  • Table 3 shows the results of the simulation data created by the step response model (hereinafter referred to as “step reaction data”).
  • Table 4 shows the results of applying the item parameters estimated based on the data to the cross-validation data.
  • the step response model has a slightly higher correlation with true 0 than the partial score model, but it is not a large difference and the case is reversed as in datasets 1 and 5.
  • the overall correlation with the true value is slightly lower than in Tables 1 and 2
  • the step response model is a model that is more difficult to reproduce than the partial score model. It can be said that the correlation with the number of correct answers is higher in the partial score model than in the step response model, even though it is step response data.
  • the difference is larger than in the case of partial score data.
  • the reversal of the order relationship with the total score is more prevalent in the step-response model.
  • the reason for this reversal is that in the step-response model, the step-response curve in the middle part of the rating is relatively low depending on the item. The reason is that, depending on the response results of other items, the response of the item can hardly have an influence on the estimation of 0 (regardless of the estimation error, but on the determination of the point estimation value). Since this phenomenon is common not only to the step response model but also to other multi-valued models that model the response probability curve for each option or category, care must be taken when using these models. Conceivable. Of course, since the partial score model is also based on the 2-parameter mouth dystick model, there is some inversion of the total score and 0, but the degree is kept low.
  • the mean square error (MSE) of the discriminating power is 0.2993, and for the difficulty level, it is 0.0636, which is slightly higher than the partial score model.
  • MSE mean square error
  • Estimation accuracy is poor You can see that Items 8 and 15 shown in Table 5 are items with poor estimation results in Dataset 1, but both cannot be estimated when the true boundary response curves are too close to each other. I understand. In such a case, it is necessary to take measures such as treating the two boundary response curves as one. However, there are problems such as the criteria to be used and this is not performed in this study. In a way, it can be said that there is a problem with the step response model in the need for such measures.
  • the MSE of the discrimination power of the partial score model is 0.0136, which gives a better estimate than the step response model.
  • marginal maximum likelihood estimation still has the potential to improve performance, so we will not discuss it further here and will report it in another study.
  • the discriminative power of the step response model is higher overall than the partial score model (Table 7).
  • Table 7 A similar phenomenon occurs when the data is binarized and analyzed using the usual two-parameter logistic model. For example, in the case of a four-point rating, binarization is essentially a phenomenon that occurs because one replaces step two with four and step three.
  • the “binary model” in Table 7 is the result of such data conversion. It can be seen that the discrimination power is slightly higher than the partial score model. The occurrence of this phenomenon can be better understood by comparing the average response results for each group of item 4 in Fig. 1 in the case of quaternary and binary values.
  • the MSE of the alternate and simultaneous estimation has a discrimination power of 0.0094, a difficulty level of 0.0007, and a marginal In the likelihood estimation, the discriminative power was 0.003 and the difficulty was 0.0014 (Table 9).
  • Table 9 shows the estimated values obtained by analyzing the questionnaire data using both models and using marginal maximum likelihood estimation. Similarly, Table 10 shows that the discriminative power is increased in the step response model even when the marginal maximum likelihood estimation is used, as in the simulation.
  • the value of the correlation is close to the correlation between the two models obtained from the simulation results of the step response data, but this alone will not make it possible to determine that this data is occurring according to the step response model .
  • the reason for this is that if the effects of multidimensionality are taken into account when creating simulation data, for example, the correlation between the true value and the estimated value as well as the number of correct answers (in the case of a questionnaire, the total score) decreases. This is because there are things that can be easily predicted.
  • a simple partial score model may be more appropriate than a step response model that must be done. Of course, this is not the case if you are interested in the reactions of the individual steps.

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)
  • Emergency Protection Circuit Devices (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Complex Calculations (AREA)

Abstract

 本発明によると、英語能力テストなどにおいて正誤の2値的な評価だけでなく部分得点を与える採点を可能にするテスト・システムが提供される。このテスト・システムでは、入出力装置(207、208)を含むコンピュータ(101、102)とインターネットなどのネットワーク(103)とが利用され、項目パラメータ及び能力の推定に従来の項目反応理論を修正した部分得点モデルが用いられる。この部分得点モデルでは、部分得点を、同一のパラメータを有する複数の項目の正誤の平均として構成されるものと想定している。本発明のテスト・システムを用いることにより、外国語テストにおけるライティングやスピーキングのように正誤だけでは判定困難であって部分得点を要するような出題形式のテストの制御が、従来よりも容易になる。

Description

明細書 テス卜 · システム及びその制御方法 技術分野
本発明は、 テス卜 · システム及びその制御方法に関する。 更に詳しくは、 本発 明は、 従来型の項目反応理論を修正した部分得点モデルに依拠し、 採点の際に単 なる正誤の 2値だけでなく複数の段階を有する部分得点としての評価も許容する テス卜を従来よりも簡略化された態様で設計、 実施及び評価するテス卜 · システ 厶及びその制御方法に関する。 背景技術
今日、 テストを設計しその結果を処理する際に用いられる理論として、 古典的 テス卜理論と項目反応理論との 2つが広く知られている。 これらのテス卜理論に 関しては、 例えば、 渡部洋編著 『心理統計の技法』 (福村出版、 2 0 0 2年) の 6章及び 7章にそれぞれ一般的な解説が与えられている。 なお、 テス卜理論にお けるテス卜とは、 学力テス卜だけでなく、 心理学における性格検査や臨床検査な ども含むのであるが、 この出願では、 そのような広い応用分野を視野に入れた抽 象的な説明を行うのではなく、 理解を容易にするために、 特に外国語試験などの 学力テストを念頭において具体的な説明を試みたい。 なお、 項目反応理論におけ る 「項目」 とは、 学力テス卜の場合であれば問題を意味する。 従って、 この出願 で具体例に即した説明する際には、 「項目」 ではなく 「問題」 、 「被験者」 では なく 「受験者」 など、 学力テス卜における一般的な用語を用いる。 しかし、 本発 明は、 一般のテスト理論に関する汎用的なものであって、 学力テス卜だけに限定 されることはなく、 テス卜理論が一般的に適用される上記の分野にも適用が可能 である。
古典的テスト理論は、 現在広く用いられているが、 得られる結論が受験者の特 性の統計的な分布に依存するという特徴を有する。 従って、 古典的テス卜理論に 依拠している場合には、 特性が異なる受験者の集団に対して実施された複数のテ ス卜で得られた平均点や偏差値を比較することは、 適切でない。
古典的テス卜理論の短所を克服する理論として項目反応理論があリ、 現在では, この項目反応理論に基づいて設計され結果が処理される学力テス卜が多く存在す る。 例えば、 最近出版された項目応答理論の教科書である豊田秀樹著 『項目反応 理論入門編』 (朝倉書店、 2 0 0 2年) の第 1 6頁には次のような記述がある。 「有名な語学試験である T 0 E F L…は 1年間に何度も実施される。 しかも世界 中で実施される。 同一の被験者が再受験する可能性があるから同じ項目の集まリ である同一のテス卜は 2度と使用できない。 このため平均点や通過率は、 テス卜 ごとにそれぞれ異なる。 地域によって英語力にも差があるから特性値の分布も異 なる。 したがって、 偏差値や正規得点や経験分布関数を使用して、 受験結果を異 なるテス卜間で比較することは不可能である。 …丁 O E F Lの点 (たとえば、 5 0 0点、 6 5 0点など) は、 どこで受験したか、 いつ受験したか、 どの問題を解 いたかに関係なく留学の可否の判断に利用される。 つまり 質な受験者が、 異な る項目を、 異なる日時に、 異なる場所で受験したにも関わらず、 被験者は、 統一 された処遇を受けることができる。 この処遇を可能にするテストを継続的に、 前 向きに運用するシステムを構築する数理モデルが、 …項目反応モデルである。 」 また、 特開 2 0 0 2 — 0 0 6 7 3 4号公報には、 出題が予定される試験問題を 予め樹状に配置しておき、 受験者による解答の正否に応じて樹状に配置された経 路に沿って問題を順に出題し、 単に正解の数だけでなく、 どのような経路で最終 地点まで到達したかという途中経過を考慮して受験者の能力を推定するテス卜の 方法及びシステムが開示されている。 この公開特許公報にも、 項目反応理論への 言及が見られる。
しかし、 従来型の理論に基づく項目反応モデルでは、 2値によって採点が可能 な〇X式の解答以外の、 例えば、 1 と 0との間の部分点を許容せざるを得ないよ うな形式の問題の処理が容易ではなかった。 段階反応モデルなど、 多値の結果も 扱えるように構築された方法も古くから存在してはいるが、 従来の方法は後述す る短所を有している。 従って、 部分得点を許容しなければ的確な採点が困難な英 作文やスピーチなどは、 コンピュータ適応型テス卜 (C A T ) に含まれないこと が通常である。 例えば、 上述の特開 2 0 0 2 — 0 0 6 7 3 4号公報に開示されて いる発明では、 項目反応理論の利用が明言され、 出題されるべき問題が予め樹状 に配置されているが、 受験者がある問題に正解したら右下、 誤答したら左下に配 置された問題に移動するというように、 解答が正誤のいずれかの 2値であること が予定されている。 発明の開示
本発明は、 このような従来型の 2値の解答を予想する C A Tとは異なり、 部分 得点を与えるような採点を許容するテス卜 · システムであって、 しかも、 従来の 段階反応モデル等の複雑なモデルよリもはるかに容易に部分得点の処理を可能に するテス卜 , システム及びその制御方法を提供することを目的とする。
本発明によると、 入力装置と出力装置とを備えた第 1 のコンピュータと、 イン ターネッ 卜を含むネッ 卜ワークを介して前記第 1 のコンピュータと接続されてお リ入力装置と出力装置とを備えた第 2のコンピュータと、 前記ネッ卜ワークを介 して前記第 1及び第 2のコンピュータと接続されたテス卜管理サーバと、 前記テ ス卜管理サーバからアクセス可能であって難易度と識別力とを含む項目パラメ一 夕が予め推定されている複数の問題が記憶された問題データベースとによって構 成され、 1人の受験者に n問の問題を出題し、 出題された n問の問題に対する前 記受験者の反応から前記受験者の能力 0を推定するテス卜 · システムが提供され る。 前記テス卜管理サーバは、 ( 1 ) 前記第 1 のコンピュータから送信されたリ クエス卜に応答して、 1 ≤ j ≤ nである問題 j に対し満点を 1 として 0≤ r .≤ 1である部分得点 r 』を許容する態様で採点されうる n問の問題を前記問題デー タベースから選択し前記第 1 のコンピュータに送信する手段と、 (2 ) 前記問題 データベースから選択され前記第 1 のコンピュータに送信された問題に対して前 記第 1 のコンピュータから返送された解答を記憶する解答記憶手段と、 (3 ) 前 記第 2のコンピュータから送信されたリクエストに応答して、 前記解答記憶手段 に記憶されている解答を読み出し前記第 2のコンピュータに送信する手段と、 ( 4 ) 前記第 2のコンピュータに送信された解答に対して与えられた部分得点 r jを前記第 2のコンピュータから受信し記憶する部分得点記憶手段と、 ( 5 ) 前 記部分得点記憶手段に記憶されている部分得点 r 』と前記問題データベースに記 憶されている問題 jの項目パラメータとを用いて、 当該部分得点 r ;を獲得した 受験者の能力 0を推定する能力推定手段とを備えている。 そして、 ( 5 ) の前記 能力推定手段においては、 Ρ 』 ( Θ ) は、 部分得点 r ;を問題 j に固有であって 前記受験者が正答 1又は誤答 0のいずれか一方の潜在的反応を取り得る潜在的問 題を s j回繰り返し実施したときに前記受験者が潜在的に取りうる正誤反応の平 均であると想定した場合に、 前記受験者が前記潜在的問題に正答する確率であり . 【数 1 】
Figure imgf000006_0001
と表現され、 この数式 1 における a』及び b ;はそれぞれが前記問題データべ一 スに記憶されている問題が有する固有の特性である識別力と困難度とであリ、 D は 1 . 7という定数であリ、 Q j ( Θ ) は 1 一 P j ( Θ ) である場合に、
【数 2】 ' (θ ) = SJ ( ^ {pj ( ) + - )ln {QJ (Θ
によって表される対数尤度^ を用いて受験者の能力 0が推定される。 ただ し、 上記の数式 1 として表現されている P j ( Θ ) の関数形は単なる例示であり、 P j ( Θ ) がこの表現形式に限定されることは必要なく、 様々な形式でありうる。
ここで注意すべきは、 観測可能なものは、 受験者が問題 j に対して獲得する 0 から 1 までの間の値を取りうる部分得点 r jであり、 潜在的問題に対する受験者 の潜在的な反応は観測できないという点である。
更に、 本発明によるテス卜 · システムによれば、 実際に観測される問題 j に対 する部分得点 が顕在的な複数の正誤問題の平均によって構成されている場合に も、 これらの正誤問題の正答確率の平均を数式 1 で表現し、 数式 2を用いて受験 者の能力 0を推定することが可能である。
更に、 本発明によるテス卜 ' システムによれば、 テス卜が実施された集団の能 力分布を仮定した上で、 回の正誤の和である 2項分布と仮定された能力分布と の積を能力の次元で積分して部分得点の理論的な分布関数を求め、 求められた理 論的な分布関数と実際のデータの部分得点の経験的な分布関数が最もよく一致す るように、 潜在的な問題の繰り返し回数である を推定することも可能である。 更に、 本発明によるテスト · システムにおいて、 前記第 1及び第 2のコンビュ 一夕における前記出力装置と前記入力装置とがそれぞれ音声出力装置と音声入力 装置とを含む場合には、 前記テス卜サーバに送信され記憶される解答として音声 データを含ませることも可能である。 この場合には、 第 1 のコンピュータにおい てリスニングの問題を出題したり、 受験者に実際に発話させた内容を採点対象と するスピ一キングの問題も出題可能となる。
なお、 本発明は、 上述のテスト · システムを制御する方法としても実現するこ とができる。 更に、 本発明は、 そのようなテス卜 · システム制御方法を実装する コンピュータ · プログラムが記憶されているコンピュータ可読な記憶媒体自体と して存在することもありうる。 更には、 そのようなテス卜 · システム制御方法を 実行するコンピュータ · プログラム自体としても存在しうる。 図面の簡単な説明
図 1 は、 本発明によるテス卜 · システムの一例の概要である。
図 2は、 本発明によるテス卜 · システムを構成する受験者ュニッ 卜の概要であ る。
図 3は、 本発明によるテス卜 · システムを構成する採点者ュニッ 卜の概要であ る。
図 4は、 本発明によるシステムを用いたテス卜実施の概要を示す流れ図であり, 特に、 本発明が依拠する部分得点に関係するライティング及びスピーキングに関 する受験及び採点のプ口セスが示されている。
図 5は、 本発明によるテス卜 · システムを用いた能力推定の有効性を確認する ために実施された被験者 1 2名によるスコア安定性確認調査の結果を示すグラフ である。
図 6は、 図 6 aから図 6 gで構成され、 それぞれが、 図 5のスコア安定性確認 調査における被験者 1 2名のスコアを示すグラフである。
図 7は、 図 7 aから図 7 dで構成され、 繰り返し数 s 』.を推定する際に、 真の s - 5 、 1 0 、 2 0 、 4 0の場合に、 推定された経験分布と理論分布との分布関 数の差の最大値 (コルゴモロフ ·スミルノフ検定の統計量) を繰り返し数 3〜1 0についてプロッ卜したものである。
図 8は、 図 8 a及び図 8 bで構成され、 それぞれが、 英語能力テス卜での繰り 返し回数 s 』の推定への適用例である。 発明を実施するための最良の形態
本発明の基礎として用いる部分得点モデルについて述べる前に、 一般的な 2値 の項目反応モデルについて簡単に説明する。 2値とは、 解答が正答又は誤答の 2 つの値だけを取るという意味である。 このモデルでは、 受験者が問題に正答する 確率を、 受験者の能力を表すパラメータと問題を特徴付けるパラメータとを用い て表現する。 例えば、 本発明では、 各問題を 2つのパラメータ (識別力 a及び困 難度 b ) によって特徴付ける 2母数 (パラメータ) ロジスティック 'モデルを用 いるのであるが、 この場合、 能力 0を有する受験者 i が問題 j に正答する確率は 次のように書くことができる。
【数 3】
Figure imgf000008_0001
ここで、 xは、 受験者 i が問題 j に正答するならば 1 であり、 誤答するならば 0 であるダミー変数である。 また、 Dは定数である。 この場合に、 n問の問題を終 了した時点での受験者の能力 0の尤度 L B ( Θ ) は、 次のように書くことができ る。
【数 4】
Figure imgf000008_0002
ここで、 P ( 0 ) は数式 3の右辺の正答確率であり、 Q ( 0 ) は誤答確率つまり 1一 P ( 0 ) である。 項目応答理論では、 数式 4の尤度 L B ( Θ ) の最大値を与 える 0の値を受験者の能力パラメータの推定値とする最尤推定法が知られ、 広く 用いられている。 ただし、 数式 4の右辺は積の形式で書かれており最大値を求め るのが容易でないので、 和の形式に直して考察するため、 両辺の自然対数を取つ た対数尤度 I n ( L B ( Θ ) ) の最大値を求めるのが一般的である。 これは、 自 然対数は単調増加関数であって、 尤度 L B ( Θ ) の最大値を与える 0とその自然 対数 I n ( L B ( θ ) ) の最大値を与える 0とが一致するからである。
以上が、 従来から公知である一般的な 2母数ロジスティック 'モデルであるが, 本発明において用いる部分得点モデルでは、 問題への反応 (解答) の評価が正誤 という 2値にとどまらず、 部分点として評価されることが可能となる。 具体的に は、 数式 4のダミー変数 X ;が 1及び 0の 2値だけでなく、 0から 1 までの 3つ 以上の複数の値 (例えば、 0 、 0 . 2、 0 . 4、 0 . 6 、 0 . 8、 1 の 6つの 値) を取ることを許容する。 受験者 i の問題 j に対する部分得点を r ,』とする と、 部分得点に対応する尤度は、 次のように表すことができる。
【数 5】
Figure imgf000009_0001
具体的な外国語試験、 例えば英語の試験を考えると、 正誤問題ゃ多肢選択式問 題であれば、 正答及び誤答の 2値として処理できる。 しかし、 英作文や英語での 発話 (質問に対する口頭での応答) は単純な正答又は誤答として評価するのは困 難であり、 部分点を与えることによって評価することが必要となる。 従って、 従 来型の 2値の項目応答モデルを用いることはできない。 しかし、 数式 5によれば, 任意の形式を有するテス卜の採点結果を部分得点に変換して分析用のデータとす ることができる。
数式 5の意味を解釈するために、 同一の問題パラメ一夕を有する s j個の問題 が同じ受験者に向けて出題されるとする。 学力テス卜の場合には、 パラメータは 同じであるが内容としては別の問題を提示すると想定するのが無理のない想定で ある。 性格検査などに用いられる質問紙では、 内容的にも同一の問題を提示する ケースも考えられるが、 これは項目反応理論の前提である局所独立の仮定に反す る可能性も生じるので、 ここでは、 一応同一パラメータであるが内容の異なる質 問項目を提示すると想定する。
一般の項目反応モデルでは、 このような想定条件下の尤度は、 数式 4から次の ように表すことができる。 【数 6】
Figure imgf000010_0001
すべての問題に関して繰り返しの解答 S jが等しい (= s ) と仮定した場合、 の数式 6の s乗根をとると、 次の数式が得られる。
【数 7】
Figure imgf000010_0002
L B ( Θ )と L B ( Θ ) *との最大値を与える 0は同一であるので、 最尤推定値は. 数式 6及び数式 7で同じである。 数式 7において
【数 8】
とおけば、 L p a r t ( Θ ) と L B* (Θ)とは形式上同じとなる。 つまり、 パラメ 一夕が同じである問題の繰り返しによる正誤の平均によって部分得点が表現され る場合には、 本発明が依拠する部分得点モデル L p a r t ( θ ) の解と一般の項目 反応理論による L B ( Θ )の解とは、 と L B* ( Θ ) を通じて一致する。 以上によ リ、 同一パラメータの問題を複数回実施し、 その正誤の合計又は平均により成績 をつけるようなタイプの部分得点に関しては、 当該項目のすべての実施結果に関 してその平均を取ることにより 0から 1 までの間の部分得点を作ることにすれば, 部分得点モデル L p a r t ( Θ )によって処理しても、 従来の 2値データによる処 理と同一の結果となることがわかる。 数式 8から、 提示の回数 s 』を増加させれ ば、 実質的に 0から 1 までの任意の部分得点を表現できることが導かれる。 なお, 数式 6と数式 7との間で s乗根分の相違があると実際には不便なので、 次のよう に、 数式 5を s乗して、 その自然対数を部分得点化の対数尤度とするのが好まし い。
【数 9】 { ln(Pバ 0 )) + (l- ) ln(j¾ (0: さて、 実際の学力テストでは、 相互に関連する複数の問題が出題されることが ある。 外国語テストの例では、 一定の長さの文章に関して複数の問題が出題され る場合などがこれに該当する。 しかし、 このような問題群の存在は、 項目反応理 論の局所独立の仮定に反する可能性がある。
因子分析的に考えてみると、 仮にテス卜の得点 zが、 テス卜問題の全体で測定 する因子 f ,と、 ある問題群」 に共通する因子 f 2と、 各問題に独自な因子 uか ら構成されるとすれば、 受験者 i による問題 j の得点は次のように表現すること ができる。
【数 1 0】 zij = fnaij + fi2a2j + Uj
ここで、 aは因子負荷である。 問題 j が問題群」 に属する場合には a 2 jはゼロ でなく、 問題 j が問題群 J に属する場合には a 2 j = 0である。 数式 1 0におい て問題群」 についての和を取ると、 次のようになる。
【数 1 1 】
^ = ^ 。" + ^ん + ^ "ゾ 右辺第 2項は問題群」 に共通する因子 f 2に関する和であるが、 因子の直交性の 仮定からは、 他の問題との相関を持たず独自性部分と見ることができる。 項目反 応理論でも項目に固有な成分を想定しているわけであるから、 右辺第 2項はこれ に該当する。 すなわち、 局所独立の仮定に触れずに済むことになる。 因子 f ,を 項目反応理論の能力パラメータ 0と仮定すれば、 テス卜で相互に関連する問題群 の和を取って部分得点として処理することには不都合はない。 局所従属の関係に ある問題に関して本発明が提唱するような処理を行うことは、 項目反応理論の仮 定からはむしろ望ましいとさえいえる。
もし完全な同一パラメータの項目でなく類似パラメータの項目の繰り返しを想 定する場合は、 一般の 2値の尤度は項目 j の繰り返し提示の正誤パターンによつ て異なり、 次のようになる,
【数 1 2】
Figure imgf000012_0001
0固定、 項目パラメータ所与とする。 数式 1 2の対数尤度をとり、 類似項目 j に係わる部分だけを取り出すと
【数 1 3】
Figure imgf000012_0002
が得られる (ただし正答確率などに対する添え字 j 、 及び 0は省略する) する と、 その正誤反応 Xに関する期待値は
【数 1 4】
. ))= j^ln( + (l-^)ln(l-^)) となる。 また
【数 1 5】
P 【数 1 6】
とするとき、 A P kは、 各項目が類似項目であるため微小と仮定する。 A P kの 2次以上の項を無視すると
【数 1 7】
Figure imgf000012_0003
s Pln(P) + ^Pkln{F) + ^Pk
【数 1 8】 ί- ,)ΐη(ΐ- ,) = (ΐ-Ρ-Δ^)ΐη(ΐ-Ρ-ΔΡ,
[-P)ln(l-F)-APk -ΔΡ,Ιη(ΐ-Ρ) が成立する。 数式 1 7及び 1 8を数式 1 4に代入し、
【数 1 9】
A =0 であることを考慮に入れれば
【数 2 0】
Figure imgf000013_0001
^Pln( ) + (l- )ln(l-P
5^Pln P + 1-P In 1- 次に部分得点についても検討してみょう。 先程と同様に全ての項目で繰り返し の回答 S jが等しい (= s ) と仮定した場合、 数式 9の正誤の確率を数式 1 5の 平均反応確率と
【数 2 1 】
¾(0)=1- (0) で置き換える。 すると
【数 2 2】
Figure imgf000013_0002
となる。 上式より特定の類似問題 j に係わる部分だけを取り出し、 また部分得点 rが類似問題 j の正誤の平均であることから
【数 2 3】
Figure imgf000014_0001
となる (ただし正答確率などに対する添え字 j 、 及び 0は省略する) すると その期待値は
【数 2 4】
Figure imgf000014_0002
= 5 {p in ( ) + (l - )ln (l - P)}
であり、 数式 2 0及び 2 4から
【数 2 5】
Figure imgf000014_0003
が成立する。 尤度を構成する全ての類似項目に数式 2 5が成立すれば、 部分得点 の最尤解と、 2値データによる解は近似的に一致すると考えられる。
なお、 以上で、 本発明における部分得点モデルは、 同一パラメータの問題又は 類似パラメータにおいて繰り返し定義の回数が同一であれば、 通常の 2値の項目 反応モデルと対応関係を有することを既に示した。 しかし、 現実の適用場面では, すべての問題の繰り返し回数が同一である、 つまり、 部分得点の段階数がどの問 題についても同一であるとは限らない。 例えば、 学力テス卜においては、 初めに 2値的に採点される易しい項目があリ、 後半に多値的に採点される難しい項目が 配置されることが多い。 このような状況に対応するためには、 数式 9を次のよう に拡張する必要がある。
【数 2 6】 (r. In (Pj (Θ )) + (1 - )ln (β; (θ )))
Figure imgf000015_0001
このような拡張型部分得点モデルでも、 一般の 2値モデルの最尤解と数式 2 6 の解とは近似的に一致する。
次に、 2項分布を利用した繰り返し回数 の推定について説明する。 拡張され た部分得点モデル 【数 2 7】 ' (0 ) = ( . In (Pj (θ )) + (1一 r. )ΐη (β; (θ ))) を適用する場合、 各項目の繰り返し回数 はシミュレ一ションでもない限り実際 には不明のことが多く推定する必要がある。部分得点の性質により の推定は異 なり、 以下で説明を加える 第 1 に、 部分得点が複数の正誤問題の平均値である場合について考察する。 あ る問題 j の部分得点が、 1 組の組問などからなる複数の正誤 2値問題の平均値 (つまり複数の問題の合計点を採点結果とする場合) である場合は、 それらの問 題の数が、 そのまま繰り返し数 の推定値となる。 第 2に、 部分得点が質問紙などの段階評定である場合について考察する。 質問 紙で多用される評定尺度の場合、 段階数を m + 1 とするとき繰返し数 sは mと推 定できる,たとえば質問項目が、 「 1 . よくあてはまる」 Γ 2 . ややあてはま る」 Γ 3 . ややあてはまらない」 Γ 4 . まったくあてはまらない」 の 4段階の評 定で回答を求めるものであるならば、 回答結果を 0 ~ 1 の部分得点として処理す るために、 各回答を ; c とするとき( 一 1)/3 と変換して 「0,1/3,2/3,1」 の 4 段階をとる部分得点データとして分析することになる。 これは、 3 つの 2値項目 の得点の和を 3で割ったことと同じである,つまり質問紙の回答が m+l段階の評 定であるならば、 2値データの繰り返し数^.は mであると推定できる。 第 3に、 部分得点が、 複数の正誤 2値問題の平均値でなく、 採点者の評定のよ うな採点結果であり、 比較的段階数が少ない場合について考察する。 最も簡単な の推定方法は、 部分得点 rが 1段階の得点であるならば、 元の 2値データの 項目の繰り返しは s であると推定するものである。部分得点モデルの考えでは、 2値データの合計を繰り返し回数で割ったものが部分得点 と対応していたこと から、 たとえば、 採点者の評価結果が 0、 0. 5、 1 の 3段階で表現されるので あれば、 これは 2つの 2値項目の得点の和を 2で割ったことに他ならない.もち ろんこれが成立するためには、 得点の発生する可能性のある各段階間の等間隔性 が必要となる。 同じ 3段階の部分得点であっても 0、 0. 5、 1 と 0、 0. 7 5 , 1 . 0の持つ意味は異なる,部分得点が同一母数項目の繰返しにより生ずるとい う仮定からは繰返し数 2で後者のパターンが生じるとは考えにくく、 より大きな 繰返し数を仮定する必要があるだろう。たとえば 0、 0. 2 5、 0. 5、 0. 7
5、 1 . 0のパターンを想定し、 繰返し 4を考える場合である. 第 4に、 部分得点が複数の正誤 2値問題の平均値でなく、 採点者の評定のよう な採点結果であり、 段階数が多い場合について考察する。 既に述べたように部分 得点 r が m+l 段階であるとき 2値の正誤項目からこれを構成するためには繰返 し回数 sは mであることが必要である。段階数が少ない場合は、 前節の推定で良 いと考えられるが、 段階数が多くなると問題が発生する可能性が高くなる。たと えば、 1 0 0点満点のテス卜で、 1 人の結果を除いた解答に採点者が 1 0点刻み に採点した場合、 段階数は 1 1段階で繰返し数は 1 0である。 しかし採点者が残 る 1 人の解答結果に 6 9点という点をつけたとするとその途端に、 繰返し数を 1 0 1 としないと部分得点化が困難となる。また得点を整数に限らず実数も許容す る場合には、 このような考え方では繰返し数を推定することは困難となる。
以上のような問題を解消するため、 ここでは若干の仮定を設けた上で繰返し数 を推定する。 問題 j の部分得点は、 当該の問題に関係する潜在的な問題の繰り返 し実施による正誤の平均で部分得点が構成されることを仮定し、 正答確率は P j、 誤答確率は Q j = l— P j とする (以上部分得点の仮定) 。このとき 0を固定すれ ば、 部分得点 Rが 0,ΐ//η,2//η,···,1をとる確率 Pm(/? = r|0)は 2項分布
【数 2 8】
Pm(x =χ\θ)=
Figure imgf000017_0001
x = 0,l,...,m
に一致する。すると母集団全体では、 m回の繰返しで部分得点が rとなる確率は、 【数 2 9】
Figure imgf000017_0002
であり、 その分布関数は
【数 3 0】
Figure imgf000017_0003
となる。 ここで は 0の母集団分布である。 この理論分布とデータから得ら れる経験分布が一致することが望ましい。 このため理論分布と経験分布の一致度 をコルモゴロフ ·スミルノフ検定の統計量
【数 3 1 】
値 = max| (V)-F'(r)|
で評価する。ここで^ (r)は、 理論分布における段階 rまでの分布関数の相対累積 度数であリ、 F'(r)は経験分布における段階 rまでの相対累積度数である。
実際にコルモゴロフ · スミルノフ検定の統計量を求めるためには、 理論分布、 経験分布とも rが離散量であり、 また両者で段階の値が必ずしも一致しないこと から生じる比較の困難さがあり、 ここでは次のような方法で比較することにした, まず φ ( を標準正規分布と仮定する,もちろんこれは必要に応じて 0の母集団 分布と想定される任意のものを用いることが出来る。これにより、 数値積分を行 えば数式 2 9が求まり、 その結果数式 3 0が分る。 Rは 0、 l Z m、 2 m . - 、 1 の m + 1段階の値を取り得るわけだが、 Rが潜在的には連続量であると仮定す れば、 たとえば 番目の段階値 / の度数は、 区間 に含まれる Rの度数の反映に他ならない,このため、 f番目の段階値 //«までの理論分布関 数 F / )と比較する経験分布関数 ^ 、は、 部分得点としての区間 [ 0 , 1 ]の内 の区間 0, + の相対累積度数とすることにする,
m 2m
m
以上のような方法で、 最小のコルモゴロフ ■ スミルノフ検定の統計量を与える 段階数 m を、 繰返し数 の推定値とすることが可能であり、 以下のシミュレ一 ション及び実際のデータへの適用により、 この方法の有効性が確 +認されている。 第 5に、 シミュレーションによる繰返し数 の推定法の検討について述べる。 問題 jの部分得点 が正誤 2値問題の繰返し提示による正誤平均として表現され ることを仮定して、 シミュレーションによりこれを再現し、 繰り返し数 として 5. = 5 . 1 0、 2 0、 4 0の 4種類 ( 1 つの問題の部分得点データを作るために 2 値の問題を 5〜 4 0個利用したということ) を行い、 4 0問題 3 0 0 0人分のデー 夕を作成した。
前節の繰返し数 の推定法は、 項目母数が与えられていなければならない。こ のため作成された部分得点データに基づいて項目母数と能力母数の同時推定を行 つた (この段階での繰返し回数 .は 1 ) 。
図 7 aは、 真の s = 5のとき、 推定された経験分布と理論分布の分布関数の差 の最大値 (コルモゴロフ · スミルノフ検定の統計量) を、 繰返し数 s = 3〜 1 0 についてプロッ 卜したものである。ここで問題にしているのは繰返し数が大きい ときのケースであるから、 繰返し数 s = 1 、 2は、 元々不要であるので省略して いる ( 2項分布を利用した繰返し数の推定は最低でも s = 3からとしたい) 。こ の図より明らかに真の繰返し数 5 の点でコルモゴロフ · スミルノフ検定の統計 量が最小値をつけていることが分る。図 7 bには s = 1 0、 図 7 cには s = 2 0、 図 7 dには s = 4 0の場合を示したが、 いずれも真の繰返し数で最小値をとつて いることが分る,
第 6に、 能力検査への適用例として、 実際のデータでの繰り返し数の推定例に ついて述べる。 英語力テス卜での繰返し回数 .の推定への適用例を示す。同テス 卜は受験者 9 4 8 0人、 問題数 4 3項目のデータであり、 長文読解に絡んで複数 の小問をあてているため 5問組が 2組存在している。 両組の小問の正誤平均で部 分得点を作成し、 前節の繰返し数の推定を試みた。その結果得られたのが図 8 a 及び図 8 bである。 どちらも当該群の問題数の 5でコルモゴロフ ·スミルノフ検 定の統計量は最小値をとっていることが分り、 推定の有効性が示されている。 以上では、 本発明によるコンピュータ適応型テス卜設計及び処理システムにお いて用いられる部分得点モデルについて説明した。 この部分得点モデルは、 2値 の項目反応モデルを修正することによって得られている。 従って、 この部分得点 モデルでは、 推定すべきパラメータの数も 2値モデルの場合と同じであり、 問題 の特性に特別な関心があるとき以外は、 学力テス卜の設計及び結果処理の際に、 従来試みられてきたような複雑な多値モデルを利用する必要性は少ないといえよ う。
本発明において用いられる部分得点モデルを従来から公知であった段階反応モ デルなどと比較すると、 次のようなことが明らかとなる。 ( 1 ) 項目反応理論で は、 通常はデータが 2値で 1次元であることを要求しているが、 部分得点モデル は、 多値、 多次元データに適用できる。 ( 2 ) 部分得点モデルは (段階反応モデ ルゃ他の多値モデルに比較して) 簡明なモデルで利用者に理解しやすい。 ( 3 ) 部分得点モデルは、 (段階反応モデルや他の多値モデルと違い) 一般によく利用 されている 2母数ロジスティックモデルとシームレスなので、 結果の解釈も容易 であり、 2値と多値の混在データの分析にも便利である。 (4 ) 部分得点モデル は、 モデルのパラメータの数が (段階反応モデルや) 他のモデルに比較して少な く、 推定に問題が生じない。 (5 ) 部分得点モデルは、 どのような解答 (回答) 結果でも 0から 1 の部分得点に変換すれば適用できるので応用範囲が広い。 ( 6 ) 部分得点モデルは、 テストだけでなく質問紙データにも容易に適用できる,
( 7 ) 部分得点モデルは、 解答 (回答) の段階数が増えても (段階反応モデルや 他のモデルのように) モデルのパラメータが増加しないので、 採点結果の変更に 対応が容易である,
また、 本発明の発明者の 1 人 (藤森) は、 部分得点モデルを用いたシミュレ一 シヨンを行ったが、 その結果によると、 ( 1 ) 段階反応モデルは、 テストが少数 項目であると識別力の推定にバイアスがかかるが、 部分得点モデルではこの現象 は生じない。 ( 2 ) 正答数得点と能力推定値の順位相関は、 部分得点モデルの方 が段階反応モデルより高い (真の値との相関では両モデルともほぼ同等) 。
以上で本発明によるテス卜 · システムにおいて用いられる部分得点モデルの概 要を説明したが、 その要旨を再確認しておきたい。 本発明が依拠する部分得点モ デルにおいては、 合計点を和を取った項目数で割ることにより 0から 1 の間の部 分得点として入力データとする、 すなわち、 2値モデルの尤度の正誤に使われる ダミー変数を部分得点を表す実質的変数あるいは正誤確率の重みとして扱う。 こ のような想定の下で部分得点を処理しても、 理論的にも従来の 2値型の処理の場 合との整合性が保たれ、 また、 シミュレーションの結果を見ても 2値データの場 合の尤度関数を用いる推定結果と部分得点モデルによる尤度関数を用いる推定結 果とは実質的に同じであるといえる。
次に、 上述した部分得点モデルが本発明によるテスト · システムにおいてどの ように具体的に適用されるかを説明したい。 具体例として、 英語能力テス卜を考 える。 多肢選択式など解答が正答又は誤答の 2値で評価される設問に関しては、 従来型の項目反応理論が適応され、 数式 4の尤度関数 L Bを用いて項目パラメ一 夕と能力値 0とが推定される。 これに対し、 ライティング (作文) ゃスピーキン グ (会話) の問題では、 正誤判断による 2値的な採点ではなく部分点を許容する 採点を行うことが、 受験者の英語能力評価をより分析的かつ精密に行うことを可 能にすると思われる。 そのような場合には、 2値評価を前提とする従来型の項目 反応理論を適用することはできず、 上述した部分得点モデルが用いられる。
部分得点モデルでは、 例えば作文問題に対する受験者の解答を採点する際に、 零点 ( 0 ) から満点 ( 1 ) までの間で 2 5 %刻みの部分得点を与えることができ る。 具体的には、 数式 5において r , ;が、 0、 0 · 2 5、 0. 5 0、 0. 7 5、 1 という 5つの値を取りうる尤度関数を考えて、 部分得点を処理する。 Pを定義 する数式 3に含まれる項目パラメータ a (識別力) 及び b (困難度) は、 同じ問 題を用いて予め行われたプレテス卜におけるデータを用いて既に推定されている < 既に一般論として論じたように、 本発明の部分得点モデルでは、 部分得点を同一 パラメータを有する問題が反復的に出題された場合の正誤の平均として表現され るものと想定しているため、 1つの項目 (=問題) の内部では、 どの部分得点に ついても項目パラメータ a及び bの値は同じである。
具体例として、 このような英作文の問題が 3題出題され、 ある受験者によって 与えられた解答がそれぞれ 0. 2 5、 0. 7 5、 0. 5 0と評価される場合を考 える。 この場合、 0と 1 とを含めると 5段階の部分得点を用いて評価されている ので、 繰り返し数は 4であり、 尤度関数 L p a r tの対数尤度を考え、 数式 9の r jに部分得点 0. 2 5、 0. 7 5、 0. 5 0を代入することによって次のように 決定される。
【数 3 2】 ' ( =∑ SJ ( In )) + (!- ) In (Qj (θ ]
= 4 [ { ( 0. 2 5 ) I n P , ( Θ ) + ( 0. 7 5 ) I n Q , ( Θ ) } + { ( 0. 7 5 ) I n P 2 ( β ) + ( 0. 2 5 ) I n Q 2 ( Θ ) } +
{ ( 0. 5 0 ) I n P a ( Θ ) + ( 0. 5 0 ) I n Q 3 ( Θ ) } ]
ここで、 ロジスティック曲線 Pに含まれる項目パラメータ a及び bは、 それぞれ の問題に対して予め推定されている。 数式 3 2の対数尤度を用い、 最尤推定法や ベイズ推定法により、 受験者の能力 0が推定される。 これらの方法自体は従来か ら知られている一般的な統計学的手法であり本発明の特徴ではない。 しかし、 い ずれの推定方法を用いるにしても必要な対数尤度は、 本発明の核心である部分得 点モデルによって初めて得られるものである。
以上は、 部分得点モデルの基本的な適用例である。 更に、 部分得点モデルを用 いると、 このような単純な例とは異なリ、 複数の評価基準を設け、 1 問を複数の 視点から評価する分析的な評価方法を採用することによって、 受験者の能力推定 の精度を向上させることもできる。 例えば、 上述した基本的な適用例では顕在化 しない受験者の能力差を明らかにできる可能性がある。 例えば、 ライティング問 題では、 精度の高い評価のため に、 ( a ) 目 的達成の有無 ( Goal Achievementノ 、 ( b ) 文法 ( Grammar ) 、 ( c ) |§彙 ( Vocabulary ) 、 ( d ) 文章構成 ( style ) 、 ( e ) 綴り字 - 句読点 ( Mechanics ) という 5つ の評価基準を設定し、 スピーキング問題であれば、 ( a ) から ( c ) に加え、
( f ) 発話の流暢さ ( Fluency) 、 ( g ) 発音 ( Pronunciat ion) という 5つ の評価項目を設定する。 このような評価項目を設定する理由は、 例えば、 作文の 設問であれば、 非常に拙いが書き手の意図が一応は読み手に伝わる、 文法的には 誤りはないが余りに不自然であり状況にそぐわない、 明らかな文法上の誤りがあ る、 単語の綴りに間違いがある、 類似する単語が誤用されている、 文の途中で中 断し完結していない、 パンクチュエーションが間違っているなど、 ただ 1 つの作 文を評価するに場合でも、 異なる複数の視点から評価を行えば、 1 つの問題を複 数の小問題から構成されているものと考え、 視点ごとに異なる評価が可能である からである。 そして、 このように複数の評価項目を設定すると、 1 つの問題を複 数の問題から構成されているものと見なすことによって、 上述した基本的な適用 例の場合よりも高精度の評価が可能となリうる。
以上のような評価項目を設けた場合には、 次のような評価が可能であろう。
( 1 ) の目的達成の有無については、 例えば、 「相手に宿を手配して欲しいとい う意図の伝達」 という目的が問題ごとに設定され、 設定された目的が 「達成され ている、 達成されていない」 の 2値 ( 1 又は 0 ) で採点される。 それ以外の評価 項目に関しては、 0から 1 までの間に 2 5 %刻みの部分得点を許容する採点を行 う。 つまり、 数式 5の に、 0、 0 . 2 5、 0 . 5、 0 . 7 5、 1 という 5 つの値が代入される。 上述した基本的な適用例と同様に、 尤度関数に含まれる口 ジスティック曲線 Pを定義する数式 3に含まれる項目パラメータ a (識別力) 及 び b (困難度) も、 上述の例と同様に、 同じ問題を用い本番のテス卜に先行して 行われたプレテス卜におけるデータを用いて予め推定されている。 このような採 点方法を用いれば、 ただ 1題の英作文又は会話の問題を出題することによって、 非常に多角的な評価が可能になる。 ただし、 ここで挙げた評価項目は単なる例示 であり、 本発明によるテス卜 · システムにおいて他の視点から評価を行うことも 可能である。
以上が、 部分得点モデルを含む項目反応理論が英語能力テス卜へ適用され受験 者の能力が推定される様子についての説明であり、 本発明は、 このような部分得 点モデルを含む項目反応理論による能力推定をインターネッ 卜接続環境にある一 般的なパーソナル · コンピュータを用いて実現するテス卜 · システム及びテス卜 方法である。 以下では、 添付の図面を参照しながら、 本発明によるテス卜 · シス テムの動作を概説する。
図 1 には、 本発明によるテス卜 · システムの第 1 の実施例の概要が示されてい る。 受験者は、 本発明によるシステムによって設計、 実施及び処理されるテスト (例えば、 英語能力テス卜) を実施する語学学校などに設置されたインターネッ 卜接続環境にあるパーソナル · コンピュータである受験者ュニッ 卜 1 0 1 を用い てテス卜を受験する。 受験者の認証が適切になされるのであれば、 自宅での受験 も可能である。 受験者によってキーボード、 マウス、 マイクロフォンなどを介し てパーソナル · コンピュータである受験者ュニット 1 0 1 に入力される解答結果 は、 ィンターネッ卜などのネッ 卜ワーク 1 0 3を介して、 採点者ュニッ 卜 1 0 2 に送られ、 例えばテス卜対象である英語を母語とする採点者が部分得点を許容し ながら採点を行う。 その際に、 部分得点を与える評価項目は、 問題の難易度にあ わせて変更されることはない。 ただし、 解答結果は、 受験者ユニット 1 0 1 から 直接に採点者ユニッ ト 1 0 2に送信されるのではなく、 このテス卜を集中的に管 理するテス卜管理サーバ 1 0 4にいつたん送られた後で、 複数存在する中から適 切であると判断される採点者ユニッ ト 1 0 2へ送られるのが一般的である。 テス 卜管理サーバ 1 0 4は、 問題データベース 1 0 5を備えている。 問題データべ一 ス 1 0 5には、 プレテス卜として実施され項目パラメータ (数式 3における識別 力 a及び困難度 b ) が予め推定されている問題群が記憶されている。 テス卜管理 サーバ 1 0 4は、 受験者が特定されると、 問題データベース 1 0 5から一群の問 題を選択し、 選択された問題群を受験者ュニッ 卜 1 0 1 へ送信する。
図 2には、 受験者ュニッ 卜 1 0 1 の概要が図解されている。 受験者ュニッ 卜 1 0 1 は、 通常、 インターネッ ト接続環境を有する一般的なパーソナル · コンビュ 一夕である。 入力装置 2 0 7は、 キーボード、 マウス、 タツチパネルなど機械的 な入力装置であり、 音声入出力装置 2 0 9は、 マイクロフォンやスピーカなどで ある。 受験者は、 まず、 入力装置 2 0 7から手動で、 又は、 音声入出力装置 2 0 9から音声で、 自分自身の I Dを入力すると共に、 テス卜の開始を指示する。 受 験者の I Dは、 その受験者が受験の申込みを行う登録時に、 テス卜管理サーバ 1 0 4から各受験者に対して一意的に発行されたものが用いられる。 セキュリティ 管理のため、 I Dと共にパスワードも発行されるのが一般的である。 一意的な I Dが発行されていることにより、 同一の受験者が複数回受験する場合には、 その 旨がテス卜管理サーバ 1 0 4において認識され、 適切な出題がなされる。 指示に 応答してテス卜管理サーバ 1 0 4から送信されディスプレイ 2 0 8に表示される, 又は、 スピーカを含む音声入出力装置 2 0 9から出力される自分のレベルに合わ せて選択された問題に対して、 受験者は、 入力装置 2 0 7、 又は、 マイクロフ才 ン (音声入出力装置 2 0 9 ) を介して解答を入力する。 解答、 特に、 部分得点を 許容する採点が必要となるライティングゃスピーキングの設問に対する解答は、 通信ィンターフェース 2 0 2とインタ一ネッ トなどのネットワーク 1 0 3とを介 して、 採点者ユニット 1 0 2に送られる。 ただし、 既に述べたように、 解答は、 受験者ュニッ ト 1 0 1 から直接に採点者ュニッ卜 1 0 2に送信されリアルタイ厶 に採点されるのではなく、 このテス卜を集中的に管理するテス卜管理サーバ 1 0 4にいつたん送られた後で、 複数存在する中から適切であると判断される採点者 ユニッ ト 1 0 2へ送られるのが一般的である。 一定数の解答が集まってから採点 するのが効率的であるという採点の経済からもこれは当然であろう。
図 3には、 採点者ュニッ卜 1 0 2の概要が図解されている。 採点者ュニッ 卜 1 0 2は、 受験者ュニッ 卜 1 0 1 と同じように、 通常、 インターネッ卜接続環境を 有する一般的なパーソナル · コンピュータである。 インターネッ 卜などのネット ワーク 1 0 3を介して受験者ュニッ卜 1 0 1 又はテスト管理サーバ 1 0 4から送 られてくる解答結果をディスプレイ 3 0 8に表示し、 又は、 スピーカ (音声入出 力装置 3 0 9 ) から出力して、 キーボードやマウスなどの入力装置 4 0 7を用い て採点する。 採点結果は、 インターネッ トなどのネッ トワーク 1 0 3を介してテ ス卜管理サーバ 1 0 4に返送する。 以上で説明した本発明のテスト · システムを実現する第 1 の実施例では、 受験 者ュニッ 卜と採点者ュニッ卜とテス卜管理サーバとがィンターネッ卜などの通信 回線を用いた通信ネッ トワークの通信端末として構成されていた。 しかし、 当業 者には明らかなことであるが、 本発明によるテス卜 · システムは、 第 2の実施例 として、 通信機能を備えていないスタンドアロンのパーソナル · コンピュータを 用いて実現することもできる。 その場合、 難易度及び識別力が予め推定された多 数の問題が記憶されているデータベースは、 例えば当該パーソナル · コンビユー 夕のハードディスクなどの記憶装置に構築されており、 受験者は、 例えば C Dや D V Dなどに格納された態様で提供される本発明のテストを実施するプログラム に含まれる命令に従って出題されるライティングゃスピーキングの問題に対し、 キーボードゃマイクロフォンを介して解答する。 解答結果はいったんハ一ドディ スクなどに記憶され、 採点者は、 その解答結果をハードディスクから読み出して 部分得点を許容する採点を行う。 この第 2の実施例の場合の部分得点の処理方法 は、 第 1 の実施例の場合と同様である。 採点がなされると、 部分得点モデルに基 づく尤度関数を用いて受験者の能力推定が行われる。
図 4は、 本発明によるテスト · システムを用いたテス卜実施の概要を示す流れ 図であり、 特に、 第 1 の実施例に則して、 本発明が依拠する部分得点モデルが用 いられるライティング及びスピーキングに関するテス卜の実施及び処理プロセス が示されている。 なお、 ライティングの問題では、 受験者は、 キーボード (図 2 の入力装置 2 0 7 ) を用いて、 英文などの文章をタイプインする形式で解答する のが一般的である。 スピ一キングの問題では、 受験者がパーソナル · コンビユー 夕に備え付けられたマイクロフォン (図 3の音声入出力装置 3 0 9 ) を介して、 提示された質問に対する応答として、 又は、 自由な内容で音声を入力し、 その音 声として発話された内容が評価の対象となる。 採点者は、 受験者が現在利用して いるパーソナル · コンピュータとインターネッ 卜などのネッ 卜ワークを介して接 続されている別の端末である採点者ュニッ 卜の前で待機し、 リアルタイムで採点 を行うことも可能ではあるが、 実際には、 受験者の解答は、 いったんテスト管理 サーバに記憶された後で採点者ュニッ卜へ送られ、 集合的に多数の解答を採点す るのが一般的である。 まず、 受験者は、 受験者ュニッ 卜 1 0 1 においてインターネッ 卜上の指定され たウェブページにアクセスする。 そのウェブページにおいて、 自分自身の受験者
I Dとパスワードとを入力し認証がなされた後で、 所定のボタンをクリックする ことにより、 ライティング又はスピーキング問題の受験を開始する意図を通知す る ( 4 0 0 ) 。 テス卜管理サーバ 1 0 4は、 この通知に応答して、 ライティング 又はスピーキングの問題を問題データベース 1 0 5から選択する (ステップ 4 0 1 ) 。 この選択の際には、 この受験者による多肢選択式問題に対する解答の採点 結果から推定された能力 0との関係で、 最も適切な識別力及び困難度を有する評 価項目を含む問題を選択することができる。 例えば、 ライティング問題選択の際 にはリーディング問題への解答結果を参考にし、 スピ一キング問題選択の際には リスニング問題への解答結果を参考にすることが考えられる。 これは、 ライティ ングの能力はリーディングの能力と相関関係を有し、 スピーキングの能力はリス ニングの能力と相関関係を有すると考えられるからである。 ただし、 このような 問題選択は、 単なる例示であり、 本発明による部分得点モデルを含む項目反応理 論に基づくテス卜 ■ システムの本質部分ではない。
選択された問題に対応する口ジスティック曲線に含まれる項目パラメータは、 先に実施されたプレテス卜におけるデータから、 評価項目ごとに予め決定されて いるのが一般的である。 ただし、 能力パラメータの推定と同時に項目パラメータ を推定する同時最尤推定なども理論的には可能であり、 本発明によるテス卜 · シ ステ厶も、 この同時最尤推定の可能性は排除しない。 その場合には、 問題データ ベース 1 0 5に記憶されている問題の項目パラメータは既に推定されている場合 とそうでない場合とが併存することになる。 項目パラメータの推定は、 能力 0の 推定と同じく数式 5の尤度関数が用いた部分得点モデルに基づいて行われる。 ま た、 項目パラメータが推定される際には、 それぞれの問題の識別力及び困難度を 標準化する等化と称されるプロセスも行われる。 この等化のプロセスにより、 受 験者の母集団に左右されない絶対評価が可能になる。 ただし、 等化自体は項目反 応理論一般について妥当することであリ、 特に本発明の特徴ではない。
テス卜管理サーバ 1 0 4によって出題されるべき問題が選択されると、 選択さ れた問題は、 インターネッ ト等のネットワーク 1 0 3を介して受験者ユニッ ト 1 0 1 に送信される (ステップ 4 0 2 ) 。 送信された問題は、 テキス卜形式の問題 であればディスプレイ 2 0 8において、 音声形式の問題であればスピーカ (音声 入出力装置 2 0 9 ) から受験者に対して出題される (ステップ 4 0 3 ) 。 受験者 は、 その出題された問題に対して、 文章をタイプインする形式で、 又は、 発話さ れた音声形式で、 解答を与える (ステップ 4 0 4 ) 。 解答を構成する文書又は音 声ファイルは、 インターネッ ト等のネットワーク 1 0 3を介してテス卜管理サー ノ 1 0 4に送信され、 いったん記憶される (ステップ 4 0 5 ) 。
以上のプロセスが一定数の受験者に対して反復され、 一定数の解答ファイルが テス卜管理サーバ 1 0 4に記憶される。 ただし、 これら複数の受験者に対して出 題される問題は、 同じとは限らない。 項目反応理論の一般論から、 出題される問 題は異なっていても、 能力 0は適切に推定されうるからである。 採点者ユニット 1 0 2からテス卜管理サーバ 1 0 4により開設されているウェブページへのァク セスがなされ、 テス卜管理サーバ 1 0 4に蓄積されている解答を採点のために送 信して欲しい旨のリクエス卜がなされると、 一定数の解答ファイルが、 採点者ュ ニット 1 0 2に送られる (ステップ 4 0 6 ) 。 採点者は、 既に説明した部分得点 を許容する方法により解答を採点し (ステップ 4 0 7 ) 、 採点結果をテス卜管理 サーバ 1 0 4に返送する (ステップ 4 0 8 ) 。 ただし、 一般的には、 このように 複数の解答がまとめて採点されるか、 リアルタイムで採点されるかは、 本発明の 特徴とは関係ない。
次に、 テス卜管理サーバ 1 0 4は、 採点者ユニット 1 0 2から受信した部分得 点を数式 5の尤度関数に代入し、 能力 0の推定を行う (ステップ 4 0 9 ) 。 上述 したように、 項目パラメータが同時に推定される場合もありうる。 推定の方法は、 最尤推定、 ベイズ推定などである。 推定が終了すると、 必要な場合には、 推定さ れた 0の値が、 他のテス卜との比較に適した点数に換算される (ステップ 4 1 0 ) 。
本発明のテス卜 · システムを用いて上述のような処理を行うことにより、 従来 から行われてきた一般的な項目反応理論では処理が困難であった部分得点を許容 して採点を行う問題を含むテス卜であっても、 従来型の項目反応理論と同様な能 力推定を行うことができる。 発明者らは、 本発明によるテス卜 · システムを用いた能力推定の有効性を確認 するために、 2 0 0 3年 5月 2 1 日から 2 8日において、 被験者 1 2名によるス コア安定性確認調査を行った。 方法としては、 同一被験者に 3回続けて本発明に よるテスト · システムを用いた英語能力テス卜を受験してもらい、 スコアに大き なぶれが生じないかどうかを確認した。 ここで実施された英語能力テス卜は、 リ スニング、 リーディング、 ライティング、 スピーキングの 4つの技能のテス卜で 構成されていた。
被験者は、 東京の比較的英語が得意な某大学の大学生 1 2名である。 もし、 本 発明によるテス卜 ■ システムによる英語能力評価が適切なものであリ、 等化を含 めた各問題の項目パラメータの推定が本発明によるテスト · システムにおいて適 切になされているのであれば、 同一受験者が 1 日のうちに 3回テストを受験した 場合、 英語能力はその間に変化しないと者えられるので、 結果のスコアは大きく 変動しないはずである。
結果の詳細は、 図 5のグラフとして示されている。 また、 1 2名の平均スコア は、 図 6の通りである。 個人差はそれぞれあるが、 図 5及び図 6において観察さ れるように、 1 回目から 2回目において試験形式の慣れによる得点の向上 (一般 的には 「リハーサル効果 j と呼ばれる) と、 3回目の受験における疲労効果 (特 に、 最後の回の最終問題であるスピーキングの得点に見られる) による得点の低 下とが見られた。
しかし、 平均点で見ると各技能で 2 5 0点満点中 5 . 4から 1 8 . 5点のスコ ァの変動 (= 2 . 2 %から 7 . 4 % ) であり、 卜一タルスコアでも 3 %の変動幅 で収まっている。 従って、 異なった問題を受験しても本発明によるテス卜 ■ シス テムでは、 テスト ·スコアの変動は少なく、 スコアの標準化が適切に行われてお リ、 母集団の能力レベルに左右されない絶対評価が可能であることがわかった。 同一パラメータを有する複数の項目が反復的に出題された場合の正誤の平均と して部分得点が表現されると想定すれば、 理論的には、 数式 5における r i jを 実質的な変数と考え 0から 1 までの間の部分得点を許容しても、 従来型の項目反 応理論における 2値的な評価に用いられる尤度関数の場合と推定結果は同一にな る、 というのが、 本発明によるテス卜 · システムが依拠する部分得点モデルによ る提唱であった。 図 5及び図 6において示された実験結果は、 この理論的帰結が, 実験的にも確認されたことを示している。
従って、 本発明によるテス卜 · システムによれば、 従来型の項目反応理論との 整合性を維持しながら、 従来よりも高精度の能力推定が達成される。 これは、 本 発明の著しい効果である。
明細書の最後に、 本発明の発明者の 1人 (藤森) による段階反応モデルと部分 得点モデルとの比較に関する論文 ( 『項目反応理論による多値データの分析につ いて—段階反応モデルと部分得点モデル一』 ) を、 文中で言及されている図面 ( Figure ) や表 (Table) を除いて、 以下に引用する。 なお、 この論文は、 こ の出願における優先権主張の基礎となる日本特許出願である特願 2 0 0 2 - 2 7 9 5 1 3が出願された平成 9月 2 5日の時点では未発表であつたが、 その後、 文 教大学人間科学部の紀要である 『人間科学研究』 2 4号において発表された (平 成 1 4年) 。 また、 この論文は、 学力テス卜だけを念頭においたものではなく、 より広い応用についても言及しているので、 「問題」 ではなく 「項目」 、 「受験 者 J ではなく 「被験者」 など、 以上の用例と異なる箇所が含まれている。
1 . 研究の目的
2母数口ジスティックモデル (Birnmaum , 1 9 6 8 ) のような一般の項目反 応理論では、 正答、 誤答のような 2値データを処理することが出来るだけであり、 多値のデータを分析することは出来ない。しかし心理学一般の研究では質問紙デ 一夕などで多値データを利用することも多い。項目反応理論でも多値データが全 く扱えないわけではなく、 幾つかの分析モデルが開発されている。例えば Same j ima ( 1 9 6 9 ) の段階反応モデソレ (graded response model ) 、 評 定尺度モテノレ ( rat ing scale model; Andrich . 1 9 7 8 ) や part ial credit model ( Mas ters , 1 9 8 2 ) はこの種の代表的なものとされる。しか し現実問題としては分析するためのソフ卜ウェア環境が十分整備されていないこ ともあってか、 これらのモデルが広く一般に利用されているとは言い難い。
このような状況に鑑み、 本研究では藤森 ( 2 0 0 1 ) の部分得点モデル ( part ial tes t score model ) と段階反応モデゾレとの Jt較をシミュレーシ ヨン及び質問紙データの分析結果をもとに行い、 項目反応理論を利用した多値デ 一夕に関する分析方法の検討を行うことにする。
多値データへ項目反応理論を適用するとしても、 どのようなモデルが良いのか 検討する必要がある,このためには ( 1 ) 理論的側面の検討、 モデル母数の再現 性や能力母数の分布などの影響を検討するための ( 2 ) シミュレーションによる 検討、 そして現実のデ一夕にどの程度うまくあてはまるのかという (3 ) 実証デ 一夕に基づく検討が求められるであろう。このため、 本研究では ( 1 ) を 1 . 3 節で、 ( 2 ) を 2節で、 そして (3 ) を 3節で行うことにする。
1 . 1 . 段階反応モデル
m個の順序性を持つ段階反応を許容する Samejima ( 1 9 6 9 ) の段階反応モ デルを初めに説明する。ここではテストのある一つの項目だけを考えることにす る。 被験者の回答の各段階に対応して決まるダミー変数を uとし、 ある段階より 低い段階に反応したとき 0、 そうでないとき 1 となるダミー変数を X とする。 能力 0を持つ被験者が X= 1 となる確率を
【数 3 3】
=尸ぽ =ι|0' で表すとき
【数 3 4】
【数 3 5】 pu(e)>o が段階反応モデルである。ただし
【数 3 6】
^( =1
【数 3 7】
である。 数式 3 3は段階の間を確定する境界反応曲線でぁリ、 数式 3 4は段階の 反応確率を表現する段階反応曲線となる。 前記の条件を満たす限り数式 3 3の関 数はどのようなものでも自由であるが、 本研究では良く利用される 2母数口ジス テイツクモデル
【数 3 8】
P* (θ u = l, ...,m -l
Figure imgf000031_0001
を仮定する。 数式 3 5式の条件 Sのため、 a は数式 3 8の全ての曲線に共通した母 数となり識別力と呼ばれる。 b uは各段階の閾値に関係した母数であり困難度と 呼ばれる。すなわち段階反応モデルでは項目ごとに 1 つの識別力と各段階の閾値 に対応する m— 1個の困難度母数を持っていることになる。
1 . 2 . 部分得点モデル
部分得点モデルでは部分得点を r ( 0〜 1 の範囲) とするとき母数推定のため の対数尤度は次式で表される。
【数 3 9】
Figure imgf000031_0002
ここで iは被験者、 0はその特性値を表す母数、 j は項目、 sは 2値項目換算 の繰り返し数、 Pは 2母数ロジスティックモデル、 Q= 1 — Pである。
すなわち部分得点モデルは 2母数口ジスティックモデルをその基礎に置いてい る。また同一あるいは類似項目母数を持つ項目を被験者に対し潜在的に繰返し実 施することを想定している。 このとき rは繰返し実施の正誤平均と考えることが できる。 このような部分得点モデルと繰返し実施を考えた 2母数口ジスティック モデルの最尤解は一致する (類似母数の時は近似) ことが証明できる (藤森, 2 0 0 2 a) .
1 . 3 . 理論的側面からの検討
部分得点モデルの特徴は、 以下のようなものである (藤森、 2 0 0 2 b ) 。
( 1 ) 項目母数は識別力と困難度で一般の利用者にも比較的理解しやすい。
( 2 ) モデル母数の数が他の多値モデルと比較して少なく推定上の問題がない。
( 3 ) どのような解答ノ回答結果でも値を 0〜 1 の部分得点に変換すれば適用で きるので応用範囲が広い。 ( 4 ) 質問紙の評定尺度にも容易に適用できる。
( 5 ) 解答の段階数が増えても母数が増加しないので、 採点結果の変更や微調整 にも対応が容易である。 ( 6 ) 2母数ロジスティックモデルとシームレスなので 識別力や困難度母数の解釈もそのまま 2母数口ジスティックモデルと同様に行え るので、 2値と多値の混在データなどでの運用に便利である。 ( 7 ) testlet / 組問などの部分得点化により 2値項目からなるテス卜に組問が存在する場合、 組 問を 1 つの部分得点項目としてとしての運用することが可能になり、 副次的にテ ス卜全体での母数の数が減る。 (8 ) 残差得点にモデルを再適用して多次元デ一 夕への対応もできる。
( 7 ) ( 8 ) については本研究では取り上げていないが特徴としては大きなも のである,
続いて段階反応モデルの特徴は、 以下のようなものである。 ( 1 ) 項目反応理 論で多値データに対応したモデルとして著名なものである, ( 2 ) 発表されてか ら 3 0年以上の時間がたち応用研究も報告されている (例えば野口 ( 1 9 9 9 ) など) 。 ( 3 ) 公開されている分析用ソフ トウェア MULT I LOG が存在する。
( 4 ) 各段階反応曲線が得られるため、 各段階に対する反応にまで関心を持つ場 合は便利である。例えば境界反応曲線の母数を利用すれば、 段階ごとの反応が 0 上のどの水準で発生するのかについて予測も出来る。
両モデルを比較してみると、 モデル化の考えの違いが明らかである。段階反応 モデルは、 モデルの母数の数が多いだけ、 部分得点モデルに比較してデータとの 当てはまリも良くなると考えられる。 もちろんモデル母数の数が多ければ、 母数 の正確な推定にはデータ量が必要であるなどの問題が生じる危険性がある。 逆に 部分得点モデルは単純であるだけ、 当てはまリは劣ると予想されるが推定値など の安定性は良いと考えられる.この点に関しては赤池情報量規準 A I Cなどの観 点が評価に必要となろう。
また段階反応モデルの (4 ) の点については、 部分得点モデルでは、 モデル上 これは困難である。 行うとすれば、 事後的には段階ごとに被験者の分布を作成し て検討することになるだろう。 項目母数は所与であってもテス卜実施の事前であ れば、 被験者の能力分布について適当なる仮定を設けて、 シミュレーションを行 い段階ごとに被験者の分布を作成して検討することになるだろう。 いずれにして も段階反応モデルよリ手間がかかることになる。
このような利点がある一方で段階反応モデルは (そして今まで提案された殆ど の多値モデルも) 、 各段階にモデル母数を置くため段階の変化に柔軟性を欠く問 題がある.たとえば、 能力テストで教師が採点時に 2 0点満点である項目を、 0、 5、 1 0、 1 5、 2 0の粗い 5段階で評価していたとしたら 5段階の段階反応モ デルでの分析となる。しかし、 もし誤字脱字などである答案を 1 点減点すること にしたら、 たちまちモデルの母数の値だけでなく、 母数の数そのものが変化して しまうという問題点がある。質問紙でも評定を 5段階で行っている項目を 4段階 にしたら、 段階反応モデルでは、 それまでの項目母数をそのまま利用するわけに はいかなくなってしまうのである。
以上のように、 どちらのモデルも一長一短はあるのだが、 各段階や評定につい てはそれほどの関心を持たず、 項目の全体的な特性と能力母数の推定だけに関心 がある場合には、 部分得点モデルで十分と思われる。
2 . シミュレーションによる検討
実際のテス卜や質問紙において回答がどのようなメカニズムで生起しているの かは正確に知ることは出来ない。 部分得点モデルと段階反応モデルのどちらがよ り現実に近いかは現時点で判断することは難しい。 このため両モデルの比較をシ ミュレ一シヨンで行うにしても、 デ一夕の作成にあたっては、 どちらかのモデル に従ってデータを作成するべきかを決めることは困難である。あるモデルを仮定 してデータを作成し、 当該モデルと別のモデルで分析しても、 別のモデルは良い 成績を発揮することは期待できず、 比較もうまく行えないだろう。このため本研 究では、 部分得点モデルを前提としたシミュレーションと段階反応モデルを前提 としたシミュレーションの 2つを行うことにした。各モデルは自己のモデルに従 つたデータと他のモデルのデータの 2つを分析することになる,もちろん実際の データはこの 2者以外のメカニズムによる可能性もあるわけであるが、 両モデル の公平な比較を行うことはできる。 すなわちデータがモデルに従っている場合は、 モデルの再現性がシミュレーションによって検討でき、 またデータがモデルに従 つていない場合はモデルの頑健性が評価できる。 2 . 1 . 部分得点モデルを前提としたシミュレーションデータ
部分得点モデルを前提としたシミュレーションデータは、 以下のようにして作 成した。 まず部分得点モデルの構成要素として 2母数口ジスティックモデルを仮 定する。 この 2母数口ジスティックモデルの母数の分布型を以下のように定める t 識別力母数は、 平均 0 . 6 5、 標準偏差 0 . 2 5、 下限0 . 3、 上限 2 . 0の切 断正規分布、 また困難度母数は、 平均 0、 標準偏差 0 . 5の正規分布に従うと仮 定する。 能力母数 0は平均 0、 標準偏差 1 . 0の正規分布に従うと仮定する。 能 力母数 0を標準正規分布に従って作成し、 2母数口ジスティックモデルから予想 される正答確率を、 範囲 0〜 の一様乱数と比較し、 前者が下回る場合被験者の 反応を正答 1 、 上回る場合誤答 0とする。 2母数ロジスティックモデルに従う、 この 2値データパターンを、 被験者数 5 0 0、 項目数 2 0 0として各 1 0回繰り 返し作成した (データ 1 〜 1 0 ) 。 ただし 5項目ずつ同一母数としている。 続い て、 このデータの同一母数の 5項目ずつの正誤の和の平均をとリ 0、 0 . 2、 0 , 4、 0 . 6、 0 . 8、 1 . 0の 5段階の値をとる部分得点データとした。 すなわ ち部分得点データは、 被験者数は 2値データと同様に 5 0 0であるが、 項目数は 4 0となる。 同様にして、 前記の項目母数を所与として新たに被験者の能力母数 0を 5 0 0人分追加してクロスバリデーション用のデータを作成した。
2 . 2 . 段階反応モデルを前提としたシミュレーションデータ
段階反応モデルを前提としたデータは以下のようにして作成した。段階反応モ デルも、 その構成要素として 2母数ロジスティックモデルを仮定する。 またその 母数の分布形も 0節と同様である.またデータの段階数としては 1 から 5の値を とる 5段階を仮定する。 このため、 モデルより段階間の境界反応曲線は 4つ必要 となる。 この曲線群を確定するため、 まず識別力母数を 1 つ分布に従って発生さ せ、 これを各境界反応曲線に共通する識別力とする。続いて 4つの困難度母数を 作成し、 最も小さいものを選択して、 段階 1 と 2の境界反応曲線の困難度とする。 以下同様にして困難度の小さなものから順にとリ各境界反応曲線の困難度を決定 する,これらの境界反応曲線間の差をとつて各段階反応曲線とする。 標準正規分 布に従う能力母数 0を 1 つ作成し、 この値を固定して各段階反応曲線で予想され る反応確率の区間 ( 0を固定したときの全段階反応曲線の大きさの和は 1 であ る) に、 0〜 1 の一様乱数が入ったとき当該反応が生じたことにする。 以上の過 程を 5 0 0人分繰返し母数推定用のデータとした。 また 0節と同様に、 以上で確 定した項目母数を利用してクロスバリデーシヨン用のデータを 5 0 0人分作成し た,
2 . 3 . 母数の推定
母数の推定は、 両モデルとも項目母数と潜在特性値 0の交互同時最尤推定によ る自作の FORTRAN プログラムによった.部分得点モデル用では交互同時最尤推 定だけでなく項目母数の周辺最尤推定が可能であるが、 段階反応モデルの推定プ ログラムは交互同時最尤推定のみに対応しているため、 比較の便を考慮して両モ デルとも項目母数を最尤推定した (結果は省くが部分得点モデルに関しては周辺 最尤推定と交互同時推定の結果に大きな差はない) 。 両モデルとも 0と困難度の 推定値は- 3 . 5 ~ 3 . 5の範囲と定め、 識別力の推定値の範囲は 0 . 0 2 ~ 2 . 0としている。
2 . 4 . シミュレーションの結果と考察
表 1 は、 部分得点モデルにより作成したシミュレーションデータ (以下部分得 点データと呼ぶ) の能力母数の真値、 正答数得点と両モデルで推定した 0の推定 値の相関である。 ただし相関は、 ケンドールの順位相関係数を求めている (以下 特に明示しない場合は相関はケンドールの順位相関を指す) 。一般によく利用さ れるピアソンの積率相関でなくて順位相関を求めたのは、 項目反応理論の現実の 運用場面では正答数得点などと推定値の順位の逆転現象が問題となるケースが多 いためである,表 1 よリ明らかなように真の 0との相関は、 いずれも部分得点モ デルによる推定値の方が高いものの段階反応モデルとの差はほとんどない。これ に比し、 正答数との相関は、 若干差が拡大し部分得点モデルによる推定値が高い 相関を与えている。
なお部分得点モデルの項目母数の推定値に関しては、 例えばデータセッ 卜 1 に ついては識別力の平均自乗誤差 (MSE) は、 0 . 0 0 1 4、 困難度に関しては 0 . 0 0 1 7であり、 特に問題はない精度で推定値が得られている.ちなみに、 デー タ作成の元となったモデルとは異なるので値の良し悪しは判断できないが、 段階 反応モデルの識別力との MSE は 0 . 0 2 7、 困難度は 0 . 3 1 となっている。 ただし困難度に関しては、 段階反応曲線の困難度の推定値平均によって MSE を 算出している。
続いて部分得点データの推定値を利用してクロスバリデーションデータの成績 を比較してみょう (表 2 ) 。 クロスバリデーシヨンにおいても様相は先と同様で, 真値との相関はいずれも部分得点データがほんの僅か上回り、 正答数得点に関し てはややモデル間の差が拡大することが示されている,
さて段階反応モデルにより作成したシミュレーションデータ (以下段階反応デ 一夕と呼ぶ) についての結果が表 3である。 また同データに基づき推定された項 目母数をクロスバリデーションデータに適用した結果が表 4である。 どちらにお いても部分得点モデルに比べて段階反応モデルの方が真の 0との相関がほんのわ ずか高いが、 大きな差ではなく、 データセッ 卜 1, 5のように逆転しているケー スも見受けられる,また全体的に真値との相関が表 1及び表 2に比較してやや低 くなつておリ、 段階反応モデルが部分得点モデルに比較して再現性が難しいモデ ルであることを示唆していると言えよう,段階反応データであるにもかかわらず、 正答数得点との相関は段階反応モデルより部分得点モデルによる推定値の方が高 くなつている。しかも部分得点データの場合よりその差が拡大していることが分 る。合計点との順序関係の逆転は段階反応モデルに多くなつているのであるが、 この逆転が生じる理由は、 段階反応モデルでは項目によって評定の中間部分の段 階反応曲線が相対的にかなり低くなリ、 他項目の回答結果によっては、 当該項目 の回答が 0の推定に (推定誤差の大きさはともかくとして、 その点推定値の決定 には) 殆ど影響力を持てなくなるためである。 この現象は段階反応モデルだけで はなく、 選択肢やカテゴリーごとの反応確率曲線をモデル化する他の多値モデル にも共通するため、 これらのモデルの利用の際には注意を払う必要があると考え られる。 もちろん部分得点モデルも 2母数口ジスティックモデルをベースとして いる以上、 合計点と 0の逆転も一部生じざるを得ないが、 その程度は低く抑えら れている。
次に段階反応モデルの項目母数の推定値について検討しょう。 例えばデータセ ッ ト 1 については識別力の平均自乗誤差 (MSE ) は、 0 . 2 9 9 3、 困難度に関 しては 0 . 0 6 3 6であり、 やや部分得点モデルの場合に比較して推定精度が悪 いことがわかる。 表 5に示した項目 8 , 1 5はデータセッ 卜 1 の中の推定成績が 悪い項目であるが、 いずれも真の境界反応曲線が互いに接近しすぎている場合に 推定が出来なくなつていることがわかる。 このような場合には、 2つの境界反応 曲線を 1つとして処理するなどの対処が必要になると考えられるが、 どのような 基準で行うかなどの問題もあり本研究ではこれを行っていない。 ある意味ではこ のような対処を必要とすることに段階反応モデルの問題点が存在するとも言えよ う。なおモデルは異なるものの部分得点モデルの識別力の MSE は 0 . 0 1 3 6と なり段階反応モデルよりも良い推定値を与えている。ただし段階反応モデルの項 目母数の推定に関しては周辺最尤推定では成績が改善する可能性も残されている ので、 ここではこれ以上取り上げず、 別の研究で報告することにしたい。
以上をまとめると本研究のシミュレーションの条件下では、 部分得点データ、 段階反応データのいずれであっても真値との相関は、 どちらのモデルを利用して も大きな差は生じていない。 これに対し正答数得点との相関は明らかに部分得点 モデルの方が良い成績であリ、 特に予期に反し段階反応データで差が大きくなつ ている.また項目母数の数が多い段階反応モデルで危惧されたクロスバリデーシ ヨンデータでの不適合は生じていない (ただし母数推定上の問題は残る) ,これ は一つには、 本研究が特にノイズをのせていない単純なシミュレーションである ことも影響しているかもしれない。
3 . 質問紙データによる検討
3 . 1 . 質問紙データ及び母数の推定
本研究で分析の対象としたデータは、 0県の青少年基本調査の中高生 1 8 4 9 人のデータで、 教師と生徒の心理的距離について調べた 9項目尺度である (表 6 ) 。 各項目は Γ 1 . よくあてはまる」 から Γ 4 . まったくあてはまらない」 の 4段階で評定を求めるものであるが、 9項目とも回答は値が小さいほど心理的距 離が小さくなるように処理されている。部分得点モデルでは、 このデータを 0〜 1 の部分得点として処理するために、 各回答結果を X とするとき r = ( x - 1 ) / 3と変換して 「 0 , 1 / 3 , 2 / 3 , 1 」 の 4段階をとる部分得点データとした。 また推定方法はシミュレーションと同様の方法である,なお本調査の詳細につい ては木原ら ( 1 9 9 7 ) 参照されたい。 3 . 2 . 質問紙データの結果と考察
段階反応モデルの識別力は部分得点モデルよリ全体的に高くなつている (表 7 ) 。 これと類似の現象はデータを 2値化して通常の 2母数ロジスティックモデ ルで分析した場合にも生じる。たとえば 4段階評定の場合、 2値化は実質的には 段階 2を 1 に、 段階 3を 4に置き換えるために生じる現象である。 表 7の Γ 2値 モデル」 はこのようなデータ変換をした結果である。 部分得点モデルに比較して やや識別力が高くなつていることが分る。このような現象が発生することは、 図 1 の項目 4の群別の平均回答結果を 4値と 2値の場合で比較してみると良く理解 できる。 ただし図の作成にあたっては、 4値 2値いずれの場合も全ての回答を 0 ~ 1 の範囲に変換している.多値データの 2値化が識別力の推定値に大きな影響 を与えることが図よリ理解できる。さて境界反応曲線が実質的には多値の回答を 2値化して得られるデータに基づき定義され、 推定されるため、 この 2値化と類 似の現象が生じている可能性もある。 しかしシミュレーションの結果では、 部分 得点モデルの識別力と段階反応モデルの識別力の推定値は大きく異なっていなか つたのだから、 2値化を原因とすることにはやや疑問も残る。
もう一つの可能性として、 テス卜項目数の違いがある。シミュレーションでは 4 0項目であつたが、 本質問紙は 9項目であり、 この違いが影響した可能性があ る。このため 1 つシミュレーションを追加した。 段階反応データのデータセッ 卜 1 の初めの 1 0項目だけをとリ、 段階反応モデルにより交互同時推定値を求めた ところ、 識別力の値は表 8のようになった。明らかに項目数が少なくなると識別 力が大きくなる傾向があることが分る (MSE = 0 . 2 6 4 7 ) 。段階反応モデルで は少数項目での識別力の推定にバイアスがかかることは明らかとしても、 その原 因がモデルに存在するのか、 それとも推定方法に問題があるのかは区別されなけ れぱならない。つまり段階反応モデルそのものではなくて、 同時最尤推定という 方法が推定に悪影響を及ぼしている可能性もある (同時最尤推定による項目母数 の推定値が一致性を持たないことは良く知られている) 。 このため、 MULTILOG ( Thi s s en . 1 9 9 1 ) により周辺最尤推定値も算出したが、 バイアスはほとん ど変わらない (MSE= 0 . 2 5 5 8 ) 。 このことは推定法の問題というよりはモ デルに問題があることを示唆するものであるかもしれない。 なお表 8からは項目 7は一見すると同時最尤推定の識別力が極端に低く、 反対に MULTILOG の推定 値は妥当な値を得ているようであるが、 実は MULT I LOG は困難度において異常 な推定値となっておリ、 うまく推定できていないことには変わりは無い。このた め MSEの計算からは同項目を除外している„
部分得点データセット 1 の 1 0項目を利用した部分得点モデルの分析では交互 同時推定の MSE は、 識別力が 0 . 0 0 9 4、 困難度が 0 . 0 0 0 7であり、 周 辺最尤推定では識別力が 0 . 0 0 3 2、 困難度が 0 . 0 0 1 4となった (表 9 ) < 同モデルでは交互同時推定、 周辺最尤推定ともこのバイアスは認められないとい つて良いだろう。表 1 0には質問紙データを両モデルで分析し、 周辺最尤推定を 利用した推定値を示してある。同じく表 1 0より、 シミュレーションと同様に、 周辺最尤推定を利用しても段階反応モデルでは識別力が大きくなつていることが 分る。
段階反応モデルにおいて少数項目では識別力の上方バイアスがかかることにつ いては、 慎重な検討を要するので、 これについては別の研究で行うこととし、 こ こでは表 7の同時最尤推定の結果に基づいて検討を進める。図 2に項目 1 の部分 得点モデルの項目反応曲線を、 また図 3に段階反応モデルの反応曲線を示した。 評定結果の合計点と両モデルの 0のゲンドールの順位相関を求めたところ段階反 応モデルとは 0 . 9 1 0 4、 部分得点モデルとは 0 . 9 4 2 4の相関を得た (無 回答の無いケース 1 5 8 8人のみで算出した。 ) 。 部分得点モデルの方が、 合計 点との相関がやや高く、 その再現には適していることはシミュレーションの結果 と一致している。 相関の値は段階反応データのシミュレーション結果から得られ た両モデルの相関と近いものとなっているが、 これだけで本データは段階反応モ デルに従って発生していると決めるわけには行かないだろう。その理由としては、 たとえばシミュレーションデータの作成の際に多次元性などの影響を加味すれば, 真値と推定値の相関だけでなく正答数 (質問紙の場合は合計点) との相関も低下 すると容易に予想できることなどがあげられるからである。
本節のデータは実際の調査であるため真値は不明であるからどちらのモデルが 良いかを決定することは困難である。 しかし段階反応モデルにおいて合計点との 相関が低いことは、 順位の逆転が十分説明がっくようなものであれば良いのであ るが、 一見で分るような性格のものではないため、 モデルの利用者には逆転現象 を納得しにくいということは利用の際には考慮しておいた方が良い,いずれにし ろシミュレーションの結果からは、 (シミュレーションの条件に近い場合は) 真 の 0値の推定という点では大きな差は両モデルでないことが想像される。 しかし、 少数項目の場合の段階反応モデルの推定値のバイアスがどのような影響をもたら すのかは、 もう少し検討する必要があるだろう,いずれにしろ項目特性として識 別力や項目困難度以外に大きな関心がない場合、 つまり回答の各段階の困難度な どに特別な関心がない場合 (質問紙を利用した多くの研究はこれに該当する) に は、 複雑で多くの母数を推定しなければならない段階反応モデルより簡単な部分 得点モデルの方が適していると言えるだろう。 もちろん、 個々の段階の反応にま で関心を持つ場合はこの限りではない。
文献
Andrich , D 1978 A rating formulation for ordered response categories . Psychometrika , 43 , 561-573.
Birnmaum, A . 1968 Some latent trait models and their use in inferring an examinee ' s ability . In F . M. Lord & Μ· R. Novick (Eds.) , Statistical theories of mental test scores (pp.395- 479) . Reading , MA: Addis on -Wesley .
木原孝博 · 田中治彦 ·藤森進 1997 中学生 ' 高校生の学校不適応に関する研 究 岡山県青少年基本調査 (1994) に基づく分析 岡山大学教育学部研究集録, 104, 105-122.
藤森進 2001 項目反応理論における部分得点の処理について 日本教育心理 学会第 43回総会発表論文集, 394.
藤森進 2002a 項目反応理論におけるテストの部分得点の処理方法について 未発表論文.
藤森進 2002b 部分得点モデルとその応用 第 1回心理測定研究会.
Masters , G.N. 1982 A Rasch model for partial credit scoring . Psychometrika , 47 , 149-174.
野ロ裕之 1999 適応型テストへの応用 : C A T方式による識別性検査 (渡辺 直登 · 野ロ裕之編著 「組織心理測定論」 第 8章 白桃書房) .
Same ima , F . 1969 Estimation of latent ability using a response pattern of graded scores · Psychometrika Monograph, o · 17 ·
Thissen , D 1991 Multilog user's guide . Chicago , IL: Scientific Software .

Claims

請求の範囲
1 . 入力装置と出力装置とを備えた第 1 のコンピュータと、 インターネッ トを 含むネットワークを介して前記第 1 のコンピュータと接続されており入力装置と 出力装置とを備えた第 2のコンピュータと、 前記ネッ卜ワークを介して前記第 1 及び第 2のコンピュータと接続されたテス卜管理サーバと、 前記テスト管理サー バからアクセス可能であって難易度と識別力とを含む項目パラメータが予め推定 されている複数の問題が記憶された問題データベースとによって構成され、 1 人 の受験者に n問の問題を出題し、 出題された n問の問題に対する前記受験者の反 応から前記受験者の能力 0を推定するテス卜 · システムであって、
前記テス卜管理サーバは、
前記第 1 のコンピュータから送信されたリクエス卜に応答して、 1 ≤ j ≤ n である問題 j に対し満点を 1 として 0≤ r ·≤ 1 である部分得点 r を許容する 態様で採点されうる n問の問題を前記問題データベースから選択し前記第 1 のコ ンピュー夕に送信する手段と、
前記問題データベースから選択され前記第 1 のコンピュータに送信された問 題に対して前記第 1 のコンピュータから返送された解答を記憶する解答記憶手段 と、
前記第 2のコンピュータから送信されたリクエス卜に応答して、 前記解答記 憶手段に記憶されている解答を読み出し前記第 2のコンピュータに送信する手段 前記第 2のコンピュータに送信された解答に対して与えられた部分得点 r j を前記第 2のコンピュータから受信し記憶する部分得点記憶手段と、
前記部分得点記憶手段に記憶されている部分得点 r jと前記問題データべ一 スに記憶されている問題 j の項目パラメータとを用いて、 当該部分得点 jを獲 得した受験者の能力 0を推定する能力推定手段と、
を備えており、
前記能力推定手段において、 P j ( Θ ) は、 部分得点 r」·を問題 j に固有であ つて前記受験者が正答 1 又は誤答 0のいずれか一方の潜在的反応を取り得る潜在 的問題を S j回繰り返し実施したときに前記受験者が潜在的に取りうる正誤反応 の平均であると想定した場合に、 前記受験者が前記潜在的問題に正答する確率で あり、 Q j ( θ ) は 1 一 P』 ( θ ) である場合に、
【数 4 0】 ( =∑ SJ ( ln {pj (θ )) + (1 - )ln {QJ ( )) によって表される対数尤度^ ^ (θ )を用いて受験者の能力 0が推定されることを 特徴とするテス卜 · システム。
2 . 請求項 1記載のテス卜 ' システムにおいて、 前記 Ρ』 ( Θ ) は、 2パラメ 一夕 ' ロジスティック 'モデルを用いて、
【数 4
Figure imgf000043_0001
と表現され、 この数式 4 1 における a』及び b ;はそれぞれが前記問題データべ ースに記憶されている問題が有する固有の特性である識別力と困難度とであリ、 Dは 1 . 7という定数であることを特徴とするテス卜 · システム。
3 . 請求項 2記載のテスト · システムにおいて、 実際に観測される問題 j に対 する部分得点 が顕在的な複数の正誤問題の平均によって構成されている場合に も、 これらの正誤問題に共通する正答確率を数式 4 1 で表現し、 数式 4 0を用い て受験者の能力 0が推定されることを特徴とするテス卜 · システム。
4 . 請求項 1ないし請求項 3の任意の請求項に記載のテス卜 · システムにおい て、 テス卜が実施された集団の能力分布を仮定した上で、 回の正誤の和である 2項分布と仮定された能力分布との積を能力の次元で積分して部分得点の理論的 な分布関数を求め、 求められた理論的な分布関数と実際のデータの部分得点の経 験的な分布関数が最もよく一致するように、 潜在的な問題の繰り返し回数である .を推定する手段を更に備えていることを特徴とするテス卜システム。
5 . 請求項 1 ないし請求項 4の任意の請求項に記載のテス卜 ■ システムにおい て、 前記第 1及び第 2のコンピュータにおける前記出力装置と前記入力装置とは それぞれ音声出力装置と音声入力装置とを含み、 前記テス卜サーバに送信され記 憶される解答は音声データを含むことを特徴とするテス卜 · システム。
6 . 入力装置と出力装置とを備えた第 1 のコンピュータと、 インターネットを 含むネッ トワークを介して前記第 1 のコンピュータと接続されており入力装置と 出力装置とを備えた第 2のコンピュータと、 前記ネッ卜ワークを介して前記第 1 及び第 2のコンピュータと接続されたテスト管理サーバと、 前記テスト管理サー バからアクセス可能であって難易度と識別力とを含む項目パラメ一夕が予め推定 されている複数の問題が記憶された問題データベースとによって構成され、 1人 の受験者に n問の問題を出題し、 出題された n問の問題に対する前記受験者の反 応から前記受験者の能力 0を推定するテス卜 · システムを制御する方法であって, 前記テス卜管理サーバにおいて、
( 1 ) 前記第 1 のコンピュータから送信されたリクエス卜に応答して、 1 ≤ j ≤ nである問題〗 に対し満点を 1 として 0≤ r i≤ 1 である部分得点 r ;を許 容する態様で採点されうる n問の問題を前記問題データベースから選択し前記第 1のコンピュータに送信するステツプと、
( 2 ) 前記問題データベースから選択され前記第 1 のコンピュータに送信さ れた問題に対して前記第 1 のコンピュータから返送された解答を記憶するステツ プと、
( 3 ) 前記第 2のコンピュータから送信されたリクエス卜に応答して、 前記 ステップ (2 ) において記憶された解答を読み出し前記第 2のコンピュータに送 信する手段と、
( 4 ) 前記第 2のコンピュータに送信された解答に対して与えられた部分得 点 r ;を前記第 2のコンピュータから受信し記憶するステップと、
( 5 ) 前記ステップ (4 ) において記憶された部分得点 r;と前記問題デー 夕ベースに記憶されている問題 j の項目パラメータとを用いて、 当該部分得点 r jを獲得した受験者の能力 0を推定するステップと、
を含んでおリ、
前記ステップ (5 ) において、 Ρ』 ( Θ ) は、 部分得点 r 』·を問題 j に固有で あって前記受験者が正答 1又は誤答 0のいずれか一方の潜在的反応を取り得る潜 在的問題を s ;回繰り返し実施したときに前記受験者が潜在的に取りうる正誤反 応の平均であると想定した場合に、 前記受験者が前記潜在的問題に正答する確率 であり、 Q j ( Θ ) は 1 一 P j ( Θ ) である場合に、
【数 4 2】
( =ヌ SJ ( ln (pi (θ )) + - ri )ln (QJ ie; によって表される対数尤度^ ^ (0 )を用いて受験者の能力 0が推定されることを 特徴とするテス卜 · システム制御方法。
7 . 請求項 6記載の方法において、 前記 P , ( Θ ) は、 2パラメータ ■ 口ジス ティック ·モデルを用いて、
【数 4 3】 ト
Figure imgf000045_0001
と表現され、 この数式 4 3における a』及び b』はそれぞれが前記問題データべ ースに記憶されている問題が有する固有の特性である識別力と困難度とであリ、 Dは 1 . 7という定数であることを特徴とする方法。
8 . 請求項 7記載の方法において、 実際に観測される問題 j に対する部分得点 が顕在的な複数の正誤問題の平均によって構成されている場合にも、 これらの 正誤問題に共通する正答確率を数式 4 3で表現し、 数式 4 2を用いて受験者の能 力 0が推定されることを特徴とする方法。
9 . 請求項 6ないし請求項 8記載の方法において、
( 6 ) テス卜が実施された集団の能力分布を仮定した上で、 回の正誤の和で ある 2項分布と仮定された能力分布との積を能力の次元で積分して部分得点の理 論的な分布関数を求め、 求められた理論的な分布関数と実際のデータの部分得点 の経験的な分布関数が最もよく一致するように、 潜在的な問題の緣リ返し回数で ある ;
PCT/JP2003/012252 2002-09-25 2003-09-25 テスト・システム及びその制御方法 WO2004029906A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
AU2003266616A AU2003266616A1 (en) 2002-09-25 2003-09-25 Test system and control method thereof
JP2004539533A JP3645901B2 (ja) 2002-09-25 2003-09-25 テスト・システム及びその制御方法
GB0507837A GB2409314A (en) 2002-09-25 2003-09-25 Test system and control method thereof
US10/529,263 US7103508B2 (en) 2002-09-25 2003-09-25 Test system and control method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002279513 2002-09-25
JP2002-279513 2002-09-25

Publications (1)

Publication Number Publication Date
WO2004029906A1 true WO2004029906A1 (ja) 2004-04-08

Family

ID=32040459

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2003/012252 WO2004029906A1 (ja) 2002-09-25 2003-09-25 テスト・システム及びその制御方法

Country Status (7)

Country Link
US (1) US7103508B2 (ja)
JP (1) JP3645901B2 (ja)
KR (1) KR100747141B1 (ja)
CN (1) CN1578972A (ja)
AU (1) AU2003266616A1 (ja)
GB (1) GB2409314A (ja)
WO (1) WO2004029906A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006215207A (ja) * 2005-02-02 2006-08-17 Wao Corporation 情報処理装置およびプログラム
JP2007279306A (ja) * 2006-04-05 2007-10-25 Nagaoka Univ Of Technology 項目応答理論におけるパラメータ推定方法
JP2008242637A (ja) * 2007-03-26 2008-10-09 Kddi Corp 能力推定システムおよび方法ならびにプログラムおよび記録媒体
TWI485668B (zh) * 2013-01-24 2015-05-21 Univ Fooyin 拼字學習電腦程式、內儲程式之電腦可讀取記錄媒體及內儲程式之可攜式電子裝置
JPWO2015008501A1 (ja) * 2013-07-16 2017-03-02 株式会社ベネッセコーポレーション 携帯型情報処理装置、テスト支援システム及びテスト支援方法
JP2022117805A (ja) * 2021-02-01 2022-08-12 カシオ計算機株式会社 発音トレーニングプログラム及び端末装置

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4872214B2 (ja) * 2005-01-19 2012-02-08 富士ゼロックス株式会社 自動採点装置
US20070111182A1 (en) * 2005-10-26 2007-05-17 International Business Machines Corporation Method and system for distributing answers
US20080046232A1 (en) * 2006-08-18 2008-02-21 Jan Groppe Method and System for E-tol English language test online
US8376755B2 (en) * 2008-05-09 2013-02-19 Location Inc. Group Corporation System for the normalization of school performance statistics
JP5609193B2 (ja) * 2010-03-19 2014-10-22 富士通株式会社 試験プログラム、試験装置、および試験方法
US8761658B2 (en) * 2011-01-31 2014-06-24 FastTrack Technologies Inc. System and method for a computerized learning system
US20120329029A1 (en) * 2011-06-23 2012-12-27 Rauta Mihai Catalin Computer implemented teaching method and apparatus
US20130157245A1 (en) * 2011-12-15 2013-06-20 Microsoft Corporation Adaptively presenting content based on user knowledge
KR101311036B1 (ko) * 2012-02-09 2013-09-24 이언주 라쉬 모형과 순차적 확률비 검증법을 이용한 유비티 시스템
KR101616909B1 (ko) * 2012-10-31 2016-04-29 에스케이텔레콤 주식회사 자동 채점 장치 및 방법
US20140295400A1 (en) * 2013-03-27 2014-10-02 Educational Testing Service Systems and Methods for Assessing Conversation Aptitude
JP6408467B2 (ja) * 2013-07-19 2018-10-17 株式会社ベネッセコーポレーション 情報処理装置、情報処理方法及びプログラム
US20150161900A1 (en) * 2013-12-06 2015-06-11 Act, Inc. Methods for improving test efficiency and accuracy in a computer adaptive test (cat)
CN103942993B (zh) * 2014-03-17 2016-05-18 深圳市承儒科技有限公司 一种基于irt的自适应在线测评系统及其方法
US20150279226A1 (en) * 2014-03-27 2015-10-01 MyCognition Limited Adaptive cognitive skills assessment and training
JP6247628B2 (ja) * 2014-12-09 2017-12-13 株式会社日立製作所 学習管理システムおよび学習管理方法
CN104505089B (zh) * 2014-12-17 2018-05-18 福建网龙计算机网络信息技术有限公司 口语纠错方法及设备
JP5904651B1 (ja) * 2014-12-25 2016-04-13 学校法人産業能率大学 維持管理指標算出装置及び維持管理指標算出方法
US20160225278A1 (en) * 2015-01-31 2016-08-04 Usa Life Nutrition Llc Method and apparatus for incentivization of learning
CN107851398A (zh) * 2015-04-03 2018-03-27 卡普兰股份有限公司 用于自适应评估和训练的系统及方法
EP3324254A1 (de) * 2016-11-17 2018-05-23 Siemens Aktiengesellschaft Einrichtung und verfahren zur bestimmung der parameter einer regeleinrichtung
CN106682768B (zh) * 2016-12-08 2018-05-08 北京粉笔蓝天科技有限公司 一种答题分数的预测方法、系统、终端及服务器
CN108921434B (zh) * 2018-07-04 2020-08-14 北京希子教育科技有限公司 一种通过人机交互完成用户能力预测的方法
WO2020065663A1 (en) * 2018-09-25 2020-04-02 Merittrac Services Pvt. Ltd Methods and systems for partial credit model (pcm) scoring in classical test theory (ctt)
KR102015075B1 (ko) * 2018-10-16 2019-08-27 (주)뤼이드 학습 효율을 기반으로 개인 맞춤형 교육 컨텐츠를 제공하기 위한 기계학습 방법, 장치 및 컴퓨터 프로그램
US11102530B2 (en) 2019-08-26 2021-08-24 Pluralsight Llc Adaptive processing and content control system
US11295059B2 (en) 2019-08-26 2022-04-05 Pluralsight Llc Adaptive processing and content control system
US20210343175A1 (en) * 2020-05-04 2021-11-04 Pearson Education, Inc. Systems and methods for adaptive assessment

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001056634A (ja) * 1999-08-20 2001-02-27 Toshiba Corp 自動採点システム
JP2002006734A (ja) * 2000-06-26 2002-01-11 Society For Testing English Proficiency Inc コンピュータ適応型検定試験の方法及びシステム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3687785B2 (ja) * 2001-08-15 2005-08-24 株式会社日本統計事務センター 採点処理方法および採点処理システム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001056634A (ja) * 1999-08-20 2001-02-27 Toshiba Corp 自動採点システム
JP2002006734A (ja) * 2000-06-26 2002-01-11 Society For Testing English Proficiency Inc コンピュータ適応型検定試験の方法及びシステム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GIICHIRO SUZUKI: "graphic tokeigaku 1st edition", 28 November 1997, JIKKYO SHUPPAN CO., LTD., ISBN: 4-407-02390-2, pages: 122 - 124, XP002986705 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006215207A (ja) * 2005-02-02 2006-08-17 Wao Corporation 情報処理装置およびプログラム
JP4628121B2 (ja) * 2005-02-02 2011-02-09 株式会社ワオ・コーポレーション 情報処理装置およびプログラム
JP2007279306A (ja) * 2006-04-05 2007-10-25 Nagaoka Univ Of Technology 項目応答理論におけるパラメータ推定方法
JP2008242637A (ja) * 2007-03-26 2008-10-09 Kddi Corp 能力推定システムおよび方法ならびにプログラムおよび記録媒体
TWI485668B (zh) * 2013-01-24 2015-05-21 Univ Fooyin 拼字學習電腦程式、內儲程式之電腦可讀取記錄媒體及內儲程式之可攜式電子裝置
JPWO2015008501A1 (ja) * 2013-07-16 2017-03-02 株式会社ベネッセコーポレーション 携帯型情報処理装置、テスト支援システム及びテスト支援方法
JP2018124583A (ja) * 2013-07-16 2018-08-09 株式会社ベネッセコーポレーション 携帯型情報処理装置、テスト支援システム及びテスト支援方法
JP2019200439A (ja) * 2013-07-16 2019-11-21 株式会社ベネッセコーポレーション 携帯型情報処理装置、テスト支援システム及びテスト支援方法
JP2022117805A (ja) * 2021-02-01 2022-08-12 カシオ計算機株式会社 発音トレーニングプログラム及び端末装置
JP7371644B2 (ja) 2021-02-01 2023-10-31 カシオ計算機株式会社 発音トレーニングプログラム及び端末装置

Also Published As

Publication number Publication date
JPWO2004029906A1 (ja) 2006-01-26
US7103508B2 (en) 2006-09-05
GB0507837D0 (en) 2005-05-25
KR100747141B1 (ko) 2007-08-07
GB2409314A (en) 2005-06-22
KR20050042743A (ko) 2005-05-10
AU2003266616A1 (en) 2004-04-19
JP3645901B2 (ja) 2005-05-11
CN1578972A (zh) 2005-02-09
US20050256663A1 (en) 2005-11-17

Similar Documents

Publication Publication Date Title
JP3645901B2 (ja) テスト・システム及びその制御方法
Beischel et al. The gender/sex 3× 3: Measuring and categorizing gender/sex beyond binaries.
Atabek et al. Pre-school and primary school pre-service teachers’ attitudes towards using technology in music education
Paus et al. Learning through online peer discourse: Structural equation modeling points to the role of discourse activities in individual understanding
Ünaldı Self and teacher assessment as predictors of proficiency levels of Turkish EFL learners
Holster et al. Measuring and predicting graded reader difficulty
Shin et al. Evaluating different standard-setting methods in an ESL placement testing context
Yang Modeling the relationships between test-taking strategies and test performance on a graph-writing task: Implications for EAP
Gogolin et al. Diagnosing students’ understanding of the nature of models
Gonzalez The intricate relationship between measures of vocabulary size and lexical diversity as evidenced in non-native and native speaker academic compositions
Foorman et al. Florida Assessments for Instruction in Reading, Aligned to the Language Arts Florida Standards, FAIR-FS, Grades 3 through 12. Technical Manual.
Grenier et al. Learning literacy in Canada: Evidence from the international survey of reading skills
Fitori Difficulties in teaching and learning English grammar in Libyan universities
Kim et al. Learning without awareness by academic and nonacademic samples: an individual differences study
Estaji et al. A study of Test-Taking strategies of Iranian IELTS repeaters: Any change in the strategy use?
Cartwright Linking the British Columbia English examination to the OECD combined reading scale
Zaghlool et al. Interrogating The Influence Of Automated Writing Evaluation Tools In Language Learning: E-Learners’ Perspectives
CN111915227B (zh) 一种教学评价数据分析方法
Duong Thi et al. Cognitive Diagnostic Analyses of the Progress in International Reading Literacy Study (PIRLS) 2011 Results
Varughese Language difficulties in mathematics courses for students from non-English speaking backgrounds in the transition from secondary to tertiary education
Golubski Reassessing assessment: using Bayesian methods to examine the efficacy of multiple-select multiple-choice items
Gu Eliciting and Deciphering Mathematics Teachers’ Knowledge in Statistical Thinking, Statistical Teaching, and Statistical Technology
Peter Effects of English Language on Students’ Performance in Teaching and Learning of Mathematical Modelling at Junior Secondary School Level in Bauchi State, Nigeria
Liu Investigating the relationships between a reading test and can-do statements of performance on reading tasks
Close Developing a Technology-Enhanced Solution to Language Inequality in English-Based Mathematics Tests

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 2004539533

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 1020047004513

Country of ref document: KR

AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IT LU MC NL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

WWE Wipo information: entry into national phase

Ref document number: 20038013770

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 10529263

Country of ref document: US

ENP Entry into the national phase

Ref document number: 0507837

Country of ref document: GB

Kind code of ref document: A

Free format text: PCT FILING DATE = 20030925

WWE Wipo information: entry into national phase

Ref document number: 0507837.3

Country of ref document: GB

122 Ep: pct application non-entry in european phase