JPWO2004029906A1 - テスト・システム及びその制御方法 - Google Patents

テスト・システム及びその制御方法 Download PDF

Info

Publication number
JPWO2004029906A1
JPWO2004029906A1 JP2004539533A JP2004539533A JPWO2004029906A1 JP WO2004029906 A1 JPWO2004029906 A1 JP WO2004029906A1 JP 2004539533 A JP2004539533 A JP 2004539533A JP 2004539533 A JP2004539533 A JP 2004539533A JP WO2004029906 A1 JPWO2004029906 A1 JP WO2004029906A1
Authority
JP
Japan
Prior art keywords
partial score
test
computer
model
answer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004539533A
Other languages
English (en)
Other versions
JP3645901B2 (ja
Inventor
仁司 山下
仁司 山下
進 藤森
進 藤森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Benesse Corp
Original Assignee
Benesse Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Benesse Corp filed Critical Benesse Corp
Application granted granted Critical
Publication of JP3645901B2 publication Critical patent/JP3645901B2/ja
Publication of JPWO2004029906A1 publication Critical patent/JPWO2004029906A1/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B7/00Electrically-operated teaching apparatus or devices working with questions and answers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/06Foreign languages

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Software Systems (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Marketing (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Complex Calculations (AREA)
  • Testing Of Devices, Machine Parts, Or Other Structures Thereof (AREA)
  • Emergency Protection Circuit Devices (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)

Abstract

本発明によると、英語能力テストなどにおいて正誤の2値的な評価だけでなく部分得点を与える採点を可能にするテスト・システムが提供される。このテスト・システムでは、入出力装置(207、208)を含むコンピュータ(101、102)とインターネットなどのネットワーク(103)とが利用され、項目パラメータ及び能力の推定に従来の項目反応理論を修正した部分得点モデルが用いられる。この部分得点モデルでは、部分得点を、同一のパラメータを有する複数の項目の正誤の平均として構成されるものと想定している。本発明のテスト・システムを用いることにより、外国語テストにおけるライティングやスピーキングのように正誤だけでは判定困難であって部分得点を要するような出題形式のテストの制御が、従来よりも容易になる。

Description

本発明は、テスト・システム及びその制御方法に関する。更に詳しくは、本発明は、従来型の項目反応理論を修正した部分得点モデルに依拠し、採点の際に単なる正誤の2値だけでなく複数の段階を有する部分得点としての評価も許容するテストを従来よりも簡略化された態様で設計、実施及び評価するテスト・システム及びその制御方法に関する。
今日、テストを設計しその結果を処理する際に用いられる理論として、古典的テスト理論と項目反応理論との2つが広く知られている。これらのテスト理論に関しては、例えば、渡部洋編著『心理統計の技法』(福村出版、2002年)の6章及び7章にそれぞれ一般的な解説が与えられている。なお、テスト理論におけるテストとは、学力テストだけでなく、心理学における性格検査や臨床検査なども含むのであるが、この出願では、そのような広い応用分野を視野に入れた抽象的な説明を行うのではなく、理解を容易にするために、特に外国語試験などの学力テストを念頭において具体的な説明を試みたい。なお、項目反応理論における「項目」とは、学力テストの場合であれば問題を意味する。従って、この出願で具体例に即した説明する際には、「項目」ではなく「問題」、「被験者」ではなく「受験者」など、学力テストにおける一般的な用語を用いる。しかし、本発明は、一般のテスト理論に関する汎用的なものであって、学力テストだけに限定されることはなく、テスト理論が一般的に適用される上記の分野にも適用が可能である。
古典的テスト理論は、現在広く用いられているが、得られる結論が受験者の特性の統計的な分布に依存するという特徴を有する。従って、古典的テスト理論に依拠している場合には、特性が異なる受験者の集団に対して実施された複数のテストで得られた平均点や偏差値を比較することは、適切でない。
古典的テスト理論の短所を克服する理論として項目反応理論があり、現在では、この項目反応理論に基づいて設計され結果が処理される学力テストが多く存在する。例えば、最近出版された項目応答理論の教科書である豊田秀樹著『項目反応理論入門編』(朝倉書店、2002年)の第16頁には次のような記述がある。「有名な語学試験であるTOEFL…は1年間に何度も実施される。しかも世界中で実施される。同一の被験者が再受験する可能性があるから同じ項目の集まりである同一のテストは2度と使用できない。このため平均点や通過率は、テストごとにそれぞれ異なる。地域によって英語力にも差があるから特性値の分布も異なる。したがって、偏差値や正規得点や経験分布関数を使用して、受験結果を異なるテスト間で比較することは不可能である。…TOEFLの点(たとえば、500点、650点など)は、どこで受験したか、いつ受験したか、どの問題を解いたかに関係なく留学の可否の判断に利用される。つまり異質な受験者が、異なる項目を、異なる日時に、異なる場所で受験したにも関わらず、被験者は、統一された処遇を受けることができる。この処遇を可能にするテストを継続的に、前向きに運用するシステムを構築する数理モデルが、…項目反応モデルである。」
また、特開2002−006734号公報には、出題が予定される試験問題を予め樹状に配置しておき、受験者による解答の正否に応じて樹状に配置された経路に沿って問題を順に出題し、単に正解の数だけでなく、どのような経路で最終地点まで到達したかという途中経過を考慮して受験者の能力を推定するテストの方法及びシステムが開示されている。この公開特許公報にも、項目反応理論への言及が見られる。
しかし、従来型の理論に基づく項目反応モデルでは、2値によって採点が可能な○×式の解答以外の、例えば、1と0との間の部分点を許容せざるを得ないような形式の問題の処理が容易ではなかった。段階反応モデルなど、多値の結果も扱えるように構築された方法も古くから存在してはいるが、従来の方法は後述する短所を有している。従って、部分得点を許容しなければ的確な採点が困難な英作文やスピーチなどは、コンピュータ適応型テスト(CAT)に含まれないことが通常である。例えば、上述の特開2002−006734号公報に開示されている発明では、項目反応理論の利用が明言され、出題されるべき問題が予め樹状に配置されているが、受験者がある問題に正解したら右下、誤答したら左下に配置された問題に移動するというように、解答が正誤のいずれかの2値であることが予定されている。
本発明は、このような従来型の2値の解答を予想するCATとは異なり、部分得点を与えるような採点を許容するテスト・システムであって、しかも、従来の段階反応モデル等の複雑なモデルよりもはるかに容易に部分得点の処理を可能にするテスト・システム及びその制御方法を提供することを目的とする。
本発明によると、入力装置と出力装置とを備えた第1のコンピュータと、インターネットを含むネットワークを介して前記第1のコンピュータと接続されており入力装置と出力装置とを備えた第2のコンピュータと、前記ネットワークを介して前記第1及び第2のコンピュータと接続されたテスト管理サーバと、前記テスト管理サーバからアクセス可能であって難易度と識別力とを含む項目パラメータが予め推定されている複数の問題が記憶された問題データベースとによって構成され、1人の受験者にn問の問題を出題し、出題されたn問の問題に対する前記受験者の反応から前記受験者の能力θを推定するテスト・システムが提供される。前記テスト管理サーバは、(1)前記第1のコンピュータから送信されたリクエストに応答して、1≦j≦nである問題jに対し満点を1として0≦r≦1である部分得点rを許容する態様で採点されうるn問の問題を前記問題データベースから選択し前記第1のコンピュータに送信する手段と、(2)前記問題データベースから選択され前記第1のコンピュータに送信された問題に対して前記第1のコンピュータから返送された解答を記憶する解答記憶手段と、(3)前記第2のコンピュータから送信されたリクエストに応答して、前記解答記憶手段に記憶されている解答を読み出し前記第2のコンピュータに送信する手段と、(4)前記第2のコンピュータに送信された解答に対して与えられた部分得点rを前記第2のコンピュータから受信し記憶する部分得点記憶手段と、(5)前記部分得点記憶手段に記憶されている部分得点rと前記問題データベースに記憶されている問題jの項目パラメータとを用いて、当該部分得点rを獲得した受験者の能力θを推定する能力推定手段とを備えている。そして、(5)の前記能力推定手段においては、P(θ)は、部分得点rを問題jに固有であって前記受験者が正答1又は誤答0のいずれか一方の潜在的反応を取り得る潜在的問題をs回繰り返し実施したときに前記受験者が潜在的に取りうる正誤反応の平均であると想定した場合に、前記受験者が前記潜在的問題に正答する確率であり、
Figure 2004029906
と表現され、この数式1におけるa及びbはそれぞれが前記問題データベースに記憶されている問題が有する固有の特性である識別力と困難度とであり、Dは1.7という定数であり、Q(θ)は1−P(θ)である場合に、
Figure 2004029906
によって表される対数尤度lpart(θ)を用いて受験者の能力θが推定される。ただし、上記の数式1として表現されているP(θ)の関数形は単なる例示であり、P(θ)がこの表現形式に限定されることは必要なく、様々な形式でありうる。
ここで注意すべきは、観測可能なものは、受験者が問題jに対して獲得する0から1までの間の値を取りうる部分得点rであり、潜在的問題に対する受験者の潜在的な反応は観測できないという点である。
更に、本発明によるテスト・システムによれば、実際に観測される問題jに対する部分得点rが顕在的な複数の正誤問題の平均によって構成されている場合にも、これらの正誤問題の正答確率の平均を数式1で表現し、数式2を用いて受験者の能力θを推定することが可能である。
更に、本発明によるテスト・システムによれば、テストが実施された集団の能力分布を仮定した上で、s回の正誤の和である2項分布と仮定された能力分布との積を能力の次元で積分して部分得点の理論的な分布関数を求め、求められた理論的な分布関数と実際のデータの部分得点の経験的な分布関数が最もよく一致するように、潜在的な問題の繰り返し回数であるsを推定することも可能である。
更に、本発明によるテスト・システムにおいて、前記第1及び第2のコンピュータにおける前記出力装置と前記入力装置とがそれぞれ音声出力装置と音声入力装置とを含む場合には、前記テストサーバに送信され記憶される解答として音声データを含ませることも可能である。この場合には、第1のコンピュータにおいてリスニングの問題を出題したり、受験者に実際に発話させた内容を採点対象とするスピーキングの問題も出題可能となる。
なお、本発明は、上述のテスト・システムを制御する方法としても実現することができる。更に、本発明は、そのようなテスト・システム制御方法を実装するコンピュータ・プログラムが記憶されているコンピュータ可読な記憶媒体自体として存在することもありうる。更には、そのようなテスト・システム制御方法を実行するコンピュータ・プログラム自体としても存在しうる。
図1は、本発明によるテスト・システムの一例の概要である。
図2は、本発明によるテスト・システムを構成する受験者ユニットの概要である。
図3は、本発明によるテスト・システムを構成する採点者ユニットの概要である。
図4は、本発明によるシステムを用いたテスト実施の概要を示す流れ図であり、特に、本発明が依拠する部分得点に関係するライティング及びスピーキングに関する受験及び採点のプロセスが示されている。
図5は、本発明によるテスト・システムを用いた能力推定の有効性を確認するために実施された被験者12名によるスコア安定性確認調査の結果を示すグラフである。
図6は、図6aから図6gで構成され、それぞれが、図5のスコア安定性確認調査における被験者12名のスコアを示すグラフである。
図7は、図7aから図7dで構成され、繰り返し数sを推定する際に、真のs=5、10、20、40の場合に、推定された経験分布と理論分布との分布関数の差の最大値(コルゴモロフ・スミルノフ検定の統計量)を繰り返し数3〜10についてプロットしたものである。
図8は、図8a及び図8bで構成され、それぞれが、英語能力テストでの繰り返し回数sの推定への適用例である。
本発明の基礎として用いる部分得点モデルについて述べる前に、一般的な2値の項目反応モデルについて簡単に説明する。2値とは、解答が正答又は誤答の2つの値だけを取るという意味である。このモデルでは、受験者が問題に正答する確率を、受験者の能力を表すパラメータと問題を特徴付けるパラメータとを用いて表現する。例えば、本発明では、各問題を2つのパラメータ(識別力a及び困難度b)によって特徴付ける2母数(パラメータ)ロジスティック・モデルを用いるのであるが、この場合、能力θを有する受験者iが問題jに正答する確率は次のように書くことができる。
Figure 2004029906
ここで、xは、受験者iが問題jに正答するならば1であり、誤答するならば0であるダミー変数である。また、Dは定数である。この場合に、n問の問題を終了した時点での受験者の能力θの尤度L(θ)は、次のように書くことができる。
Figure 2004029906
ここで、P(θ)は数式3の右辺の正答確率であり、Q(θ)は誤答確率つまり1−P(θ)である。項目応答理論では、数式4の尤度L(θ)の最大値を与えるθの値を受験者の能力パラメータの推定値とする最尤推定法が知られ、広く用いられている。ただし、数式4の右辺は積の形式で書かれており最大値を求めるのが容易でないので、和の形式に直して考察するため、両辺の自然対数を取った対数尤度ln(L(θ))の最大値を求めるのが一般的である。これは、自然対数は単調増加関数であって、尤度L(θ)の最大値を与えるθとその自然対数ln(L(θ))の最大値を与えるθとが一致するからである。
以上が、従来から公知である一般的な2母数ロジスティック・モデルであるが、本発明において用いる部分得点モデルでは、問題への反応(解答)の評価が正誤という2値にとどまらず、部分点として評価されることが可能となる。具体的には、数式4のダミー変数xが1及び0の2値だけでなく、0から1までの3つ以上の複数の値(例えば、0、0.2、0.4、0.6、0.8、1の6つの値)を取ることを許容する。受験者iの問題jに対する部分得点をrijとすると、部分得点に対応する尤度は、次のように表すことができる。
Figure 2004029906
具体的な外国語試験、例えば英語の試験を考えると、正誤問題や多肢選択式問題であれば、正答及び誤答の2値として処理できる。しかし、英作文や英語での発話(質問に対する口頭での応答)は単純な正答又は誤答として評価するのは困難であり、部分点を与えることによって評価することが必要となる。従って、従来型の2値の項目応答モデルを用いることはできない。しかし、数式5によれば、任意の形式を有するテストの採点結果を部分得点に変換して分析用のデータとすることができる。
数式5の意味を解釈するために、同一の問題パラメータを有するs個の問題が同じ受験者に向けて出題されるとする。学力テストの場合には、パラメータは同じであるが内容としては別の問題を提示すると想定するのが無理のない想定である。性格検査などに用いられる質問紙では、内容的にも同一の問題を提示するケースも考えられるが、これは項目反応理論の前提である局所独立の仮定に反する可能性も生じるので、ここでは、一応同一パラメータであるが内容の異なる質問項目を提示すると想定する。
一般の項目反応モデルでは、このような想定条件下の尤度は、数式4から次のように表すことができる。
Figure 2004029906
すべての問題に関して繰り返しの解答sが等しい(=s)と仮定した場合、この数式6のs乗根をとると、次の数式が得られる。
Figure 2004029906
(θ)とL(θ)との最大値を与えるθは同一であるので、最尤推定値は、数式6及び数式7で同じである。数式7において
Figure 2004029906
とおけば、Lpart(θ)とL (θ)とは形式上同じとなる。つまり、パラメータが同じである問題の繰り返しによる正誤の平均によって部分得点が表現される場合には、本発明が依拠する部分得点モデルLpart(θ)の解と一般の項目反応理論によるL(θ)の解とは、とL (θ)を通じて一致する。以上により、同一パラメータの問題を複数回実施し、その正誤の合計又は平均により成績をつけるようなタイプの部分得点に関しては、当該項目のすべての実施結果に関してその平均を取ることにより0から1までの間の部分得点を作ることにすれば、部分得点モデルLpart(θ)によって処理しても、従来の2値データによる処理と同一の結果となることがわかる。数式8から、提示の回数sを増加させれば、実質的に0から1までの任意の部分得点を表現できることが導かれる。なお、数式6と数式7との間でs乗根分の相違があると実際には不便なので、次のように、数式5をs乗して、その自然対数を部分得点化の対数尤度とするのが好ましい。
Figure 2004029906
さて、実際の学力テストでは、相互に関連する複数の問題が出題されることがある。外国語テストの例では、一定の長さの文章に関して複数の問題が出題される場合などがこれに該当する。しかし、このような問題群の存在は、項目反応理論の局所独立の仮定に反する可能性がある。
因子分析的に考えてみると、仮にテストの得点zが、テスト問題の全体で測定する因子fと、ある問題群Jに共通する因子fと、各問題に独自な因子uから構成されるとすれば、受験者iによる問題jの得点は次のように表現することができる。
Figure 2004029906
ここで、aは因子負荷である。問題jが問題群Jに属する場合にはa2jはゼロでなく、問題jが問題群Jに属する場合にはa2j=0である。数式10において問題群Jについての和を取ると、次のようになる。
Figure 2004029906
右辺第2項は問題群Jに共通する因子fに関する和であるが、因子の直交性の仮定からは、他の問題との相関を持たず独自性部分と見ることができる。項目反応理論でも項目に固有な成分を想定しているわけであるから、右辺第2項はこれに該当する。すなわち、局所独立の仮定に触れずに済むことになる。因子fを項目反応理論の能力パラメータθと仮定すれば、テストで相互に関連する問題群の和を取って部分得点として処理することには不都合はない。局所従属の関係にある問題に関して本発明が提唱するような処理を行うことは、項目反応理論の仮定からはむしろ望ましいとさえいえる。
もし完全な同一パラメータの項目でなく類似パラメータの項目の繰り返しを想定する場合は、一般の2値の尤度は項目jの繰り返し提示の正誤パターンによって異なり、次のようになる。
Figure 2004029906
θ固定、項目パラメータ所与とする。数式12の対数尤度をとり、類似項目jに係わる部分だけを取り出すと
Figure 2004029906
が得られる(ただし正答確率などに対する添え字j、及びθは省略する)。すると、その正誤反応Xに関する期待値は
Figure 2004029906
となる。また
Figure 2004029906
Figure 2004029906
とするとき、ΔPは、各項目が類似項目であるため微小と仮定する。ΔPの2次以上の項を無視すると
Figure 2004029906
Figure 2004029906
が成立する。数式17及び18を数式14に代入し、
Figure 2004029906
であることを考慮に入れれば
Figure 2004029906
次に部分得点についても検討してみよう。先程と同様に全ての項目で繰り返しの回答sが等しい(=s)と仮定した場合、数式9の正誤の確率を数式15の平均反応確率と
Figure 2004029906
で置き換える。すると
Figure 2004029906
となる。上式より特定の類似問題jに係わる部分だけを取り出し、また部分得点rが類似問題jの正誤の平均であることから
Figure 2004029906
となる(ただし正答確率などに対する添え字j、及びθは省略する)。すると、その期待値は
Figure 2004029906
であり、数式20及び24から
Figure 2004029906
が成立する。尤度を構成する全ての類似項目に数式25が成立すれば、部分得点の最尤解と、2値データによる解は近似的に一致すると考えられる。
なお、以上で、本発明における部分得点モデルは、同一パラメータの問題又は類似パラメータにおいて繰り返し定義の回数が同一であれば、通常の2値の項目反応モデルと対応関係を有することを既に示した。しかし、現実の適用場面では、すべての問題の繰り返し回数が同一である、つまり、部分得点の段階数がどの問題についても同一であるとは限らない。例えば、学力テストにおいては、初めに2値的に採点される易しい項目があり、後半に多値的に採点される難しい項目が配置されることが多い。このような状況に対応するためには、数式9を次のように拡張する必要がある。
Figure 2004029906
このような拡張型部分得点モデルでも、一般の2値モデルの最尤解と数式26の解とは近似的に一致する。
次に、2項分布を利用した繰り返し回数sの推定について説明する。拡張された部分得点モデル
Figure 2004029906
を適用する場合、各項目の繰り返し回数sはシミュレーションでもない限り実際には不明のことが多く推定する必要がある。部分得点の性質によりsの推定は異なり、以下で説明を加える
第1に、部分得点が複数の正誤問題の平均値である場合について考察する。ある問題jの部分得点が、1組の組問などからなる複数の正誤2値問題の平均値(つまり複数の問題の合計点を採点結果とする場合)である場合は、それらの問題の数が、そのまま繰り返し数sの推定値となる。
第2に、部分得点が質問紙などの段階評定である場合について考察する。質問紙で多用される評定尺度の場合、段階数をm+1とするとき繰返し数sはmと推定できる。たとえば質問項目が、「1.よくあてはまる」「2.ややあてはまる」「3.ややあてはまらない」「4.まったくあてはまらない」の4段階の評定で回答を求めるものであるならば、回答結果を0〜1の部分得点として処理するために、各回答をxとするとき(x−1)/3と変換して[0,1/3,2/3,1」の4段階をとる部分得点データとして分析することになる。これは、3つの2値項目の得点の和を3で割ったことと同じである。つまり質問紙の回答がm+1段階の評定であるならば、2値データの繰り返し数sはmであると推定できる。
第3に、部分得点が、複数の正誤2値問題の平均値でなく、採点者の評定のような採点結果であり、比較的段階数が少ない場合について考察する。最も簡単なsの推定方法は、部分得点rがs+1段階の得点であるならば、元の2値データの項目の繰り返しはsであると推定するものである。部分得点モデルの考えでは、2値データの合計を繰り返し回数で割ったものが部分得点rと対応していたことから、たとえば、採点者の評価結果が0、0.5、1の3段階で表現されるのであれば、これは2つの2値項目の得点の和を2で割ったことに他ならない。もちろんこれが成立するためには、得点の発生する可能性のある各段階間の等間隔性が必要となる。同じ3段階の部分得点であっても0、0.5、1と0、0.75、1.0の持つ意味は異なる。部分得点が同一母数項目の繰返しにより生ずるという仮定からは繰返し数2で後者のパターンが生じるとは考えにくく、より大きな繰返し数を仮定する必要があるだろう。たとえば0、0.25、0.5、0.75、1.0のパターンを想定し、繰返し4を考える場合である。
第4に、部分得点が複数の正誤2値問題の平均値でなく、採点者の評定のような採点結果であり、段階数が多い場合について考察する。既に述べたように部分得点rがm+1段階であるとき2値の正誤項目からこれを構成するためには繰返し回数sはmであることが必要である。段階数が少ない場合は、前節の推定で良いと考えられるが、段階数が多くなると問題が発生する可能性が高くなる。たとえば、100点満点のテストで、1人の結果を除いた解答に採点者が10点刻みに採点した場合、段階数は11段階で繰返し数は10である。しかし採点者が残る1人の解答結果に69点という点をつけたとするとその途端に、繰返し数を101としないと部分得点化が困難となる。また得点を整数に限らず実数も許容する場合には、このような考え方では繰返し数を推定することは困難となる。
以上のような問題を解消するため、ここでは若干の仮定を設けた上で繰返し数を推定する。問題jの部分得点は、当該の問題に関係する潜在的な問題の繰り返し実施による正誤の平均で部分得点が構成されることを仮定し、正答確率はP、誤答確率はQ=1−Pとする(以上部分得点の仮定)。このときθを固定すれば、部分得点Rが0,1/m,2/m,…,1をとる確率P(R=r|θ)は2項分布
Figure 2004029906
に一致する。すると母集団全体では、m回の繰返しで部分得点がrとなる確率は、
Figure 2004029906
であり、その分布関数は
Figure 2004029906
となる。ここでψ(θ)はθの母集団分布である。この理論分布とデータから得られる経験分布が一致することが望ましい。このため理論分布と経験分布の一致度をコルモゴロフ・スミルノフ検定の統計量
Figure 2004029906
で評価する。ここでF(r)は、理論分布における段階rまでの分布関数の相対累積度数であり、F′(r)は経験分布における段階rまでの相対累積度数である。
実際にコルモゴロフ・スミルノフ検定の統計量を求めるためには、理論分布、経験分布ともrが離散量であり、また両者で段階の値が必ずしも一致しないことから生じる比較の困難さがあり、ここでは次のような方法で比較することにした。
まずψ(θ)を標準正規分布と仮定する。もちろんこれは必要に応じてθの母集団分布と想定される任意のものを用いることが出来る。これにより、数値積分を行えば数式29が求まり、その結果数式30が分る。Rは0、1/m、2/m、…、1のm+1段階の値を取り得るわけだが、Rが潜在的には連続量であると仮定す
Figure 2004029906
Rの度数の反映に他ならない。このため、l番目の段階値l/mまでの理論分布関数F(l/m)と比較する経験分布関数F′(l/m)は、部分得点としての区間[0,1]の内
Figure 2004029906
以上のような方法で、最小のコルモゴロフ・スミルノフ検定の統計量を与える段階数mを、繰返し数sの推定値とすることが可能であり、以下のシミュレーション及び実際のデータへの適用により、この方法の有効性が確認されている。
第5に、シミュレーションによる繰返し数sの推定法の検討について述べる。問題jの部分得点rが正誤2値問題の繰返し提示による正誤平均として表現されることを仮定して、シミュレーションによりこれを再現し、繰り返し数sとしてs=5、10、20、40の4種類(1つの問題の部分得点データを作るために2値の問題を5〜40個利用したということ)を行い、40問題3000人分のデータを作成した。
前節の繰返し数sの推定法は、項目母数が与えられていなければならない。このため作成された部分得点データに基づいて項目母数と能力母数の同時推定を行った(この段階での繰返し回数sは1)。
図7aは、真のs=5のとき、推定された経験分布と理論分布の分布関数の差の最大値(コルモゴロフ・スミルノフ検定の統計量)を、繰返し数s=3〜10についてプロットしたものである。ここで問題にしているのは繰返し数が大きいときのケースであるから、繰返し数s=1、2は、元々不要であるので省略している(2項分布を利用した繰返し数の推定は最低でもs=3からとしたい)。この図より明らかに真の繰返し数5の点でコルモゴロフ・スミルノフ検定の統計量が最小値をつけていることが分る。図7bにはs=10、図7cにはs=20、図7dにはs=40の場合を示したが、いずれも真の繰返し数で最小値をとっていることが分る。
第6に、能力検査への適用例として、実際のデータでの繰り返し数の推定例について述べる。英語力テストでの繰返し回数sの推定への適用例を示す。同テストは受験者9480人、問題数43項目のデータであり、長文読解に絡んで複数の小問をあてているため5問組が2組存在している。両組の小問の正誤平均で部分得点を作成し、前節の繰返し数の推定を試みた。その結果得られたのが図8a及び図8bである。どちらも当該群の問題数の5でコルモゴロフ・スミルノフ検定の統計量は最小値をとっていることが分り、推定の有効性が示されている。
以上では、本発明によるコンピュータ適応型テスト設計及び処理システムにおいて用いられる部分得点モデルについて説明した。この部分得点モデルは、2値の項目反応モデルを修正することによって得られている。従って、この部分得点モデルでは、推定すべきパラメータの数も2値モデルの場合と同じであり、問題の特性に特別な関心があるとき以外は、学力テストの設計及び結果処理の際に、従来試みられてきたような複雑な多値モデルを利用する必要性は少ないといえよう。
本発明において用いられる部分得点モデルを従来から公知であった段階反応モデルなどと比較すると、次のようなことが明らかとなる。(1)項目反応理論では、通常はデータが2値で1次元であることを要求しているが、部分得点モデルは、多値、多次元データに適用できる。(2)部分得点モデルは(段階反応モデルや他の多値モデルに比較して)簡明なモデルで利用者に理解しやすい。(3)部分得点モデルは、(段階反応モデルや他の多値モデルと違い)一般によく利用されている2母数ロジスティックモデルとシームレスなので、結果の解釈も容易であり、2値と多値の混在データの分析にも便利である。(4)部分得点モデルは、モデルのパラメータの数が(段階反応モデルや)他のモデルに比較して少なく、推定に問題が生じない。(5)部分得点モデルは、どのような解答(回答)結果でも0から1の部分得点に変換すれば適用できるので応用範囲が広い。(6)部分得点モデルは、テストだけでなく質問紙データにも容易に適用できる。(7)部分得点モデルは、解答(回答)の段階数が増えても(段階反応モデルや他のモデルのように)モデルのパラメータが増加しないので、採点結果の変更に対応が容易である。
また、本発明の発明者の1人(藤森)は、部分得点モデルを用いたシミュレーションを行ったが、その結果によると、(1)段階反応モデルは、テストが少数項目であると識別力の推定にバイアスがかかるが、部分得点モデルではこの現象は生じない。(2)正答数得点と能力推定値の順位相関は、部分得点モデルの方が段階反応モデルより高い(真の値との相関では両モデルともほぼ同等)。
以上で本発明によるテスト・システムにおいて用いられる部分得点モデルの概要を説明したが、その要旨を再確認しておきたい。本発明が依拠する部分得点モデルにおいては、合計点を和を取った項目数で割ることにより0から1の間の部分得点として入力データとする、すなわち、2値モデルの尤度の正誤に使われるダミー変数を部分得点を表す実質的変数あるいは正誤確率の重みとして扱う。このような想定の下で部分得点を処理しても、理論的にも従来の2値型の処理の場合との整合性が保たれ、また、シミュレーションの結果を見ても2値データの場合の尤度関数を用いる推定結果と部分得点モデルによる尤度関数を用いる推定結果とは実質的に同じであるといえる。
次に、上述した部分得点モデルが本発明によるテスト・システムにおいてどのように具体的に適用されるかを説明したい。具体例として、英語能力テストを考える。多肢選択式など解答が正答又は誤答の2値で評価される設問に関しては、従来型の項目反応理論が適応され、数式4の尤度関数Lを用いて項目パラメータと能力値θとが推定される。これに対し、ライティング(作文)やスピーキング(会話)の問題では、正誤判断による2値的な採点ではなく部分点を許容する採点を行うことが、受験者の英語能力評価をより分析的かつ精密に行うことを可能にすると思われる。そのような場合には、2値評価を前提とする従来型の項目反応理論を適用することはできず、上述した部分得点モデルが用いられる。
部分得点モデルでは、例えば作文問題に対する受験者の解答を採点する際に、零点(0)から満点(1)までの間で25%刻みの部分得点を与えることができる。具体的には、数式5においてrijが、0、0.25、0.50、0.75、1という5つの値を取りうる尤度関数を考えて、部分得点を処理する。Pを定義する数式3に含まれる項目パラメータa(識別力)及びb(困難度)は、同じ問題を用いて予め行われたプレテストにおけるデータを用いて既に推定されている。既に一般論として論じたように、本発明の部分得点モデルでは、部分得点を同一パラメータを有する問題が反復的に出題された場合の正誤の平均として表現されるものと想定しているため、1つの項目(=問題)の内部では、どの部分得点についても項目パラメータa及びbの値は同じである。
具体例として、このような英作文の問題が3題出題され、ある受験者によって与えられた解答がそれぞれ0.25、0.75、0.50と評価される場合を考える。この場合、0と1とを含めると5段階の部分得点を用いて評価されているので、繰り返し数は4であり、尤度関数Lpartの対数尤度を考え、数式9のrに部分得点0.25、0.75、0.50を代入することによって次のように決定される。
Figure 2004029906
ここで、ロジスティック曲線Pに含まれる項目パラメータa及びbは、それぞれの問題に対して予め推定されている。数式32の対数尤度を用い、最尤推定法やベイズ推定法により、受験者の能力θが推定される。これらの方法自体は従来から知られている一般的な統計学的手法であり本発明の特徴ではない。しかし、いずれの推定方法を用いるにしても必要な対数尤度は、本発明の核心である部分得点モデルによって初めて得られるものである。
以上は、部分得点モデルの基本的な適用例である。更に、部分得点モデルを用いると、このような単純な例とは異なり、複数の評価基準を設け、1問を複数の視点から評価する分析的な評価方法を採用することによって、受験者の能力推定の精度を向上させることもできる。例えば、上述した基本的な適用例では顕在化しない受験者の能力差を明らかにできる可能性がある。例えば、ライティング問題では、精度の高い評価のために、(a)目的達成の有無(Goal Achievement)、(b)文法(Grammar)、(c)語彙(Vocabulary)、(d)文章構成(Style)、(e)綴り字・句読点(Mechanics)という5つの評価基準を設定し、スピーキング問題であれば、(a)から(c)に加え、(f)発話の流暢さ(Fluency)、(g)発音(Pronunciation)という5つの評価項目を設定する。このような評価項目を設定する理由は、例えば、作文の設問であれば、非常に拙いが書き手の意図が一応は読み手に伝わる、文法的には誤りはないが余りに不自然であり状況にそぐわない、明らかな文法上の誤りがある、単語の綴りに間違いがある、類似する単語が誤用されている、文の途中で中断し完結していない、パンクチュエーションが間違っているなど、ただ1つの作文を評価するに場合でも、異なる複数の視点から評価を行えば、1つの問題を複数の小問題から構成されているものと考え、視点ごとに異なる評価が可能であるからである。そして、このように複数の評価項目を設定すると、1つの問題を複数の問題から構成されているものと見なすことによって、上述した基本的な適用例の場合よりも高精度の評価が可能となりうる。
以上のような評価項目を設けた場合には、次のような評価が可能であろう。(1)の目的達成の有無については、例えば、「相手に宿を手配して欲しいという意図の伝達」という目的が問題ごとに設定され、設定された目的が「達成されている、達成されていない」の2値(1又は0)で採点される。それ以外の評価項目に関しては、0から1までの間に25%刻みの部分得点を許容する採点を行う。つまり、数式5のrijに、0、0.25、0.5、0.75、1という5つの値が代入される。上述した基本的な適用例と同様に、尤度関数に含まれるロジスティック曲線Pを定義する数式3に含まれる項目パラメータa(識別力)及びb(困難度)も、上述の例と同様に、同じ問題を用い本番のテストに先行して行われたプレテストにおけるデータを用いて予め推定されている。このような採点方法を用いれば、ただ1題の英作文又は会話の問題を出題することによって、非常に多角的な評価が可能になる。ただし、ここで挙げた評価項目は単なる例示であり、本発明によるテスト・システムにおいて他の視点から評価を行うことも可能である。
以上が、部分得点モデルを含む項目反応理論が英語能力テストへ適用され受験者の能力が推定される様子についての説明であり、本発明は、このような部分得点モデルを含む項目反応理論による能力推定をインターネット接続環境にある一般的なパーソナル・コンピュータを用いて実現するテスト・システム及びテスト方法である。以下では、添付の図面を参照しながら、本発明によるテスト・システムの動作を概説する。
図1には、本発明によるテスト・システムの第1の実施例の概要が示されている。受験者は、本発明によるシステムによって設計、実施及び処理されるテスト(例えば、英語能力テスト)を実施する語学学校などに設置されたインターネット接続環境にあるパーソナル・コンピュータである受験者ユニット101を用いてテストを受験する。受験者の認証が適切になされるのであれば、自宅での受験も可能である。受験者によってキーボード、マウス、マイクロフォンなどを介してパーソナル・コンピュータである受験者ユニット101に入力される解答結果は、インターネットなどのネットワーク103を介して、採点者ユニット102に送られ、例えばテスト対象である英語を母語とする採点者が部分得点を許容しながら採点を行う。その際に、部分得点を与える評価項目は、問題の難易度にあわせて変更されることはない。ただし、解答結果は、受験者ユニット101から直接に採点者ユニット102に送信されるのではなく、このテストを集中的に管理するテスト管理サーバ104にいったん送られた後で、複数存在する中から適切であると判断される採点者ユニット102へ送られるのが一般的である。テスト管理サーバ104は、問題データベース105を備えている。問題データベース105には、プレテストとして実施され項目パラメータ(数式3における識別力a及び困難度b)が予め推定されている問題群が記憶されている。テスト管理サーバ104は、受験者が特定されると、問題データベース105から一群の問題を選択し、選択された問題群を受験者ユニット101へ送信する。
図2には、受験者ユニット101の概要が図解されている。受験者ユニット101は、通常、インターネット接続環境を有する一般的なパーソナル・コンピュータである。入力装置207は、キーボード、マウス、タッチパネルなど機械的な入力装置であり、音声入出力装置209は、マイクロフォンやスピーカなどである。受験者は、まず、入力装置207から手動で、又は、音声入出力装置209から音声で、自分自身のIDを入力すると共に、テストの開始を指示する。受験者のIDは、その受験者が受験の申込みを行う登録時に、テスト管理サーバ104から各受験者に対して一意的に発行されたものが用いられる。セキュリティ管理のため、IDと共にパスワードも発行されるのが一般的である。一意的なIDが発行されていることにより、同一の受験者が複数回受験する場合には、その旨がテスト管理サーバ104において認識され、適切な出題がなされる。指示に応答してテスト管理サーバ104から送信されディスプレイ208に表示される、又は、スピーカを含む音声入出力装置209から出力される自分のレベルに合わせて選択された問題に対して、受験者は、入力装置207、又は、マイクロフォン(音声入出力装置209)を介して解答を入力する。解答、特に、部分得点を許容する採点が必要となるライティングやスピーキングの設問に対する解答は、通信インターフェース202とインターネットなどのネットワーク103とを介して、採点者ユニット102に送られる。ただし、既に述べたように、解答は、受験者ユニット101から直接に採点者ユニット102に送信されリアルタイムに採点されるのではなく、このテストを集中的に管理するテスト管理サーバ104にいったん送られた後で、複数存在する中から適切であると判断される採点者ユニット102へ送られるのが一般的である。一定数の解答が集まってから採点するのが効率的であるという採点の経済からもこれは当然であろう。
図3には、採点者ユニット102の概要が図解されている。採点者ユニット102は、受験者ユニット101と同じように、通常、インターネット接続環境を有する一般的なパーソナル・コンピュータである。インターネットなどのネットワーク103を介して受験者ユニット101又はテスト管理サーバ104から送られてくる解答結果をディスプレイ308に表示し、又は、スピーカ(音声入出力装置309)から出力して、キーボードやマウスなどの入力装置407を用いて採点する。採点結果は、インターネットなどのネットワーク103を介してテスト管理サーバ104に返送する。
以上で説明した本発明のテスト・システムを実現する第1の実施例では、受験者ユニットと採点者ユニットとテスト管理サーバとがインターネットなどの通信回線を用いた通信ネットワークの通信端末として構成されていた。しかし、当業者には明らかなことであるが、本発明によるテスト・システムは、第2の実施例として、通信機能を備えていないスタンドアロンのパーソナル・コンピュータを用いて実現することもできる。その場合、難易度及び識別力が予め推定された多数の問題が記憶されているデータベースは、例えば当該パーソナル・コンピュータのハードディスクなどの記憶装置に構築されており、受験者は、例えばCDやDVDなどに格納された態様で提供される本発明のテストを実施するプログラムに含まれる命令に従って出題されるライティングやスピーキングの問題に対し、キーボードやマイクロフォンを介して解答する。解答結果はいったんハードディスクなどに記憶され、採点者は、その解答結果をハードディスクから読み出して部分得点を許容する採点を行う。この第2の実施例の場合の部分得点の処理方法は、第1の実施例の場合と同様である。採点がなされると、部分得点モデルに基づく尤度関数を用いて受験者の能力推定が行われる。
図4は、本発明によるテスト・システムを用いたテスト実施の概要を示す流れ図であり、特に、第1の実施例に則して、本発明が依拠する部分得点モデルが用いられるライティング及びスピーキングに関するテストの実施及び処理プロセスが示されている。なお、ライティングの問題では、受験者は、キーボード(図2の入力装置207)を用いて、英文などの文章をタイプインする形式で解答するのが一般的である。スピーキングの問題では、受験者がパーソナル・コンピュータに備え付けられたマイクロフォン(図3の音声入出力装置309)を介して、提示された質問に対する応答として、又は、自由な内容で音声を入力し、その音声として発話された内容が評価の対象となる。採点者は、受験者が現在利用しているパーソナル・コンピュータとインターネットなどのネットワークを介して接続されている別の端末である採点者ユニットの前で待機し、リアルタイムで採点を行うことも可能ではあるが、実際には、受験者の解答は、いったんテスト管理サーバに記憶された後で採点者ユニットへ送られ、集合的に多数の解答を採点するのが一般的である。
まず、受験者は、受験者ユニット101においてインターネット上の指定されたウェブページにアクセスする。そのウェブページにおいて、自分自身の受験者IDとパスワードとを入力し認証がなされた後で、所定のボタンをクリックすることにより、ライティング又はスピーキング問題の受験を開始する意図を通知する(400)。テスト管理サーバ104は、この通知に応答して、ライティング又はスピーキングの問題を問題データベース105から選択する(ステップ401)。この選択の際には、この受験者による多肢選択式問題に対する解答の採点結果から推定された能力θとの関係で、最も適切な識別力及び困難度を有する評価項目を含む問題を選択することができる。例えば、ライティング問題選択の際にはリーディング問題への解答結果を参考にし、スピーキング問題選択の際にはリスニング問題への解答結果を参考にすることが考えられる。これは、ライティングの能力はリーディングの能力と相関関係を有し、スピーキングの能力はリスニングの能力と相関関係を有すると考えられるからである。ただし、このような問題選択は、単なる例示であり、本発明による部分得点モデルを含む項目反応理論に基づくテスト・システムの本質部分ではない。
選択された問題に対応するロジスティック曲線に含まれる項目パラメータは、先に実施されたプレテストにおけるデータから、評価項目ごとに予め決定されているのが一般的である。ただし、能力パラメータの推定と同時に項目パラメータを推定する同時最尤推定なども理論的には可能であり、本発明によるテスト・システムも、この同時最尤推定の可能性は排除しない。その場合には、問題データベース105に記憶されている問題の項目パラメータは既に推定されている場合とそうでない場合とが併存することになる。項目パラメータの推定は、能力θの推定と同じく数式5の尤度関数が用いた部分得点モデルに基づいて行われる。また、項目パラメータが推定される際には、それぞれの問題の識別力及び困難度を標準化する等化と称されるプロセスも行われる。この等化のプロセスにより、受験者の母集団に左右されない絶対評価が可能になる。ただし、等化自体は項目反応理論一般について妥当することであり、特に本発明の特徴ではない。
テスト管理サーバ104によって出題されるべき問題が選択されると、選択された問題は、インターネット等のネットワーク103を介して受験者ユニット101に送信される(ステップ402)。送信された問題は、テキスト形式の問題であればディスプレイ208において、音声形式の問題であればスピーカ(音声入出力装置209)から受験者に対して出題される(ステップ403)。受験者は、その出題された問題に対して、文章をタイプインする形式で、又は、発話された音声形式で、解答を与える(ステップ404)。解答を構成する文書又は音声ファイルは、インターネット等のネットワーク103を介してテスト管理サーバ104に送信され、いったん記憶される(ステップ405)。
以上のプロセスが一定数の受験者に対して反復され、一定数の解答ファイルがテスト管理サーバ104に記憶される。ただし、これら複数の受験者に対して出題される問題は、同じとは限らない。項目反応理論の一般論から、出題される問題は異なっていても、能力θは適切に推定されうるからである。採点者ユニット102からテスト管理サーバ104により開設されているウェブページへのアクセスがなされ、テスト管理サーバ104に蓄積されている解答を採点のために送信して欲しい旨のリクエストがなされると、一定数の解答ファイルが、探点者ユニット102に送られる(ステップ406)。採点者は、既に説明した部分得点を許容する方法により解答を採点し(ステップ407)、採点結果をテスト管理サーバ104に返送する(ステップ408)。ただし、一般的には、このように複数の解答がまとめて採点されるか、リアルタイムで採点されるかは、本発明の特徴とは関係ない。
次に、テスト管理サーバ104は、採点者ユニット102から受信した部分得点を数式5の尤度関数に代入し、能力θの推定を行う(ステップ409)。上述したように、項目パラメータが同時に推定される場合もありうる。推定の方法は,最尤推定、ベイズ推定などである。推定が終了すると、必要な場合には、推定されたθの値が、他のテストとの比較に適した点数に換算される(ステップ410)。
本発明のテスト・システムを用いて上述のような処理を行うことにより、従来から行われてきた一般的な項目反応理論では処理が困難であった部分得点を許容して採点を行う問題を含むテストであっても、従来型の項目反応理論と同様な能力推定を行うことができる。
発明者らは、本発明によるテスト・システムを用いた能力推定の有効性を確認するために、2003年5月21日から28日において、被験者12名によるスコア安定性確認調査を行った。方法としては、同一被験者に3回続けて本発明によるテスト・システムを用いた芙語能力テストを受験してもらい、スコアに大きなぶれが生じないかどうかを確認した。ここで実施された英語能力テストは、リスニング、リーディング、ライティング、スピーキングの4つの技能のテストで構成されていた。
被験者は、東京の比較的英語が得意な某大学の大学生12名である。もし、本発明によるテスト・システムによる英語能力評価が適切なものであり、等化を含めた各問題の項目パラメータの推定が本発明によるテスト・システムにおいて適切になされているのであれば、同一受験者が1日のうちに3回テストを受験した場合、英語能力はその間に変化しないと考えられるので、結果のスコアは大きく変動しないはずである。
結果の詳細は、図5のグラフとして示されている。また、12名の平均スコアは、図6の通りである。個人差はそれぞれあるが、図5及び図6において観察されるように、1回目から2回目において試験形式の慣れによる得点の向上(一般的には「リハーサル効果」と呼ばれる)と、3回目の受験における疲労効果(特に、最後の回の最終問題であるスピーキングの得点に見られる)による得点の低下とが見られた。
しかし、平均点で見ると各技能で250点満点中5.4から18.5点のスコアの変動(=2.2%から7.4%)であり、トータルスコアでも3%の変動幅で収まっている。従って、異なった問題を受験しても本発明によるテスト・システムでは、テスト・スコアの変動は少なく、スコアの標準化が適切に行われており、母集団の能力レベルに左右されない絶対評価が可能であることがわかった。
同一パラメータを有する複数の項目が反復的に出題された場合の正誤の平均として部分得点が表現されると想定すれば、理論的には、数式5におけるrijを実質的な変数と考え0から1までの間の部分得点を許容しても、従来型の項目反応理論における2値的な評価に用いられる尤度関数の場合と推定結果は同一になる、というのが、本発明によるテスト・システムが依拠する部分得点モデルによる提唱であった。図5及び図6において示された実験結果は、この理論的帰結が、実験的にも確認されたことを示している。
従って、本発明によるテスト・システムによれば、従来型の項目反応理論との整合性を維持しながら、従来よりも高精度の能力推定が達成される。これは、本発明の著しい効果である。
明細書の最後に、本発明の発明者の1人(藤森)による段階反応モデルと部分得点モデルとの比較に関する論文(『項目反応理論による多値データの分析について一段階反応モデルと部分得点モデル−』)を、文中で言及されている図面(Figure)や表(Table)を除いて、以下に引用する。なお、この論文は、この出願における優先権主張の基礎となる日本特許出願である特願2002−279513が出願された平成9月25日の時点では未発表であったが、その後、文教大学人間科学部の紀要である『人間科学研究』24号において発表された(平成14年)。また、この論文は、学力テストだけを念頭においたものではなく、より広い応用についても言及しているので、「問題」ではなく「項目」、「受験者」ではなく「被験者」など、以上の用例と異なる箇所が含まれている。
1.研究の目的
2母数ロジスティックモデル(Birnmaum,1968)のような一般の項目反応理論では、正答、誤答のような2値データを処理することが出来るだけであり、多値のデータを分析することは出来ない。しかし心理学一般の研究では質問紙データなどで多値データを利用することも多い。項目反応理論でも多値データが全く扱えないわけではなく、幾つかの分析モデルが開発されている。例えばSamejima(1969)の段階反応モデル(graded response model)、評定尺度モデル(rating scale model;Andrich,1978)やpartial credit model(Masters,1982)はこの種の代表的なものとされる。しかし現実問題としては分析するためのソフトウェア環境が十分整備されていないこともあってか、これらのモデルが広く一般に利用されているとは言い難い。
このような状況に鑑み、本研究では藤森(2001)の部分得点モデル(partial test score model)と段階反応モデルとの比較をシミュレーション及び質問紙データの分析結果をもとに行い、項目反応理論を利用した多値データに関する分析方法の検討を行うことにする。
多値データへ項目反応理論を適用するとしても、どのようなモデルが良いのか検討する必要がある。このためには(1)理論的側面の検討、モデル母数の再現性や能力母数の分布などの影響を検討するための(2)シミュレーションによる検討、そして現実のデータにどの程度うまくあてはまるのかという(3)実証データに基づく検討が求められるであろう。このため、本研究では(1)を1.3節で、(2)を2節で、そして(3)を3節で行うことにする。
1.1.段階反応モデル
m個の順序性を持つ段階反応を許容するSamejima(1969)の段階反応モデルを初めに説明する。ここではテストのある一つの項目だけを考えることにする。被験者の回答の各段階に対応して決まるダミー変数をuとし、ある段階より低い段階に反応したとき0、そうでないとき1となるダミー変数をxとする。能力θを持つ被験者がx=1となる確率を
Figure 2004029906
で表すとき
Figure 2004029906
Figure 2004029906
が段階反応モデルである。ただし
Figure 2004029906
Figure 2004029906
である。数式33は段階の間を確定する境界反応曲線であり、数式34は段階の反応確率を表現する段階反応曲線となる。前記の条件を満たす限り数式33の関数はどのようなものでも自由であるが、本研究では良く利用される2母数ロジスティックモデル
Figure 2004029906
を仮定する。数式35式の条件のため、aは数式38の全ての曲線に共通した母数となり識別力と呼ばれる。bは各段階の閾値に関係した母数であり困難度と呼ばれる。すなわち段階反応モデルでは項目ごとに1つの識別力と各段階の閾値に対応するm−1個の困難度母数を持っていることになる。
1.2.部分得点モデル
部分得点モデルでは部分得点をr(0〜1の範囲)とするとき母数推定のための対数尤度は次式で表される。
Figure 2004029906
ここでiは被験者、θはその特性値を表す母数、jは項目、sは2値項目換算の繰り返し数、pは2母数ロジスティックモデル、Q=1−pである。
すなわち部分得点モデルは2母数ロジスティックモデルをその基礎に置いている。また同一あるいは類似項目母数を持つ項目を被験者に対し潜在的に繰返し実施することを想定している。このときrは繰返し実施の正誤平均と考えることができる。このような部分得点モデルと繰返し実施を考えた2母数ロジスティックモデルの最尤解は一致する(類似母数の時は近似)ことが証明できる(藤森,2002a)。
1.3.理論的側面からの検討
部分得点モデルの特徴は、以下のようなものである(藤森、2002b)。
(1)項目母数は識別力と困難度で一般の利用者にも比較的理解しやすい。
(2)モデル母数の数が他の多値モデルと比較して少なく推定上の問題がない。
(3)どのような解答/回答結果でも値を0〜1の部分得点に変換すれば適用できるので応用範囲が広い。(4)質問紙の評定尺度にも容易に適用できる。(5)解答の段階数が増えても母数が増加しないので、採点結果の変更や微調整にも対応が容易である。(6)2母数ロジスティックモデルとシームレスなので識別力や困難度母数の解釈もそのまま2母数ロジスティックモデルと同様に行えるので、2値と多値の混在データなどでの運用に便利である。(7)testlet/組問などの部分得点化により2値項目からなるテストに組問が存在する場合、組問を1つの部分得点項目としてとしての運用することが可能になり、副次的にテスト全体での母数の数が減る。(8)残差得点にモデルを再適用して多次元データへの対応もできる。
(7)(8)については本研究では取り上げていないが特徴としては大きなものである。
続いて段階反応モデルの特徴は、以下のようなものである。(1)項目反応理論で多値データに対応したモデルとして著名なものである。(2)発表されてから30年以上の時間がたち応用研究も報告されている(例えば野口(1999)など)。(3)公開されている分析用ソフトウェアMULTILOGが存在する。(4)各段階反応曲線が得られるため、各段階に対する反応にまで関心を持つ場合は便利である。例えば境界反応曲線の母数を利用すれば、段階ごとの反応がθ上のどの水準で発生するのかについて予測も出来る。
両モデルを比較してみると、モデル化の考えの違いが明らかである。段階反応モデルは、モデルの母数の数が多いだけ、部分得点モデルに比較してデータとの当てはまりも良くなると考えられる。もちろんモデル母数の数が多ければ、母数の正確な推定にはデータ量が必要であるなどの問題が生じる危険性がある。逆に部分得点モデルは単純であるだけ、当てはまりは劣ると予想されるが推定値などの安定性は良いと考えられる。この点に関しては赤池情報量規準AICなどの観点が評価に必要となろう。
また段階反応モデルの(4)の点については、部分得点モデルでは、モデル上これは困難である。行うとすれば、事後的には段階ごとに被験者の分布を作成して検討することになるだろう。項目母数は所与であってもテスト実施の事前であれば、被験者の能力分布について適当なる仮定を設けて、シミュレーションを行い段階ごとに被験者の分布を作成して検討することになるだろう。いずれにしても段階反応モデルより手間がかかることになる。
このような利点がある一方で段階反応モデルは(そして今まで提案された殆どの多値モデルも)、各段階にモデル母数を置くため段階の変化に柔軟性を欠く問題がある。たとえば、能力テストで教師が採点時に20点満点である項目を、0、5、10、15、20の粗い5段階で評価していたとしたら5段階の段階反応モデルでの分析となる。しかし、もし誤字脱字などである答案を1点減点することにしたら、たちまちモデルの母数の値だけでなく、母数の数そのものが変化してしまうという問題点がある。質問紙でも評定を5段階で行っている項目を4段階にしたら、段階反応モデルでは、それまでの項目母数をそのまま利用するわけにはいかなくなってしまうのである。
以上のように、どちらのモデルも一長一短はあるのだが、各段階や評定についてはそれほどの関心を持たず、項目の全体的な特性と能力母数の推定だけに関心がある場合には、部分得点モデルで十分と思われる。
2.シミュレーションによる検討
実際のテストや質問紙において回答がどのようなメカニズムで生起しているのかは正確に知ることは出来ない。部分得点モデルと段階反応モデルのどちらがより現実に近いかは現時点で判断することは難しい。このため両モデルの比較をシミュレーションで行うにしても、データの作成にあたっては、どちらかのモデルに従ってデータを作成するべきかを決めることは困難である。あるモデルを仮定してデータを作成し、当該モデルと別のモデルで分析しても、別のモデルは良い成績を発揮することは期待できず、比較もうまく行えないだろう。このため本研究では、部分得点モデルを前提としたシミュレーションと段階反応モデルを前提としたシミュレーションの2つを行うことにした。各モデルは自己のモデルに従ったデータと他のモデルのデータの2つを分析することになる。もちろん実際のデータはこの2者以外のメカニズムによる可能性もあるわけであるが、両モデルの公平な比較を行うことはできる。すなわちデータがモデルに従っている場合は、モデルの再現性がシミュレーションによって検討でき、またデータがモデルに従っていない場合はモデルの頑健性が評価できる。
2.1.部分得点モデルを前提としたシミュレーションデータ
部分得点モデルを前提としたシミュレーションデータは、以下のようにして作成した。まず部分得点モデルの構成要素として2母数ロジスティックモデルを仮定する。この2母数ロジスティックモデルの母数の分布型を以下のように定める。識別力母数は、平均0.65、標準偏差0.25、下限0.3、上限2.0の切断正規分布、また困難度母数は、平均0、標準偏差0.5の正規分布に従うと仮定する。能力母数θは平均0、標準偏差1.0の正規分布に従うと仮定する。能力母数θを標準正規分布に従って作成し、2母数ロジスティックモデルから予想される正答確率を、範囲0〜1の一様乱数と比較し、前者が下回る場合被験者の反応を正答1、上回る場合誤答0とする。2母数ロジスティックモデルに従う、この2値データパターンを、被験者数500、項目数200として各10回繰り返し作成した(データ1〜10)。ただし5項目ずつ同一母数としている。続いて、このデータの同一母数の5項目ずつの正誤の和の平均をとり0、0.2、0.4、0.6、0.8、1.0の5段階の値をとる部分得点データとした。すなわち部分得点データは、被験者数は2値データと同様に500であるが、項目数は40となる。同様にして、前記の項目母数を所与として新たに被験者の能力母数θを500人分追加してクロスバリデーション用のデータを作成した。
2.2.段階反応モデルを前提としたシミュレーションデータ
段階反応モデルを前提としたデータは以下のようにして作成した。段階反応モデルも、その構成要素として2母数ロジスティックモデルを仮定する。またその母数の分布形も0節と同様である。またデータの段階数としては1から5の値をとる5段階を仮定する。このため、モデルより段階間の境界反応曲線は4つ必要となる。この曲線群を確定するため、まず識別力母数を1つ分布に従って発生させ、これを各境界反応曲線に共通する識別力とする。続いて4つの困難度母数を作成し、最も小さいものを選択して、段階1と2の境界反応曲線の困難度とする。以下同様にして困難度の小さなものから順にとり各境界反応曲線の困難度を決定する。これらの境界反応曲線間の差をとって各段階反応曲線とする。標準正規分布に従う能力母数θを1つ作成し、この値を固定して各段階反応曲線で予想される反応確率の区間(θを固定したときの全段階反応曲線の大きさの和は1である)に、0〜1の一様乱数が入ったとき当該反応が生じたことにする。以上の過程を500人分繰返し母数推定用のデータとした。また0節と同様に、以上で確定した項目母数を利用してクロスバリデーション用のデータを500人分作成した。
2.3.母数の推定
母数の推定は、両モデルとも項目母数と潜在特性値θの交互同時最尤推定による自作のFORTRANプログラムによった。部分得点モデル用では交互同時最尤推定だけでなく項目母数の周辺最尤推定が可能であるが、段階反応モデルの推定プログラムは交互同時最尤推定のみに対応しているため、比較の便を考慮して両モデルとも項目母数を最尤推定した(結果は省くが部分得点モデルに関しては周辺最尤推定と交互同時推定の結果に大きな差はない)。両モデルともθと困難度の推定値は−3.5〜3.5の範囲と定め、識別力の推定値の範囲は0.02〜2.0としている。
2.4.シミュレーションの結果と考察
表1は、部分得点モデルにより作成したシミュレーションデータ(以下部分得点データと呼ぶ)の能力母数の真値、正答数得点と両モデルで推定したθの推定値の相関である。ただし相関は、ケンドールの順位相関係数を求めている(以下特に明示しない場合は相関はケンドールの順位相関を指す)。一般によく利用されるピアソンの積率相関でなくて順位相関を求めたのは、項目反応理論の現実の運用場面では正答数得点などと推定値の順位の逆転現象が問題となるケースが多いためである。表1より明らかなように真のθとの相関は、いずれも部分得点モデルによる推定値の方が高いものの段階反応モデルとの差はほとんどない。これに比し、正答数との相関は、若干差が拡大し部分得点モデルによる推定値が高い相関を与えている。
なお部分得点モデルの項目母数の推定値に関しては、例えばデータセット1については識別力の平均自乗誤差(MSE)は、0.0014、困難度に関しては0.0017であり、特に問題はない精度で推定値が得られている。ちなみに、データ作成の元となったモデルとは異なるので値の良し悪しは判断できないが、段階反応モデルの識別力とのMSEは0.027、困難度は0.31となっている。ただし困難度に関しては、段階反応曲線の困難度の推定値平均によってMSEを算出している。
続いて部分得点データの推定値を利用してクロスバリデーションデータの成績を比較してみよう(表2)。クロスバリデーションにおいても様相は先と同様で、真値との相関はいずれも部分得点データがほんの僅か上回り、正答数得点に関してはややモデル間の差が拡大することが示されている。
さて段階反応モデルにより作成したシミュレーションデータ(以下段階反応データと呼ぶ)についての結果が表3である。また同データに基づき推定された項目母数をクロスバリデーションデータに適用した結果が表4である。どちらにおいても部分得点モデルに比べて段階反応モデルの方が真のθとの相関がほんのわずか高いが、大きな差ではなく、データセット1,5のように逆転しているケースも見受けられる。また全体的に真値との相関が表1及び表2に比較してやや低くなっており、段階反応モデルが部分得点モデルに比較して再現性が難しいモデルであることを示唆していると言えよう。段階反応データであるにもかかわらず、正答数得点との相関は段階反応モデルより部分得点モデルによる推定値の方が高くなっている。しかも部分得点データの場合よりその差が拡大していることが分る。合計点との順序関係の逆転は段階反応モデルに多くなっているのであるが、この逆転が生じる理由は、段階反応モデルでは項目によって評定の中間部分の段階反応曲線が相対的にかなり低くなり、他項目の回答結果によっては、当該項目の回答がθの推定に(推定誤差の大きさはともかくとして、その点推定値の決定には)殆ど影響力を持てなくなるためである。この現象は段階反応モデルだけではなく、選択肢やカテゴリーごとの反応確率曲線をモデル化する他の多値モデルにも共通するため、これらのモデルの利用の際には注意を払う必要があると考えられる。もちろん部分得点モデルも2母数ロジスティックモデルをベースとしている以上、合計点とθの逆転も一部生じざるを得ないが、その程度は低く抑えられている。
次に段階反応モデルの項目母数の推定値について検討しよう。例えばデータセット1については識別力の平均自乗誤差(MSE)は、0.2993、困難度に関しては0.0636であり、やや部分得点モデルの場合に比較して推定精度が悪いことがわかる。表5に示した項目8,15はデータセット1の中の推定成績が悪い項目であるが、いずれも真の境界反応曲線が互いに接近しすぎている場合に推定が出来なくなっていることがわかる。このような場合には、2つの境界反応曲線を1つとして処理するなどの対処が必要になると考えられるが、どのような基準で行うかなどの問題もあり本研究ではこれを行っていない。ある意味ではこのような対処を必要とすることに段階反応モデルの問題点が存在するとも言えよう。なおモデルは異なるものの部分得点モデルの識別力のMSEは0.0136となり段階反応モデルよりも良い推定値を与えている。ただし段階反応モデルの項目母数の推定に関しては周辺最尤推定では成績が改善する可能性も残されているので、ここではこれ以上取り上げず、別の研究で報告することにしたい。
以上をまとめると本研究のシミュレーションの条件下では、部分得点データ、段階反応データのいずれであっても真値との相関は、どちらのモデルを利用しても大きな差は生じていない。これに対し正答数得点との相関は明らかに部分得点モデルの方が良い成績であり、特に予期に反し段階反応データで差が大きくなっている。また項目母数の数が多い段階反応モデルで危惧されたクロスバリデーションデータでの不適合は生じていない(ただし母数推定上の問題は残る)。これは一つには、本研究が特にノイズをのせていない単純なシミュレーションであることも影響しているかもしれない。
3.質問紙データによる検討
3.1.質問紙データ及び母数の推定
本研究で分析の対象としたデータは、O県の青少年基本調査の中高生1849人のデータで、教師と生徒の心理的距離について調べた9項目尺度である(表6)。各項目は「1.よくあてはまる」から「4.まったくあてはまらない」の4段階で評定を求めるものであるが、9項目とも回答は値が小さいほど心理的距離が小さくなるように処理されている。部分得点モデルでは、このデータを0〜1の部分得点として処理するために、各回答結果をxとするときr=(x−1)/3と変換して「0,1/3,2/3,1」の4段階をとる部分得点データとした。また推定方法はシミュレーションと同様の方法である。なお本調査の詳細については木原ら(1997)参照されたい。
3.2.質問紙データの結果と考察
段階反応モデルの識別力は部分得点モデルより全体的に高くなっている(表7)。これと類似の現象はデータを2値化して通常の2母数ロジスティックモデルで分析した場合にも生じる。たとえば4段階評定の場合、2値化は実質的には段階2を1に、段階3を4に置き換えるために生じる現象である。表7の「2値モデル」はこのようなデータ変換をした結果である。部分得点モデルに比較してやや識別力が高くなっていることが分る。このような現象が発生することは、図1の項目4の群別の平均回答結果を4値と2値の場合で比較してみると良く理解できる。ただし図の作成にあたっては、4値2値いずれの場合も全ての回答を0〜1の範囲に変換している。多値データの2値化が識別力の推定値に大きな影響を与えることが図より理解できる。さて境界反応曲線が実質的には多値の回答を2値化して得られるデータに基づき定義され、推定されるため、この2値化と類似の現象が生じている可能性もある。しかしシミュレーションの結果では、部分得点モデルの識別力と段階反応モデルの識別力の推定値は大きく異なっていなかったのだから、2値化を原因とすることにはやや疑問も残る。
もう一つの可能性として、テスト項目数の違いがある。シミュレーションでは40項目であったが、本質問紙は9項目であり、この違いが影響した可能性がある。このため1つシミュレーションを追加した。段階反応データのデータセット1の初めの10項目だけをとり、段階反応モデルにより交互同時推定値を求めたところ、識別力の値は表8のようになった。明らかに項目数が少なくなると識別力が大きくなる傾向があることが分る(MSE=0.2647)。段階反応モデルでは少数項目での識別力の推定にバイアスがかかることは明らかとしても、その原因がモデルに存在するのか、それとも推定方法に問題があるのかは区別されなければならない。つまり段階反応モデルそのものではなくて、同時最尤推定という方法が推定に悪影響を及ぼしている可能性もある(同時最尤推定による項目母数の推定値が一致性を持たないことは良く知られている)。このため、MULTILOG(Thissen,1991)により周辺最尤推定値も算出したが、バイアスはほとんど変わらない(MSE=0.2558)。このことは推定法の問題というよりはモデルに問題があることを示唆するものであるかもしれない。なお表8からは項目7は一見すると同時最尤推定の識別力が極端に低く、反対にMULTILOGの推定値は妥当な値を得ているようであるが、実はMULTILOGは困難度において異常な推定値となっており、うまく推定できていないことには変わりは無い。このためMSEの計算からは同項目を除外している。
部分得点データセット1の10項目を利用した部分得点モデルの分析では交互同時推定のMSEは、識別力が0.0094、困難度が0.0007であり、周辺最尤推定では識別力が0.0032、困難度が0.0014となった(表9)。同モデルでは交互同時推定、周辺最尤推定ともこのバイアスは認められないといって良いだろう。表10には質問紙データを両モデルで分析し、周辺最尤推定を利用した推定値を示してある。同じく表10より、シミュレーションと同様に、周辺最尤推定を利用しても段階反応モデルでは識別力が大きくなっていることが分る。
段階反応モデルにおいて少数項目では識別力の上方バイアスがかかることについては、慎重な検討を要するので、これについては別の研究で行うこととし、ここでは表7の同時最尤推定の結果に基づいて検討を進める。図2に項目1の部分得点モデルの項目反応曲線を、また図3に段階反応モデルの反応曲線を示した。評定結果の合計点と両モデルのθのケンドールの順位相関を求めたところ段階反応モデルとは0.9104、部分得点モデルとは0.9424の相関を得た(無回答の無いケース1588人のみで算出した。)。部分得点モデルの方が、合計点との相関がやや高く、その再現には適していることはシミュレーションの結果と一致している。相関の値は段階反応データのシミュレーション結果から得られた両モデルの相関と近いものとなっているが、これだけで本データは段階反応モデルに従って発生していると決めるわけには行かないだろう。その理由としては、たとえばシミュレーションデータの作成の際に多次元性などの影響を加味すれば、真値と推定値の相関だけでなく正答数(質問紙の場合は合計点)との相関も低下すると容易に予想できることなどがあげられるからである。
本節のデータは実際の調査であるため真値は不明であるからどちらのモデルが良いかを決定することは困難である。しかし段階反応モデルにおいて合計点との相関が低いことは、順位の逆転が十分説明がつくようなものであれば良いのであるが、一見で分るような性格のものではないため、モデルの利用者には逆転現象を納得しにくいということは利用の際には考慮しておいた方が良い。いずれにしろシミュレーションの結果からは、(シミュレーションの条件に近い場合は)真のθ値の推定という点では大きな差は両モデルでないことが想像される。しかし、少数項目の場合の段階反応モデルの推定値のバイアスがどのような影響をもたらすのかは、もう少し検討する必要があるだろう。いずれにしろ項目特性として識別力や項目困難度以外に大きな関心がない場合、つまり回答の各段階の困難度などに特別な関心がない場合(質問紙を利用した多くの研究はこれに該当する)には、複雑で多くの母数を推定しなければならない段階反応モデルより簡単な部分得点モデルの方が適していると言えるだろう。もちろん、個々の段階の反応にまで関心を持つ場合はこの限りではない。
文献
Andrich,D 1978 A rating formulation for ordered response categories.Psychometrika,43,561−573.
Birnmaum,A.1968 Some latent trait models and their use in inferring an examinee’s ability.In F.M.Lord & M.R.Novick(Eds.),Statistical theories of mental test scores(pp.395−479).Reading,MA:Addison−Wesley.
木原孝博・田中治彦・藤森進 1997 中学生・高校生の学校不適応に関する研究 岡山県青少年基本調査(1994)に基づく分析 岡山大学教育学部研究集録,104,105−122.
藤森進 2001 項目反応理論における部分得点の処理について 日本教育心理学会第43回総会発表論文集,394.
藤森進 2002a 項目反応理論におけるテストの部分得点の処理方法について未発表論文.
藤森進 2002b 部分得点モデルとその応用 第1回心理測定研究会.
Masters,G.N.1982 A Rasch model for partial credit scoring.Psychometrika,47,149−174.
野口裕之 1999 適応型テストへの応用:CAT方式による識別性検査(渡辺直登・野口裕之編著「組織心理測定論」第8章 白桃書房).
Samejima,F.1969 Estimation of latent ability using a response pattern of graded scores.Psychometrika Monograph,No.17.
Thissen,D 1991 Multilog user’s guide.Chicago,IL:Scientific Software.

Claims (9)

  1. 入力装置と出力装置とを備えた第1のコンピュータと、インターネットを含むネットワークを介して前記第1のコンピュータと接続されており入力装置と出力装置とを備えた第2のコンピュータと、前記ネットワークを介して前記第1及び第2のコンピュータと接続されたテスト管理サーバと、前記テスト管理サーバからアクセス可能であって難易度と識別力とを含む項目パラメータが予め推定されている複数の問題が記憶された問題データベースとによって構成され、1人の受験者にn問の問題を出題し、出題されたn問の問題に対する前記受験者の反応から前記受験者の能力θを推定するテスト・システムであって、
    前記テスト管理サーバは、
    前記第1のコンピュータから送信されたリクエストに応答して、1≦j≦nである問題jに対し満点を1として0≦r≦1である部分得点rを許容する態様で採点されうるn問の問題を前記問題データベースから選択し前記第1のコンピュータに送信する手段と、
    前記問題データベースから選択され前記第1のコンピュータに送信された問題に対して前記第1のコンピュータから返送された解答を記憶する解答記憶手段と、
    前記第2のコンピュータから送信されたリクエストに応答して、前記解答記憶手段に記憶されている解答を読み出し前記第2のコンピュータに送信する手段と、
    前記第2のコンピュータに送信された解答に対して与えられた部分得点rを前記第2のコンピュータから受信し記憶する部分得点記憶手段と、
    前記部分得点記憶手段に記憶されている部分得点rと前記問題データベースに記憶されている問題jの項目パラメータとを用いて、当該部分得点rを獲得した受験者の能力θを推定する能力推定手段と、
    を備えており、
    前記能力推定手段において、P(θ)は、部分得点rを問題jに固有であって前記受験者が正答1又は誤答0のいずれか一方の潜在的反応を取り得る潜在的問題をs回繰り返し実施したときに前記受験者が潜在的に取りうる正誤反応の平均であると想定した場合に、前記受験者が前記潜在的問題に正答する確率であり、Q(θ)は1−P(θ)である場合に、
    Figure 2004029906
    によって表される対数尤度lpart(θ)を用いて受験者の能力θが推定されることを特徴とするテスト・システム。
  2. 請求項1記載のテスト・システムにおいて、前記P(θ)は、2パラメータ・ロジスティック・モデルを用いて、
    Figure 2004029906
    と表現され、この数式41におけるa及びbはそれぞれが前記問題データベースに記憶されている問題が有する固有の特性である識別力と困難度とであり、Dは1.7という定数であることを特徴とするテスト・システム。
  3. 請求項2記載のテスト・システムにおいて、実際に観測される問題jに対する部分得点rが顕在的な複数の正誤問題の平均によって構成されている場合にも、これらの正誤問題に共通する正答確率を数式41で表現し、数式40を用いて受験者の能力θが推定されることを特徴とするテスト・システム。
  4. 請求項1ないし請求項3の任意の請求項に記載のテスト・システムにおいて、テストが実施された集団の能力分布を仮定した上で、s回の正誤の和である2項分布と仮定された能力分布との積を能力の次元で積分して部分得点の理論的な分布関数を求め、求められた理論的な分布関数と実際のデータの部分得点の経験的な分布関数が最もよく一致するように、潜在的な問題の繰り返し回数であるsを推定する手段を更に備えていることを特徴とするテストシステム。
  5. 請求項1ないし請求項4の任意の請求項に記載のテスト・システムにおいて、前記第1及び第2のコンピュータにおける前記出力装置と前記入力装置とはそれぞれ音声出力装置と音声入力装置とを含み、前記テストサーバに送信され記憶される解答は音声データを含むことを特徴とするテスト・システム。
  6. 入力装置と出力装置とを備えた第1のコンピュータと、インターネットを含むネットワークを介して前記第1のコンピュータと接続されており入力装置と出力装置とを備えた第2のコンピュータと、前記ネットワークを介して前記第1及び第2のコンピュータと接続されたテスト管理サーバと、前記テスト管理サーバからアクセス可能であって難易度と識別力とを含む項目パラメータが予め推定されている複数の問題が記憶された問題データベースとによって構成され、1人の受験者にn問の問題を出題し、出題されたn問の問題に対する前記受験者の反応から前記受験者の能力θを推定するテスト・システムを制御する方法であって、
    前記テスト管理サーバにおいて、
    (1)前記第1のコンピュータから送信されたリクエストに応答して、1≦j≦nである問題jに対し満点を1として0≦r≦1である部分得点rを許容する態様で採点されうるn問の問題を前記問題データベースから選択し前記第1のコンピュータに送信するステップと、
    (2)前記問題データベースから選択され前記第1のコンピュータに送信された問題に対して前記第1のコンピュータから返送された解答を記憶するステップと、
    (3)前記第2のコンピュータから送信されたリクエストに応答して、前記ステップ(2)において記憶された解答を読み出し前記第2のコンピュータに送信する手段と、
    (4)前記第2のコンピュータに送信された解答に対して与えられた部分得点rを前記第2のコンピュータから受信し記憶するステップと、
    (5)前記ステップ(4)において記憶された部分得点rと前記問題データベースに記憶されている問題jの項目パラメータとを用いて、当該部分得点rを獲得した受験者の能力θを推定するステップと、
    を含んでおり、
    前記ステップ(5)において、P(θ)は、部分得点rを問題jに固有であって前記受験者が正答1又は誤答0のいずれか一方の潜在的反応を取り得る潜在的問題をs回繰り返し実施したときに前記受験者が潜在的に取りうる正誤反応の平均であると想定した場合に、前記受験者が前記潜在的問題に正答する確率であり、Q(θ)は1−P(θ)である場合に、
    Figure 2004029906
    によって表される対数尤度lpart(θ)を用いて受験者の能力θが推定されることを特徴とするテスト・システム制御方法。
  7. 請求項6記載の方法において、前記P(θ)は、2パラメータ・ロジスティック・モデルを用いて、
    Figure 2004029906
    と表現され、この数式43におけるa及びbはそれぞれが前記問題データベースに記憶されている問題が有する固有の特性である識別力と困難度とであり、Dは1.7という定数であることを特徴とする方法。
  8. 請求項7記載の方法において、実際に観測される問題jに対する部分得点rが顕在的な複数の正誤問題の平均によって構成されている場合にも、これらの正誤問題に共通する正答確率を数式43で表現し、数式42を用いて受験者の能力θが推定されることを特徴とする方法。
  9. 請求項6ないし請求項8記載の方法において、
    (6)テストが実施された集団の能力分布を仮定した上で、s回の正誤の和である2項分布と仮定された能力分布との積を能力の次元で積分して部分得点の理論的な分布関数を求め、求められた理論的な分布関数と実際のデータの部分得点の経験的な分布関数が最もよく一致するように、潜在的な問題の繰り返し回数である
JP2004539533A 2002-09-25 2003-09-25 テスト・システム及びその制御方法 Expired - Lifetime JP3645901B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2002279513 2002-09-25
JP2002279513 2002-09-25
PCT/JP2003/012252 WO2004029906A1 (ja) 2002-09-25 2003-09-25 テスト・システム及びその制御方法

Publications (2)

Publication Number Publication Date
JP3645901B2 JP3645901B2 (ja) 2005-05-11
JPWO2004029906A1 true JPWO2004029906A1 (ja) 2006-01-26

Family

ID=32040459

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004539533A Expired - Lifetime JP3645901B2 (ja) 2002-09-25 2003-09-25 テスト・システム及びその制御方法

Country Status (7)

Country Link
US (1) US7103508B2 (ja)
JP (1) JP3645901B2 (ja)
KR (1) KR100747141B1 (ja)
CN (1) CN1578972A (ja)
AU (1) AU2003266616A1 (ja)
GB (1) GB2409314A (ja)
WO (1) WO2004029906A1 (ja)

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4872214B2 (ja) * 2005-01-19 2012-02-08 富士ゼロックス株式会社 自動採点装置
JP4628121B2 (ja) * 2005-02-02 2011-02-09 株式会社ワオ・コーポレーション 情報処理装置およびプログラム
US20070111182A1 (en) * 2005-10-26 2007-05-17 International Business Machines Corporation Method and system for distributing answers
JP2007279306A (ja) * 2006-04-05 2007-10-25 Nagaoka Univ Of Technology 項目応答理論におけるパラメータ推定方法
US20080046232A1 (en) * 2006-08-18 2008-02-21 Jan Groppe Method and System for E-tol English language test online
JP5029090B2 (ja) * 2007-03-26 2012-09-19 Kddi株式会社 能力推定システムおよび方法ならびにプログラムおよび記録媒体
US8376755B2 (en) * 2008-05-09 2013-02-19 Location Inc. Group Corporation System for the normalization of school performance statistics
JP5609193B2 (ja) * 2010-03-19 2014-10-22 富士通株式会社 試験プログラム、試験装置、および試験方法
US8761658B2 (en) * 2011-01-31 2014-06-24 FastTrack Technologies Inc. System and method for a computerized learning system
US20120329029A1 (en) * 2011-06-23 2012-12-27 Rauta Mihai Catalin Computer implemented teaching method and apparatus
US20130157245A1 (en) * 2011-12-15 2013-06-20 Microsoft Corporation Adaptively presenting content based on user knowledge
KR101311036B1 (ko) * 2012-02-09 2013-09-24 이언주 라쉬 모형과 순차적 확률비 검증법을 이용한 유비티 시스템
KR101616909B1 (ko) * 2012-10-31 2016-04-29 에스케이텔레콤 주식회사 자동 채점 장치 및 방법
TWI485668B (zh) * 2013-01-24 2015-05-21 Univ Fooyin 拼字學習電腦程式、內儲程式之電腦可讀取記錄媒體及內儲程式之可攜式電子裝置
US20140295400A1 (en) * 2013-03-27 2014-10-02 Educational Testing Service Systems and Methods for Assessing Conversation Aptitude
CN105556564A (zh) * 2013-07-16 2016-05-04 株式会社倍乐生 便携式信息处理装置、考试辅助系统以及考试辅助方法
US20160163226A1 (en) * 2013-07-19 2016-06-09 Benesse Corporation Information processing device, information processing method, and program
US10706734B2 (en) * 2013-12-06 2020-07-07 Act, Inc. Methods for improving test efficiency and accuracy in a computer adaptive test (CAT)
CN103942993B (zh) * 2014-03-17 2016-05-18 深圳市承儒科技有限公司 一种基于irt的自适应在线测评系统及其方法
US20150279226A1 (en) * 2014-03-27 2015-10-01 MyCognition Limited Adaptive cognitive skills assessment and training
JP6247628B2 (ja) * 2014-12-09 2017-12-13 株式会社日立製作所 学習管理システムおよび学習管理方法
CN104505089B (zh) * 2014-12-17 2018-05-18 福建网龙计算机网络信息技术有限公司 口语纠错方法及设备
JP5904651B1 (ja) * 2014-12-25 2016-04-13 学校法人産業能率大学 維持管理指標算出装置及び維持管理指標算出方法
US10699271B2 (en) * 2015-01-31 2020-06-30 Usa Life Nutrition Llc Method and apparatus for advancing through a deck of digital flashcards
EP3278319A4 (en) * 2015-04-03 2018-08-29 Kaplan Inc. System and method for adaptive assessment and training
EP3324254A1 (de) * 2016-11-17 2018-05-23 Siemens Aktiengesellschaft Einrichtung und verfahren zur bestimmung der parameter einer regeleinrichtung
CN106682768B (zh) * 2016-12-08 2018-05-08 北京粉笔蓝天科技有限公司 一种答题分数的预测方法、系统、终端及服务器
CN108921434B (zh) * 2018-07-04 2020-08-14 北京希子教育科技有限公司 一种通过人机交互完成用户能力预测的方法
WO2020065663A1 (en) * 2018-09-25 2020-04-02 Merittrac Services Pvt. Ltd Methods and systems for partial credit model (pcm) scoring in classical test theory (ctt)
KR102015075B1 (ko) * 2018-10-16 2019-08-27 (주)뤼이드 학습 효율을 기반으로 개인 맞춤형 교육 컨텐츠를 제공하기 위한 기계학습 방법, 장치 및 컴퓨터 프로그램
US11102530B2 (en) 2019-08-26 2021-08-24 Pluralsight Llc Adaptive processing and content control system
US11295059B2 (en) 2019-08-26 2022-04-05 Pluralsight Llc Adaptive processing and content control system
US20210343175A1 (en) * 2020-05-04 2021-11-04 Pearson Education, Inc. Systems and methods for adaptive assessment
JP7545723B2 (ja) 2020-11-20 2024-09-05 一般社団法人教職英語検定協会 外国語能力検定実施システム、外国語能力検定実施方法、及び外国語能力検定実施用のコンピュータプログラム
JP7371644B2 (ja) * 2021-02-01 2023-10-31 カシオ計算機株式会社 発音トレーニングプログラム及び端末装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001056634A (ja) * 1999-08-20 2001-02-27 Toshiba Corp 自動採点システム
JP2002006734A (ja) * 2000-06-26 2002-01-11 Society For Testing English Proficiency Inc コンピュータ適応型検定試験の方法及びシステム
JP3687785B2 (ja) * 2001-08-15 2005-08-24 株式会社日本統計事務センター 採点処理方法および採点処理システム

Also Published As

Publication number Publication date
CN1578972A (zh) 2005-02-09
GB2409314A (en) 2005-06-22
GB0507837D0 (en) 2005-05-25
KR20050042743A (ko) 2005-05-10
US20050256663A1 (en) 2005-11-17
WO2004029906A1 (ja) 2004-04-08
AU2003266616A1 (en) 2004-04-19
JP3645901B2 (ja) 2005-05-11
KR100747141B1 (ko) 2007-08-07
US7103508B2 (en) 2006-09-05

Similar Documents

Publication Publication Date Title
JP3645901B2 (ja) テスト・システム及びその制御方法
Knoch Diagnostic writing assessment: The development and validation of a rating scale
Rupp et al. Combining multiple regression and CART to understand difficulty in second language reading and listening comprehension test items
Foorman et al. Latent profiles of reading and language and their association with standardized reading outcomes in kindergarten through tenth grade
Troia et al. Multidimensional levels of language writing measures in grades four to six
Paus et al. Learning through online peer discourse: Structural equation modeling points to the role of discourse activities in individual understanding
Ünaldı Self and teacher assessment as predictors of proficiency levels of Turkish EFL learners
Feenstra Assessing writing ability in primary education: on the evaluation of text quality and text complexity
Foorman et al. Florida Assessments for Instruction in Reading, Aligned to the Language Arts Florida Standards, FAIR-FS, Grades 3 through 12. Technical Manual.
Herman et al. The Implementation and Effects of the Literacy Design Collaborative (LDC): Early Findings in Sixth-Grade Advanced Reading Courses. CRESST Report 846.
Grenier et al. Learning literacy in Canada: Evidence from the international survey of reading skills
Estaji et al. A study of Test-Taking strategies of Iranian IELTS repeaters: Any change in the strategy use?
Yang A many-facet Rasch analysis of rater effects on an Oral English Proficiency Test
Meadows et al. Standards in GCSEs in Wales: approaches to defining standards
Acquavita A longitudinal exploration of the relationship between oral reading fluency and reading comprehension achievement among a sample of diverse young learners
Liu Investigating the relationships between a reading test and can-do statements of performance on reading tasks
Spencer A Study of the Effect of Actively Learn on Secondary Reading Engagement, Reading Comprehension, and Vocabulary
Vu Predictive modeling of human placement decisions in an English Writing Placement Test
Kaya A Comparability and Classification Analysis of Computerized Adaptive And Conventional Paper-Based Versions of an English Language Proficiency Reading Subtest
Prukalski Teachers’ Perceptions Of The Purpose Of Traditional Grading And The Influence Of Established School Or District Grading Cultures, Guidelines, And Policies In Connecticut Public Middle Schools
Hustedt et al. Continued impacts of New Mexico PreK on children’s readiness for kindergarten
Leite Early Identification of Literacy Deficit and Teachers’ Perception of a Literacy Intervention
Mauck The Development of the Fundamental Concepts in Applied Statistics Test and Validation of Its Use
Kaminski et al. Technical Adequacy of Acadience Reading Pre-K: PELI®
Haridas Exploring the Use of Metacognitive Strategies to Enhance Reading Comprehension in Young Learners

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20050201

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20050204

R150 Certificate of patent or registration of utility model

Ref document number: 3645901

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090210

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 5

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 5

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 5

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313115

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110210

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110210

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120210

Year of fee payment: 7

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130210

Year of fee payment: 8

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 9

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313117

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term