JPWO2004029906A1

JPWO2004029906A1 - テスト・システム及びその制御方法

Info

Publication number: JPWO2004029906A1
Application number: JP2004539533A
Authority: JP
Inventors: 仁司山下; 進藤森
Original assignee: Benesse Corp
Current assignee: Benesse Corp
Priority date: 2002-09-25
Filing date: 2003-09-25
Publication date: 2006-01-26
Anticipated expiration: 2023-09-25
Also published as: US7103508B2; GB2409314A; GB0507837D0; KR100747141B1; US20050256663A1; AU2003266616A1; KR20050042743A; JP3645901B2; CN1578972A; WO2004029906A1

Abstract

本発明によると、英語能力テストなどにおいて正誤の２値的な評価だけでなく部分得点を与える採点を可能にするテスト・システムが提供される。このテスト・システムでは、入出力装置（２０７、２０８）を含むコンピュータ（１０１、１０２）とインターネットなどのネットワーク（１０３）とが利用され、項目パラメータ及び能力の推定に従来の項目反応理論を修正した部分得点モデルが用いられる。この部分得点モデルでは、部分得点を、同一のパラメータを有する複数の項目の正誤の平均として構成されるものと想定している。本発明のテスト・システムを用いることにより、外国語テストにおけるライティングやスピーキングのように正誤だけでは判定困難であって部分得点を要するような出題形式のテストの制御が、従来よりも容易になる。

Description

本発明は、テスト・システム及びその制御方法に関する。更に詳しくは、本発明は、従来型の項目反応理論を修正した部分得点モデルに依拠し、採点の際に単なる正誤の２値だけでなく複数の段階を有する部分得点としての評価も許容するテストを従来よりも簡略化された態様で設計、実施及び評価するテスト・システム及びその制御方法に関する。

今日、テストを設計しその結果を処理する際に用いられる理論として、古典的テスト理論と項目反応理論との２つが広く知られている。これらのテスト理論に関しては、例えば、渡部洋編著『心理統計の技法』（福村出版、２００２年）の６章及び７章にそれぞれ一般的な解説が与えられている。なお、テスト理論におけるテストとは、学力テストだけでなく、心理学における性格検査や臨床検査なども含むのであるが、この出願では、そのような広い応用分野を視野に入れた抽象的な説明を行うのではなく、理解を容易にするために、特に外国語試験などの学力テストを念頭において具体的な説明を試みたい。なお、項目反応理論における「項目」とは、学力テストの場合であれば問題を意味する。従って、この出願で具体例に即した説明する際には、「項目」ではなく「問題」、「被験者」ではなく「受験者」など、学力テストにおける一般的な用語を用いる。しかし、本発明は、一般のテスト理論に関する汎用的なものであって、学力テストだけに限定されることはなく、テスト理論が一般的に適用される上記の分野にも適用が可能である。
古典的テスト理論は、現在広く用いられているが、得られる結論が受験者の特性の統計的な分布に依存するという特徴を有する。従って、古典的テスト理論に依拠している場合には、特性が異なる受験者の集団に対して実施された複数のテストで得られた平均点や偏差値を比較することは、適切でない。
古典的テスト理論の短所を克服する理論として項目反応理論があり、現在では、この項目反応理論に基づいて設計され結果が処理される学力テストが多く存在する。例えば、最近出版された項目応答理論の教科書である豊田秀樹著『項目反応理論入門編』（朝倉書店、２００２年）の第１６頁には次のような記述がある。「有名な語学試験であるＴＯＥＦＬ…は１年間に何度も実施される。しかも世界中で実施される。同一の被験者が再受験する可能性があるから同じ項目の集まりである同一のテストは２度と使用できない。このため平均点や通過率は、テストごとにそれぞれ異なる。地域によって英語力にも差があるから特性値の分布も異なる。したがって、偏差値や正規得点や経験分布関数を使用して、受験結果を異なるテスト間で比較することは不可能である。…ＴＯＥＦＬの点（たとえば、５００点、６５０点など）は、どこで受験したか、いつ受験したか、どの問題を解いたかに関係なく留学の可否の判断に利用される。つまり異質な受験者が、異なる項目を、異なる日時に、異なる場所で受験したにも関わらず、被験者は、統一された処遇を受けることができる。この処遇を可能にするテストを継続的に、前向きに運用するシステムを構築する数理モデルが、…項目反応モデルである。」
また、特開２００２−００６７３４号公報には、出題が予定される試験問題を予め樹状に配置しておき、受験者による解答の正否に応じて樹状に配置された経路に沿って問題を順に出題し、単に正解の数だけでなく、どのような経路で最終地点まで到達したかという途中経過を考慮して受験者の能力を推定するテストの方法及びシステムが開示されている。この公開特許公報にも、項目反応理論への言及が見られる。
しかし、従来型の理論に基づく項目反応モデルでは、２値によって採点が可能な○×式の解答以外の、例えば、１と０との間の部分点を許容せざるを得ないような形式の問題の処理が容易ではなかった。段階反応モデルなど、多値の結果も扱えるように構築された方法も古くから存在してはいるが、従来の方法は後述する短所を有している。従って、部分得点を許容しなければ的確な採点が困難な英作文やスピーチなどは、コンピュータ適応型テスト（ＣＡＴ）に含まれないことが通常である。例えば、上述の特開２００２−００６７３４号公報に開示されている発明では、項目反応理論の利用が明言され、出題されるべき問題が予め樹状に配置されているが、受験者がある問題に正解したら右下、誤答したら左下に配置された問題に移動するというように、解答が正誤のいずれかの２値であることが予定されている。

本発明は、このような従来型の２値の解答を予想するＣＡＴとは異なり、部分得点を与えるような採点を許容するテスト・システムであって、しかも、従来の段階反応モデル等の複雑なモデルよりもはるかに容易に部分得点の処理を可能にするテスト・システム及びその制御方法を提供することを目的とする。
本発明によると、入力装置と出力装置とを備えた第１のコンピュータと、インターネットを含むネットワークを介して前記第１のコンピュータと接続されており入力装置と出力装置とを備えた第２のコンピュータと、前記ネットワークを介して前記第１及び第２のコンピュータと接続されたテスト管理サーバと、前記テスト管理サーバからアクセス可能であって難易度と識別力とを含む項目パラメータが予め推定されている複数の問題が記憶された問題データベースとによって構成され、１人の受験者にｎ問の問題を出題し、出題されたｎ問の問題に対する前記受験者の反応から前記受験者の能力θを推定するテスト・システムが提供される。前記テスト管理サーバは、（１）前記第１のコンピュータから送信されたリクエストに応答して、１≦ｊ≦ｎである問題ｊに対し満点を１として０≦ｒ_ｊ≦１である部分得点ｒ_ｊを許容する態様で採点されうるｎ問の問題を前記問題データベースから選択し前記第１のコンピュータに送信する手段と、（２）前記問題データベースから選択され前記第１のコンピュータに送信された問題に対して前記第１のコンピュータから返送された解答を記憶する解答記憶手段と、（３）前記第２のコンピュータから送信されたリクエストに応答して、前記解答記憶手段に記憶されている解答を読み出し前記第２のコンピュータに送信する手段と、（４）前記第２のコンピュータに送信された解答に対して与えられた部分得点ｒ_ｊを前記第２のコンピュータから受信し記憶する部分得点記憶手段と、（５）前記部分得点記憶手段に記憶されている部分得点ｒ_ｊと前記問題データベースに記憶されている問題ｊの項目パラメータとを用いて、当該部分得点ｒ_ｊを獲得した受験者の能力θを推定する能力推定手段とを備えている。そして、（５）の前記能力推定手段においては、Ｐ_ｊ（θ）は、部分得点ｒ_ｊを問題ｊに固有であって前記受験者が正答１又は誤答０のいずれか一方の潜在的反応を取り得る潜在的問題をｓ_ｊ回繰り返し実施したときに前記受験者が潜在的に取りうる正誤反応の平均であると想定した場合に、前記受験者が前記潜在的問題に正答する確率であり、

と表現され、この数式１におけるａ_ｊ及びｂ_ｊはそれぞれが前記問題データベースに記憶されている問題が有する固有の特性である識別力と困難度とであり、Ｄは１．７という定数であり、Ｑ_ｊ（θ）は１−Ｐ_ｊ（θ）である場合に、

によって表される対数尤度ｌ_ｐａｒｔ（θ）を用いて受験者の能力θが推定される。ただし、上記の数式１として表現されているＰ_ｊ（θ）の関数形は単なる例示であり、Ｐ_ｊ（θ）がこの表現形式に限定されることは必要なく、様々な形式でありうる。
ここで注意すべきは、観測可能なものは、受験者が問題ｊに対して獲得する０から１までの間の値を取りうる部分得点ｒ_ｊであり、潜在的問題に対する受験者の潜在的な反応は観測できないという点である。
更に、本発明によるテスト・システムによれば、実際に観測される問題ｊに対する部分得点ｒ_ｊが顕在的な複数の正誤問題の平均によって構成されている場合にも、これらの正誤問題の正答確率の平均を数式１で表現し、数式２を用いて受験者の能力θを推定することが可能である。
更に、本発明によるテスト・システムによれば、テストが実施された集団の能力分布を仮定した上で、ｓ_ｊ回の正誤の和である２項分布と仮定された能力分布との積を能力の次元で積分して部分得点の理論的な分布関数を求め、求められた理論的な分布関数と実際のデータの部分得点の経験的な分布関数が最もよく一致するように、潜在的な問題の繰り返し回数であるｓ_ｊを推定することも可能である。
更に、本発明によるテスト・システムにおいて、前記第１及び第２のコンピュータにおける前記出力装置と前記入力装置とがそれぞれ音声出力装置と音声入力装置とを含む場合には、前記テストサーバに送信され記憶される解答として音声データを含ませることも可能である。この場合には、第１のコンピュータにおいてリスニングの問題を出題したり、受験者に実際に発話させた内容を採点対象とするスピーキングの問題も出題可能となる。
なお、本発明は、上述のテスト・システムを制御する方法としても実現することができる。更に、本発明は、そのようなテスト・システム制御方法を実装するコンピュータ・プログラムが記憶されているコンピュータ可読な記憶媒体自体として存在することもありうる。更には、そのようなテスト・システム制御方法を実行するコンピュータ・プログラム自体としても存在しうる。

図１は、本発明によるテスト・システムの一例の概要である。
図２は、本発明によるテスト・システムを構成する受験者ユニットの概要である。
図３は、本発明によるテスト・システムを構成する採点者ユニットの概要である。
図４は、本発明によるシステムを用いたテスト実施の概要を示す流れ図であり、特に、本発明が依拠する部分得点に関係するライティング及びスピーキングに関する受験及び採点のプロセスが示されている。
図５は、本発明によるテスト・システムを用いた能力推定の有効性を確認するために実施された被験者１２名によるスコア安定性確認調査の結果を示すグラフである。
図６は、図６ａから図６ｇで構成され、それぞれが、図５のスコア安定性確認調査における被験者１２名のスコアを示すグラフである。
図７は、図７ａから図７ｄで構成され、繰り返し数ｓ_ｊを推定する際に、真のｓ＝５、１０、２０、４０の場合に、推定された経験分布と理論分布との分布関数の差の最大値（コルゴモロフ・スミルノフ検定の統計量）を繰り返し数３〜１０についてプロットしたものである。
図８は、図８ａ及び図８ｂで構成され、それぞれが、英語能力テストでの繰り返し回数ｓ_ｊの推定への適用例である。

本発明の基礎として用いる部分得点モデルについて述べる前に、一般的な２値の項目反応モデルについて簡単に説明する。２値とは、解答が正答又は誤答の２つの値だけを取るという意味である。このモデルでは、受験者が問題に正答する確率を、受験者の能力を表すパラメータと問題を特徴付けるパラメータとを用いて表現する。例えば、本発明では、各問題を２つのパラメータ（識別力ａ及び困難度ｂ）によって特徴付ける２母数（パラメータ）ロジスティック・モデルを用いるのであるが、この場合、能力θを有する受験者ｉが問題ｊに正答する確率は次のように書くことができる。

ここで、ｘは、受験者ｉが問題ｊに正答するならば１であり、誤答するならば０であるダミー変数である。また、Ｄは定数である。この場合に、ｎ問の問題を終了した時点での受験者の能力θの尤度Ｌ_Ｂ（θ）は、次のように書くことができる。

ここで、Ｐ（θ）は数式３の右辺の正答確率であり、Ｑ（θ）は誤答確率つまり１−Ｐ（θ）である。項目応答理論では、数式４の尤度Ｌ_Ｂ（θ）の最大値を与えるθの値を受験者の能力パラメータの推定値とする最尤推定法が知られ、広く用いられている。ただし、数式４の右辺は積の形式で書かれており最大値を求めるのが容易でないので、和の形式に直して考察するため、両辺の自然対数を取った対数尤度ｌｎ（Ｌ_Ｂ（θ））の最大値を求めるのが一般的である。これは、自然対数は単調増加関数であって、尤度Ｌ_Ｂ（θ）の最大値を与えるθとその自然対数ｌｎ（Ｌ_Ｂ（θ））の最大値を与えるθとが一致するからである。
以上が、従来から公知である一般的な２母数ロジスティック・モデルであるが、本発明において用いる部分得点モデルでは、問題への反応（解答）の評価が正誤という２値にとどまらず、部分点として評価されることが可能となる。具体的には、数式４のダミー変数ｘ_ｊが１及び０の２値だけでなく、０から１までの３つ以上の複数の値（例えば、０、０．２、０．４、０．６、０．８、１の６つの値）を取ることを許容する。受験者ｉの問題ｊに対する部分得点をｒ_ｉｊとすると、部分得点に対応する尤度は、次のように表すことができる。

具体的な外国語試験、例えば英語の試験を考えると、正誤問題や多肢選択式問題であれば、正答及び誤答の２値として処理できる。しかし、英作文や英語での発話（質問に対する口頭での応答）は単純な正答又は誤答として評価するのは困難であり、部分点を与えることによって評価することが必要となる。従って、従来型の２値の項目応答モデルを用いることはできない。しかし、数式５によれば、任意の形式を有するテストの採点結果を部分得点に変換して分析用のデータとすることができる。
数式５の意味を解釈するために、同一の問題パラメータを有するｓ_ｊ個の問題が同じ受験者に向けて出題されるとする。学力テストの場合には、パラメータは同じであるが内容としては別の問題を提示すると想定するのが無理のない想定である。性格検査などに用いられる質問紙では、内容的にも同一の問題を提示するケースも考えられるが、これは項目反応理論の前提である局所独立の仮定に反する可能性も生じるので、ここでは、一応同一パラメータであるが内容の異なる質問項目を提示すると想定する。
一般の項目反応モデルでは、このような想定条件下の尤度は、数式４から次のように表すことができる。

すべての問題に関して繰り返しの解答ｓ_ｊが等しい（＝ｓ）と仮定した場合、この数式６のｓ乗根をとると、次の数式が得られる。

Ｌ_Ｂ（θ）とＬ_Ｂ（θ）^＊との最大値を与えるθは同一であるので、最尤推定値は、数式６及び数式７で同じである。数式７において

とおけば、Ｌ_ｐａｒｔ（θ）とＬ_Ｂ ^＊（θ）とは形式上同じとなる。つまり、パラメータが同じである問題の繰り返しによる正誤の平均によって部分得点が表現される場合には、本発明が依拠する部分得点モデルＬ_ｐａｒｔ（θ）の解と一般の項目反応理論によるＬ_Ｂ（θ）の解とは、とＬ_Ｂ ^＊（θ）を通じて一致する。以上により、同一パラメータの問題を複数回実施し、その正誤の合計又は平均により成績をつけるようなタイプの部分得点に関しては、当該項目のすべての実施結果に関してその平均を取ることにより０から１までの間の部分得点を作ることにすれば、部分得点モデルＬ_ｐａｒｔ（θ）によって処理しても、従来の２値データによる処理と同一の結果となることがわかる。数式８から、提示の回数ｓ_ｊを増加させれば、実質的に０から１までの任意の部分得点を表現できることが導かれる。なお、数式６と数式７との間でｓ乗根分の相違があると実際には不便なので、次のように、数式５をｓ乗して、その自然対数を部分得点化の対数尤度とするのが好ましい。

さて、実際の学力テストでは、相互に関連する複数の問題が出題されることがある。外国語テストの例では、一定の長さの文章に関して複数の問題が出題される場合などがこれに該当する。しかし、このような問題群の存在は、項目反応理論の局所独立の仮定に反する可能性がある。
因子分析的に考えてみると、仮にテストの得点ｚが、テスト問題の全体で測定する因子ｆ_１と、ある問題群Ｊに共通する因子ｆ_２と、各問題に独自な因子ｕから構成されるとすれば、受験者ｉによる問題ｊの得点は次のように表現することができる。

ここで、ａは因子負荷である。問題ｊが問題群Ｊに属する場合にはａ_２ｊはゼロでなく、問題ｊが問題群Ｊに属する場合にはａ_２ｊ＝０である。数式１０において問題群Ｊについての和を取ると、次のようになる。

右辺第２項は問題群Ｊに共通する因子ｆ_２に関する和であるが、因子の直交性の仮定からは、他の問題との相関を持たず独自性部分と見ることができる。項目反応理論でも項目に固有な成分を想定しているわけであるから、右辺第２項はこれに該当する。すなわち、局所独立の仮定に触れずに済むことになる。因子ｆ_１を項目反応理論の能力パラメータθと仮定すれば、テストで相互に関連する問題群の和を取って部分得点として処理することには不都合はない。局所従属の関係にある問題に関して本発明が提唱するような処理を行うことは、項目反応理論の仮定からはむしろ望ましいとさえいえる。
もし完全な同一パラメータの項目でなく類似パラメータの項目の繰り返しを想定する場合は、一般の２値の尤度は項目ｊの繰り返し提示の正誤パターンによって異なり、次のようになる。

θ固定、項目パラメータ所与とする。数式１２の対数尤度をとり、類似項目ｊに係わる部分だけを取り出すと

が得られる（ただし正答確率などに対する添え字ｊ、及びθは省略する）。すると、その正誤反応Ｘに関する期待値は

となる。また

とするとき、ΔＰ_ｋは、各項目が類似項目であるため微小と仮定する。ΔＰ_ｋの２次以上の項を無視すると

が成立する。数式１７及び１８を数式１４に代入し、

であることを考慮に入れれば

次に部分得点についても検討してみよう。先程と同様に全ての項目で繰り返しの回答ｓ_ｊが等しい（＝ｓ）と仮定した場合、数式９の正誤の確率を数式１５の平均反応確率と

で置き換える。すると

となる。上式より特定の類似問題ｊに係わる部分だけを取り出し、また部分得点ｒが類似問題ｊの正誤の平均であることから

となる（ただし正答確率などに対する添え字ｊ、及びθは省略する）。すると、その期待値は

であり、数式２０及び２４から

が成立する。尤度を構成する全ての類似項目に数式２５が成立すれば、部分得点の最尤解と、２値データによる解は近似的に一致すると考えられる。
なお、以上で、本発明における部分得点モデルは、同一パラメータの問題又は類似パラメータにおいて繰り返し定義の回数が同一であれば、通常の２値の項目反応モデルと対応関係を有することを既に示した。しかし、現実の適用場面では、すべての問題の繰り返し回数が同一である、つまり、部分得点の段階数がどの問題についても同一であるとは限らない。例えば、学力テストにおいては、初めに２値的に採点される易しい項目があり、後半に多値的に採点される難しい項目が配置されることが多い。このような状況に対応するためには、数式９を次のように拡張する必要がある。

このような拡張型部分得点モデルでも、一般の２値モデルの最尤解と数式２６の解とは近似的に一致する。
次に、２項分布を利用した繰り返し回数ｓ_ｊの推定について説明する。拡張された部分得点モデル

を適用する場合、各項目の繰り返し回数ｓ_ｊはシミュレーションでもない限り実際には不明のことが多く推定する必要がある。部分得点の性質によりｓ_ｊの推定は異なり、以下で説明を加える
第１に、部分得点が複数の正誤問題の平均値である場合について考察する。ある問題ｊの部分得点が、１組の組問などからなる複数の正誤２値問題の平均値（つまり複数の問題の合計点を採点結果とする場合）である場合は、それらの問題の数が、そのまま繰り返し数ｓ_ｊの推定値となる。
第２に、部分得点が質問紙などの段階評定である場合について考察する。質問紙で多用される評定尺度の場合、段階数をｍ＋１とするとき繰返し数ｓはｍと推定できる。たとえば質問項目が、「１．よくあてはまる」「２．ややあてはまる」「３．ややあてはまらない」「４．まったくあてはまらない」の４段階の評定で回答を求めるものであるならば、回答結果を０〜１の部分得点として処理するために、各回答をｘとするとき（ｘ−１）／３と変換して［０，１／３，２／３，１」の４段階をとる部分得点データとして分析することになる。これは、３つの２値項目の得点の和を３で割ったことと同じである。つまり質問紙の回答がｍ＋１段階の評定であるならば、２値データの繰り返し数ｓ_ｊはｍであると推定できる。
第３に、部分得点が、複数の正誤２値問題の平均値でなく、採点者の評定のような採点結果であり、比較的段階数が少ない場合について考察する。最も簡単なｓ_ｊの推定方法は、部分得点ｒがｓ＋１段階の得点であるならば、元の２値データの項目の繰り返しはｓであると推定するものである。部分得点モデルの考えでは、２値データの合計を繰り返し回数で割ったものが部分得点ｒと対応していたことから、たとえば、採点者の評価結果が０、０．５、１の３段階で表現されるのであれば、これは２つの２値項目の得点の和を２で割ったことに他ならない。もちろんこれが成立するためには、得点の発生する可能性のある各段階間の等間隔性が必要となる。同じ３段階の部分得点であっても０、０．５、１と０、０．７５、１．０の持つ意味は異なる。部分得点が同一母数項目の繰返しにより生ずるという仮定からは繰返し数２で後者のパターンが生じるとは考えにくく、より大きな繰返し数を仮定する必要があるだろう。たとえば０、０．２５、０．５、０．７５、１．０のパターンを想定し、繰返し４を考える場合である。
第４に、部分得点が複数の正誤２値問題の平均値でなく、採点者の評定のような採点結果であり、段階数が多い場合について考察する。既に述べたように部分得点ｒがｍ＋１段階であるとき２値の正誤項目からこれを構成するためには繰返し回数ｓはｍであることが必要である。段階数が少ない場合は、前節の推定で良いと考えられるが、段階数が多くなると問題が発生する可能性が高くなる。たとえば、１００点満点のテストで、１人の結果を除いた解答に採点者が１０点刻みに採点した場合、段階数は１１段階で繰返し数は１０である。しかし採点者が残る１人の解答結果に６９点という点をつけたとするとその途端に、繰返し数を１０１としないと部分得点化が困難となる。また得点を整数に限らず実数も許容する場合には、このような考え方では繰返し数を推定することは困難となる。
以上のような問題を解消するため、ここでは若干の仮定を設けた上で繰返し数を推定する。問題ｊの部分得点は、当該の問題に関係する潜在的な問題の繰り返し実施による正誤の平均で部分得点が構成されることを仮定し、正答確率はＰ_ｊ、誤答確率はＱ_ｊ＝１−Ｐ_ｊとする（以上部分得点の仮定）。このときθを固定すれば、部分得点Ｒが０，１／ｍ，２／ｍ，…，１をとる確率Ｐ_ｍ（Ｒ＝ｒ｜θ）は２項分布

に一致する。すると母集団全体では、ｍ回の繰返しで部分得点がｒとなる確率は、

であり、その分布関数は

となる。ここでψ（θ）はθの母集団分布である。この理論分布とデータから得られる経験分布が一致することが望ましい。このため理論分布と経験分布の一致度をコルモゴロフ・スミルノフ検定の統計量

で評価する。ここでＦ（ｒ）は、理論分布における段階ｒまでの分布関数の相対累積度数であり、Ｆ′（ｒ）は経験分布における段階ｒまでの相対累積度数である。
実際にコルモゴロフ・スミルノフ検定の統計量を求めるためには、理論分布、経験分布ともｒが離散量であり、また両者で段階の値が必ずしも一致しないことから生じる比較の困難さがあり、ここでは次のような方法で比較することにした。
まずψ（θ）を標準正規分布と仮定する。もちろんこれは必要に応じてθの母集団分布と想定される任意のものを用いることが出来る。これにより、数値積分を行えば数式２９が求まり、その結果数式３０が分る。Ｒは０、１／ｍ、２／ｍ、…、１のｍ＋１段階の値を取り得るわけだが、Ｒが潜在的には連続量であると仮定す

Ｒの度数の反映に他ならない。このため、ｌ番目の段階値ｌ／ｍまでの理論分布関数Ｆ（ｌ／ｍ）と比較する経験分布関数Ｆ′（ｌ／ｍ）は、部分得点としての区間［０，１］の内

以上のような方法で、最小のコルモゴロフ・スミルノフ検定の統計量を与える段階数ｍを、繰返し数ｓ_ｊの推定値とすることが可能であり、以下のシミュレーション及び実際のデータへの適用により、この方法の有効性が確認されている。
第５に、シミュレーションによる繰返し数ｓ_ｊの推定法の検討について述べる。問題ｊの部分得点ｒ_ｊが正誤２値問題の繰返し提示による正誤平均として表現されることを仮定して、シミュレーションによりこれを再現し、繰り返し数ｓ_ｊとしてｓ_ｊ＝５、１０、２０、４０の４種類（１つの問題の部分得点データを作るために２値の問題を５〜４０個利用したということ）を行い、４０問題３０００人分のデータを作成した。
前節の繰返し数ｓ_ｊの推定法は、項目母数が与えられていなければならない。このため作成された部分得点データに基づいて項目母数と能力母数の同時推定を行った（この段階での繰返し回数ｓ_ｊは１）。
図７ａは、真のｓ＝５のとき、推定された経験分布と理論分布の分布関数の差の最大値（コルモゴロフ・スミルノフ検定の統計量）を、繰返し数ｓ＝３〜１０についてプロットしたものである。ここで問題にしているのは繰返し数が大きいときのケースであるから、繰返し数ｓ＝１、２は、元々不要であるので省略している（２項分布を利用した繰返し数の推定は最低でもｓ＝３からとしたい）。この図より明らかに真の繰返し数５の点でコルモゴロフ・スミルノフ検定の統計量が最小値をつけていることが分る。図７ｂにはｓ＝１０、図７ｃにはｓ＝２０、図７ｄにはｓ＝４０の場合を示したが、いずれも真の繰返し数で最小値をとっていることが分る。
第６に、能力検査への適用例として、実際のデータでの繰り返し数の推定例について述べる。英語力テストでの繰返し回数ｓ_ｊの推定への適用例を示す。同テストは受験者９４８０人、問題数４３項目のデータであり、長文読解に絡んで複数の小問をあてているため５問組が２組存在している。両組の小問の正誤平均で部分得点を作成し、前節の繰返し数の推定を試みた。その結果得られたのが図８ａ及び図８ｂである。どちらも当該群の問題数の５でコルモゴロフ・スミルノフ検定の統計量は最小値をとっていることが分り、推定の有効性が示されている。
以上では、本発明によるコンピュータ適応型テスト設計及び処理システムにおいて用いられる部分得点モデルについて説明した。この部分得点モデルは、２値の項目反応モデルを修正することによって得られている。従って、この部分得点モデルでは、推定すべきパラメータの数も２値モデルの場合と同じであり、問題の特性に特別な関心があるとき以外は、学力テストの設計及び結果処理の際に、従来試みられてきたような複雑な多値モデルを利用する必要性は少ないといえよう。
本発明において用いられる部分得点モデルを従来から公知であった段階反応モデルなどと比較すると、次のようなことが明らかとなる。（１）項目反応理論では、通常はデータが２値で１次元であることを要求しているが、部分得点モデルは、多値、多次元データに適用できる。（２）部分得点モデルは（段階反応モデルや他の多値モデルに比較して）簡明なモデルで利用者に理解しやすい。（３）部分得点モデルは、（段階反応モデルや他の多値モデルと違い）一般によく利用されている２母数ロジスティックモデルとシームレスなので、結果の解釈も容易であり、２値と多値の混在データの分析にも便利である。（４）部分得点モデルは、モデルのパラメータの数が（段階反応モデルや）他のモデルに比較して少なく、推定に問題が生じない。（５）部分得点モデルは、どのような解答（回答）結果でも０から１の部分得点に変換すれば適用できるので応用範囲が広い。（６）部分得点モデルは、テストだけでなく質問紙データにも容易に適用できる。（７）部分得点モデルは、解答（回答）の段階数が増えても（段階反応モデルや他のモデルのように）モデルのパラメータが増加しないので、採点結果の変更に対応が容易である。
また、本発明の発明者の１人（藤森）は、部分得点モデルを用いたシミュレーションを行ったが、その結果によると、（１）段階反応モデルは、テストが少数項目であると識別力の推定にバイアスがかかるが、部分得点モデルではこの現象は生じない。（２）正答数得点と能力推定値の順位相関は、部分得点モデルの方が段階反応モデルより高い（真の値との相関では両モデルともほぼ同等）。
以上で本発明によるテスト・システムにおいて用いられる部分得点モデルの概要を説明したが、その要旨を再確認しておきたい。本発明が依拠する部分得点モデルにおいては、合計点を和を取った項目数で割ることにより０から１の間の部分得点として入力データとする、すなわち、２値モデルの尤度の正誤に使われるダミー変数を部分得点を表す実質的変数あるいは正誤確率の重みとして扱う。このような想定の下で部分得点を処理しても、理論的にも従来の２値型の処理の場合との整合性が保たれ、また、シミュレーションの結果を見ても２値データの場合の尤度関数を用いる推定結果と部分得点モデルによる尤度関数を用いる推定結果とは実質的に同じであるといえる。
次に、上述した部分得点モデルが本発明によるテスト・システムにおいてどのように具体的に適用されるかを説明したい。具体例として、英語能力テストを考える。多肢選択式など解答が正答又は誤答の２値で評価される設問に関しては、従来型の項目反応理論が適応され、数式４の尤度関数Ｌ_Ｂを用いて項目パラメータと能力値θとが推定される。これに対し、ライティング（作文）やスピーキング（会話）の問題では、正誤判断による２値的な採点ではなく部分点を許容する採点を行うことが、受験者の英語能力評価をより分析的かつ精密に行うことを可能にすると思われる。そのような場合には、２値評価を前提とする従来型の項目反応理論を適用することはできず、上述した部分得点モデルが用いられる。
部分得点モデルでは、例えば作文問題に対する受験者の解答を採点する際に、零点（０）から満点（１）までの間で２５％刻みの部分得点を与えることができる。具体的には、数式５においてｒ_ｉｊが、０、０．２５、０．５０、０．７５、１という５つの値を取りうる尤度関数を考えて、部分得点を処理する。Ｐを定義する数式３に含まれる項目パラメータａ（識別力）及びｂ（困難度）は、同じ問題を用いて予め行われたプレテストにおけるデータを用いて既に推定されている。既に一般論として論じたように、本発明の部分得点モデルでは、部分得点を同一パラメータを有する問題が反復的に出題された場合の正誤の平均として表現されるものと想定しているため、１つの項目（＝問題）の内部では、どの部分得点についても項目パラメータａ及びｂの値は同じである。
具体例として、このような英作文の問題が３題出題され、ある受験者によって与えられた解答がそれぞれ０．２５、０．７５、０．５０と評価される場合を考える。この場合、０と１とを含めると５段階の部分得点を用いて評価されているので、繰り返し数は４であり、尤度関数Ｌ_ｐａｒｔの対数尤度を考え、数式９のｒ_ｊに部分得点０．２５、０．７５、０．５０を代入することによって次のように決定される。

ここで、ロジスティック曲線Ｐに含まれる項目パラメータａ及びｂは、それぞれの問題に対して予め推定されている。数式３２の対数尤度を用い、最尤推定法やベイズ推定法により、受験者の能力θが推定される。これらの方法自体は従来から知られている一般的な統計学的手法であり本発明の特徴ではない。しかし、いずれの推定方法を用いるにしても必要な対数尤度は、本発明の核心である部分得点モデルによって初めて得られるものである。
以上は、部分得点モデルの基本的な適用例である。更に、部分得点モデルを用いると、このような単純な例とは異なり、複数の評価基準を設け、１問を複数の視点から評価する分析的な評価方法を採用することによって、受験者の能力推定の精度を向上させることもできる。例えば、上述した基本的な適用例では顕在化しない受験者の能力差を明らかにできる可能性がある。例えば、ライティング問題では、精度の高い評価のために、（ａ）目的達成の有無（ＧｏａｌＡｃｈｉｅｖｅｍｅｎｔ）、（ｂ）文法（Ｇｒａｍｍａｒ）、（ｃ）語彙（Ｖｏｃａｂｕｌａｒｙ）、（ｄ）文章構成（Ｓｔｙｌｅ）、（ｅ）綴り字・句読点（Ｍｅｃｈａｎｉｃｓ）という５つの評価基準を設定し、スピーキング問題であれば、（ａ）から（ｃ）に加え、（ｆ）発話の流暢さ（Ｆｌｕｅｎｃｙ）、（ｇ）発音（Ｐｒｏｎｕｎｃｉａｔｉｏｎ）という５つの評価項目を設定する。このような評価項目を設定する理由は、例えば、作文の設問であれば、非常に拙いが書き手の意図が一応は読み手に伝わる、文法的には誤りはないが余りに不自然であり状況にそぐわない、明らかな文法上の誤りがある、単語の綴りに間違いがある、類似する単語が誤用されている、文の途中で中断し完結していない、パンクチュエーションが間違っているなど、ただ１つの作文を評価するに場合でも、異なる複数の視点から評価を行えば、１つの問題を複数の小問題から構成されているものと考え、視点ごとに異なる評価が可能であるからである。そして、このように複数の評価項目を設定すると、１つの問題を複数の問題から構成されているものと見なすことによって、上述した基本的な適用例の場合よりも高精度の評価が可能となりうる。
以上のような評価項目を設けた場合には、次のような評価が可能であろう。（１）の目的達成の有無については、例えば、「相手に宿を手配して欲しいという意図の伝達」という目的が問題ごとに設定され、設定された目的が「達成されている、達成されていない」の２値（１又は０）で採点される。それ以外の評価項目に関しては、０から１までの間に２５％刻みの部分得点を許容する採点を行う。つまり、数式５のｒ_ｉｊに、０、０．２５、０．５、０．７５、１という５つの値が代入される。上述した基本的な適用例と同様に、尤度関数に含まれるロジスティック曲線Ｐを定義する数式３に含まれる項目パラメータａ（識別力）及びｂ（困難度）も、上述の例と同様に、同じ問題を用い本番のテストに先行して行われたプレテストにおけるデータを用いて予め推定されている。このような採点方法を用いれば、ただ１題の英作文又は会話の問題を出題することによって、非常に多角的な評価が可能になる。ただし、ここで挙げた評価項目は単なる例示であり、本発明によるテスト・システムにおいて他の視点から評価を行うことも可能である。
以上が、部分得点モデルを含む項目反応理論が英語能力テストへ適用され受験者の能力が推定される様子についての説明であり、本発明は、このような部分得点モデルを含む項目反応理論による能力推定をインターネット接続環境にある一般的なパーソナル・コンピュータを用いて実現するテスト・システム及びテスト方法である。以下では、添付の図面を参照しながら、本発明によるテスト・システムの動作を概説する。
図１には、本発明によるテスト・システムの第１の実施例の概要が示されている。受験者は、本発明によるシステムによって設計、実施及び処理されるテスト（例えば、英語能力テスト）を実施する語学学校などに設置されたインターネット接続環境にあるパーソナル・コンピュータである受験者ユニット１０１を用いてテストを受験する。受験者の認証が適切になされるのであれば、自宅での受験も可能である。受験者によってキーボード、マウス、マイクロフォンなどを介してパーソナル・コンピュータである受験者ユニット１０１に入力される解答結果は、インターネットなどのネットワーク１０３を介して、採点者ユニット１０２に送られ、例えばテスト対象である英語を母語とする採点者が部分得点を許容しながら採点を行う。その際に、部分得点を与える評価項目は、問題の難易度にあわせて変更されることはない。ただし、解答結果は、受験者ユニット１０１から直接に採点者ユニット１０２に送信されるのではなく、このテストを集中的に管理するテスト管理サーバ１０４にいったん送られた後で、複数存在する中から適切であると判断される採点者ユニット１０２へ送られるのが一般的である。テスト管理サーバ１０４は、問題データベース１０５を備えている。問題データベース１０５には、プレテストとして実施され項目パラメータ（数式３における識別力ａ及び困難度ｂ）が予め推定されている問題群が記憶されている。テスト管理サーバ１０４は、受験者が特定されると、問題データベース１０５から一群の問題を選択し、選択された問題群を受験者ユニット１０１へ送信する。
図２には、受験者ユニット１０１の概要が図解されている。受験者ユニット１０１は、通常、インターネット接続環境を有する一般的なパーソナル・コンピュータである。入力装置２０７は、キーボード、マウス、タッチパネルなど機械的な入力装置であり、音声入出力装置２０９は、マイクロフォンやスピーカなどである。受験者は、まず、入力装置２０７から手動で、又は、音声入出力装置２０９から音声で、自分自身のＩＤを入力すると共に、テストの開始を指示する。受験者のＩＤは、その受験者が受験の申込みを行う登録時に、テスト管理サーバ１０４から各受験者に対して一意的に発行されたものが用いられる。セキュリティ管理のため、ＩＤと共にパスワードも発行されるのが一般的である。一意的なＩＤが発行されていることにより、同一の受験者が複数回受験する場合には、その旨がテスト管理サーバ１０４において認識され、適切な出題がなされる。指示に応答してテスト管理サーバ１０４から送信されディスプレイ２０８に表示される、又は、スピーカを含む音声入出力装置２０９から出力される自分のレベルに合わせて選択された問題に対して、受験者は、入力装置２０７、又は、マイクロフォン（音声入出力装置２０９）を介して解答を入力する。解答、特に、部分得点を許容する採点が必要となるライティングやスピーキングの設問に対する解答は、通信インターフェース２０２とインターネットなどのネットワーク１０３とを介して、採点者ユニット１０２に送られる。ただし、既に述べたように、解答は、受験者ユニット１０１から直接に採点者ユニット１０２に送信されリアルタイムに採点されるのではなく、このテストを集中的に管理するテスト管理サーバ１０４にいったん送られた後で、複数存在する中から適切であると判断される採点者ユニット１０２へ送られるのが一般的である。一定数の解答が集まってから採点するのが効率的であるという採点の経済からもこれは当然であろう。
図３には、採点者ユニット１０２の概要が図解されている。採点者ユニット１０２は、受験者ユニット１０１と同じように、通常、インターネット接続環境を有する一般的なパーソナル・コンピュータである。インターネットなどのネットワーク１０３を介して受験者ユニット１０１又はテスト管理サーバ１０４から送られてくる解答結果をディスプレイ３０８に表示し、又は、スピーカ（音声入出力装置３０９）から出力して、キーボードやマウスなどの入力装置４０７を用いて採点する。採点結果は、インターネットなどのネットワーク１０３を介してテスト管理サーバ１０４に返送する。
以上で説明した本発明のテスト・システムを実現する第１の実施例では、受験者ユニットと採点者ユニットとテスト管理サーバとがインターネットなどの通信回線を用いた通信ネットワークの通信端末として構成されていた。しかし、当業者には明らかなことであるが、本発明によるテスト・システムは、第２の実施例として、通信機能を備えていないスタンドアロンのパーソナル・コンピュータを用いて実現することもできる。その場合、難易度及び識別力が予め推定された多数の問題が記憶されているデータベースは、例えば当該パーソナル・コンピュータのハードディスクなどの記憶装置に構築されており、受験者は、例えばＣＤやＤＶＤなどに格納された態様で提供される本発明のテストを実施するプログラムに含まれる命令に従って出題されるライティングやスピーキングの問題に対し、キーボードやマイクロフォンを介して解答する。解答結果はいったんハードディスクなどに記憶され、採点者は、その解答結果をハードディスクから読み出して部分得点を許容する採点を行う。この第２の実施例の場合の部分得点の処理方法は、第１の実施例の場合と同様である。採点がなされると、部分得点モデルに基づく尤度関数を用いて受験者の能力推定が行われる。
図４は、本発明によるテスト・システムを用いたテスト実施の概要を示す流れ図であり、特に、第１の実施例に則して、本発明が依拠する部分得点モデルが用いられるライティング及びスピーキングに関するテストの実施及び処理プロセスが示されている。なお、ライティングの問題では、受験者は、キーボード（図２の入力装置２０７）を用いて、英文などの文章をタイプインする形式で解答するのが一般的である。スピーキングの問題では、受験者がパーソナル・コンピュータに備え付けられたマイクロフォン（図３の音声入出力装置３０９）を介して、提示された質問に対する応答として、又は、自由な内容で音声を入力し、その音声として発話された内容が評価の対象となる。採点者は、受験者が現在利用しているパーソナル・コンピュータとインターネットなどのネットワークを介して接続されている別の端末である採点者ユニットの前で待機し、リアルタイムで採点を行うことも可能ではあるが、実際には、受験者の解答は、いったんテスト管理サーバに記憶された後で採点者ユニットへ送られ、集合的に多数の解答を採点するのが一般的である。
まず、受験者は、受験者ユニット１０１においてインターネット上の指定されたウェブページにアクセスする。そのウェブページにおいて、自分自身の受験者ＩＤとパスワードとを入力し認証がなされた後で、所定のボタンをクリックすることにより、ライティング又はスピーキング問題の受験を開始する意図を通知する（４００）。テスト管理サーバ１０４は、この通知に応答して、ライティング又はスピーキングの問題を問題データベース１０５から選択する（ステップ４０１）。この選択の際には、この受験者による多肢選択式問題に対する解答の採点結果から推定された能力θとの関係で、最も適切な識別力及び困難度を有する評価項目を含む問題を選択することができる。例えば、ライティング問題選択の際にはリーディング問題への解答結果を参考にし、スピーキング問題選択の際にはリスニング問題への解答結果を参考にすることが考えられる。これは、ライティングの能力はリーディングの能力と相関関係を有し、スピーキングの能力はリスニングの能力と相関関係を有すると考えられるからである。ただし、このような問題選択は、単なる例示であり、本発明による部分得点モデルを含む項目反応理論に基づくテスト・システムの本質部分ではない。
選択された問題に対応するロジスティック曲線に含まれる項目パラメータは、先に実施されたプレテストにおけるデータから、評価項目ごとに予め決定されているのが一般的である。ただし、能力パラメータの推定と同時に項目パラメータを推定する同時最尤推定なども理論的には可能であり、本発明によるテスト・システムも、この同時最尤推定の可能性は排除しない。その場合には、問題データベース１０５に記憶されている問題の項目パラメータは既に推定されている場合とそうでない場合とが併存することになる。項目パラメータの推定は、能力θの推定と同じく数式５の尤度関数が用いた部分得点モデルに基づいて行われる。また、項目パラメータが推定される際には、それぞれの問題の識別力及び困難度を標準化する等化と称されるプロセスも行われる。この等化のプロセスにより、受験者の母集団に左右されない絶対評価が可能になる。ただし、等化自体は項目反応理論一般について妥当することであり、特に本発明の特徴ではない。
テスト管理サーバ１０４によって出題されるべき問題が選択されると、選択された問題は、インターネット等のネットワーク１０３を介して受験者ユニット１０１に送信される（ステップ４０２）。送信された問題は、テキスト形式の問題であればディスプレイ２０８において、音声形式の問題であればスピーカ（音声入出力装置２０９）から受験者に対して出題される（ステップ４０３）。受験者は、その出題された問題に対して、文章をタイプインする形式で、又は、発話された音声形式で、解答を与える（ステップ４０４）。解答を構成する文書又は音声ファイルは、インターネット等のネットワーク１０３を介してテスト管理サーバ１０４に送信され、いったん記憶される（ステップ４０５）。
以上のプロセスが一定数の受験者に対して反復され、一定数の解答ファイルがテスト管理サーバ１０４に記憶される。ただし、これら複数の受験者に対して出題される問題は、同じとは限らない。項目反応理論の一般論から、出題される問題は異なっていても、能力θは適切に推定されうるからである。採点者ユニット１０２からテスト管理サーバ１０４により開設されているウェブページへのアクセスがなされ、テスト管理サーバ１０４に蓄積されている解答を採点のために送信して欲しい旨のリクエストがなされると、一定数の解答ファイルが、探点者ユニット１０２に送られる（ステップ４０６）。採点者は、既に説明した部分得点を許容する方法により解答を採点し（ステップ４０７）、採点結果をテスト管理サーバ１０４に返送する（ステップ４０８）。ただし、一般的には、このように複数の解答がまとめて採点されるか、リアルタイムで採点されるかは、本発明の特徴とは関係ない。
次に、テスト管理サーバ１０４は、採点者ユニット１０２から受信した部分得点を数式５の尤度関数に代入し、能力θの推定を行う（ステップ４０９）。上述したように、項目パラメータが同時に推定される場合もありうる。推定の方法は，最尤推定、ベイズ推定などである。推定が終了すると、必要な場合には、推定されたθの値が、他のテストとの比較に適した点数に換算される（ステップ４１０）。
本発明のテスト・システムを用いて上述のような処理を行うことにより、従来から行われてきた一般的な項目反応理論では処理が困難であった部分得点を許容して採点を行う問題を含むテストであっても、従来型の項目反応理論と同様な能力推定を行うことができる。
発明者らは、本発明によるテスト・システムを用いた能力推定の有効性を確認するために、２００３年５月２１日から２８日において、被験者１２名によるスコア安定性確認調査を行った。方法としては、同一被験者に３回続けて本発明によるテスト・システムを用いた芙語能力テストを受験してもらい、スコアに大きなぶれが生じないかどうかを確認した。ここで実施された英語能力テストは、リスニング、リーディング、ライティング、スピーキングの４つの技能のテストで構成されていた。
被験者は、東京の比較的英語が得意な某大学の大学生１２名である。もし、本発明によるテスト・システムによる英語能力評価が適切なものであり、等化を含めた各問題の項目パラメータの推定が本発明によるテスト・システムにおいて適切になされているのであれば、同一受験者が１日のうちに３回テストを受験した場合、英語能力はその間に変化しないと考えられるので、結果のスコアは大きく変動しないはずである。
結果の詳細は、図５のグラフとして示されている。また、１２名の平均スコアは、図６の通りである。個人差はそれぞれあるが、図５及び図６において観察されるように、１回目から２回目において試験形式の慣れによる得点の向上（一般的には「リハーサル効果」と呼ばれる）と、３回目の受験における疲労効果（特に、最後の回の最終問題であるスピーキングの得点に見られる）による得点の低下とが見られた。
しかし、平均点で見ると各技能で２５０点満点中５．４から１８．５点のスコアの変動（＝２．２％から７．４％）であり、トータルスコアでも３％の変動幅で収まっている。従って、異なった問題を受験しても本発明によるテスト・システムでは、テスト・スコアの変動は少なく、スコアの標準化が適切に行われており、母集団の能力レベルに左右されない絶対評価が可能であることがわかった。
同一パラメータを有する複数の項目が反復的に出題された場合の正誤の平均として部分得点が表現されると想定すれば、理論的には、数式５におけるｒ_ｉｊを実質的な変数と考え０から１までの間の部分得点を許容しても、従来型の項目反応理論における２値的な評価に用いられる尤度関数の場合と推定結果は同一になる、というのが、本発明によるテスト・システムが依拠する部分得点モデルによる提唱であった。図５及び図６において示された実験結果は、この理論的帰結が、実験的にも確認されたことを示している。
従って、本発明によるテスト・システムによれば、従来型の項目反応理論との整合性を維持しながら、従来よりも高精度の能力推定が達成される。これは、本発明の著しい効果である。
明細書の最後に、本発明の発明者の１人（藤森）による段階反応モデルと部分得点モデルとの比較に関する論文（『項目反応理論による多値データの分析について一段階反応モデルと部分得点モデル−』）を、文中で言及されている図面（Ｆｉｇｕｒｅ）や表（Ｔａｂｌｅ）を除いて、以下に引用する。なお、この論文は、この出願における優先権主張の基礎となる日本特許出願である特願２００２−２７９５１３が出願された平成９月２５日の時点では未発表であったが、その後、文教大学人間科学部の紀要である『人間科学研究』２４号において発表された（平成１４年）。また、この論文は、学力テストだけを念頭においたものではなく、より広い応用についても言及しているので、「問題」ではなく「項目」、「受験者」ではなく「被験者」など、以上の用例と異なる箇所が含まれている。
１．研究の目的
２母数ロジスティックモデル（Ｂｉｒｎｍａｕｍ，１９６８）のような一般の項目反応理論では、正答、誤答のような２値データを処理することが出来るだけであり、多値のデータを分析することは出来ない。しかし心理学一般の研究では質問紙データなどで多値データを利用することも多い。項目反応理論でも多値データが全く扱えないわけではなく、幾つかの分析モデルが開発されている。例えばＳａｍｅｊｉｍａ（１９６９）の段階反応モデル（ｇｒａｄｅｄｒｅｓｐｏｎｓｅｍｏｄｅｌ）、評定尺度モデル（ｒａｔｉｎｇｓｃａｌｅｍｏｄｅｌ；Ａｎｄｒｉｃｈ，１９７８）やｐａｒｔｉａｌｃｒｅｄｉｔｍｏｄｅｌ（Ｍａｓｔｅｒｓ，１９８２）はこの種の代表的なものとされる。しかし現実問題としては分析するためのソフトウェア環境が十分整備されていないこともあってか、これらのモデルが広く一般に利用されているとは言い難い。
このような状況に鑑み、本研究では藤森（２００１）の部分得点モデル（ｐａｒｔｉａｌｔｅｓｔｓｃｏｒｅｍｏｄｅｌ）と段階反応モデルとの比較をシミュレーション及び質問紙データの分析結果をもとに行い、項目反応理論を利用した多値データに関する分析方法の検討を行うことにする。
多値データへ項目反応理論を適用するとしても、どのようなモデルが良いのか検討する必要がある。このためには（１）理論的側面の検討、モデル母数の再現性や能力母数の分布などの影響を検討するための（２）シミュレーションによる検討、そして現実のデータにどの程度うまくあてはまるのかという（３）実証データに基づく検討が求められるであろう。このため、本研究では（１）を１．３節で、（２）を２節で、そして（３）を３節で行うことにする。
１．１．段階反応モデル
ｍ個の順序性を持つ段階反応を許容するＳａｍｅｊｉｍａ（１９６９）の段階反応モデルを初めに説明する。ここではテストのある一つの項目だけを考えることにする。被験者の回答の各段階に対応して決まるダミー変数をｕとし、ある段階より低い段階に反応したとき０、そうでないとき１となるダミー変数をｘとする。能力θを持つ被験者がｘ＝１となる確率を

で表すとき

が段階反応モデルである。ただし

である。数式３３は段階の間を確定する境界反応曲線であり、数式３４は段階の反応確率を表現する段階反応曲線となる。前記の条件を満たす限り数式３３の関数はどのようなものでも自由であるが、本研究では良く利用される２母数ロジスティックモデル

を仮定する。数式３５式の条件のため、ａは数式３８の全ての曲線に共通した母数となり識別力と呼ばれる。ｂ_ｕは各段階の閾値に関係した母数であり困難度と呼ばれる。すなわち段階反応モデルでは項目ごとに１つの識別力と各段階の閾値に対応するｍ−１個の困難度母数を持っていることになる。
１．２．部分得点モデル
部分得点モデルでは部分得点をｒ（０〜１の範囲）とするとき母数推定のための対数尤度は次式で表される。

ここでｉは被験者、θはその特性値を表す母数、ｊは項目、ｓは２値項目換算の繰り返し数、ｐは２母数ロジスティックモデル、Ｑ＝１−ｐである。
すなわち部分得点モデルは２母数ロジスティックモデルをその基礎に置いている。また同一あるいは類似項目母数を持つ項目を被験者に対し潜在的に繰返し実施することを想定している。このときｒは繰返し実施の正誤平均と考えることができる。このような部分得点モデルと繰返し実施を考えた２母数ロジスティックモデルの最尤解は一致する（類似母数の時は近似）ことが証明できる（藤森，２００２ａ）。
１．３．理論的側面からの検討
部分得点モデルの特徴は、以下のようなものである（藤森、２００２ｂ）。
（１）項目母数は識別力と困難度で一般の利用者にも比較的理解しやすい。
（２）モデル母数の数が他の多値モデルと比較して少なく推定上の問題がない。
（３）どのような解答／回答結果でも値を０〜１の部分得点に変換すれば適用できるので応用範囲が広い。（４）質問紙の評定尺度にも容易に適用できる。（５）解答の段階数が増えても母数が増加しないので、採点結果の変更や微調整にも対応が容易である。（６）２母数ロジスティックモデルとシームレスなので識別力や困難度母数の解釈もそのまま２母数ロジスティックモデルと同様に行えるので、２値と多値の混在データなどでの運用に便利である。（７）ｔｅｓｔｌｅｔ／組問などの部分得点化により２値項目からなるテストに組問が存在する場合、組問を１つの部分得点項目としてとしての運用することが可能になり、副次的にテスト全体での母数の数が減る。（８）残差得点にモデルを再適用して多次元データへの対応もできる。
（７）（８）については本研究では取り上げていないが特徴としては大きなものである。
続いて段階反応モデルの特徴は、以下のようなものである。（１）項目反応理論で多値データに対応したモデルとして著名なものである。（２）発表されてから３０年以上の時間がたち応用研究も報告されている（例えば野口（１９９９）など）。（３）公開されている分析用ソフトウェアＭＵＬＴＩＬＯＧが存在する。（４）各段階反応曲線が得られるため、各段階に対する反応にまで関心を持つ場合は便利である。例えば境界反応曲線の母数を利用すれば、段階ごとの反応がθ上のどの水準で発生するのかについて予測も出来る。
両モデルを比較してみると、モデル化の考えの違いが明らかである。段階反応モデルは、モデルの母数の数が多いだけ、部分得点モデルに比較してデータとの当てはまりも良くなると考えられる。もちろんモデル母数の数が多ければ、母数の正確な推定にはデータ量が必要であるなどの問題が生じる危険性がある。逆に部分得点モデルは単純であるだけ、当てはまりは劣ると予想されるが推定値などの安定性は良いと考えられる。この点に関しては赤池情報量規準ＡＩＣなどの観点が評価に必要となろう。
また段階反応モデルの（４）の点については、部分得点モデルでは、モデル上これは困難である。行うとすれば、事後的には段階ごとに被験者の分布を作成して検討することになるだろう。項目母数は所与であってもテスト実施の事前であれば、被験者の能力分布について適当なる仮定を設けて、シミュレーションを行い段階ごとに被験者の分布を作成して検討することになるだろう。いずれにしても段階反応モデルより手間がかかることになる。
このような利点がある一方で段階反応モデルは（そして今まで提案された殆どの多値モデルも）、各段階にモデル母数を置くため段階の変化に柔軟性を欠く問題がある。たとえば、能力テストで教師が採点時に２０点満点である項目を、０、５、１０、１５、２０の粗い５段階で評価していたとしたら５段階の段階反応モデルでの分析となる。しかし、もし誤字脱字などである答案を１点減点することにしたら、たちまちモデルの母数の値だけでなく、母数の数そのものが変化してしまうという問題点がある。質問紙でも評定を５段階で行っている項目を４段階にしたら、段階反応モデルでは、それまでの項目母数をそのまま利用するわけにはいかなくなってしまうのである。
以上のように、どちらのモデルも一長一短はあるのだが、各段階や評定についてはそれほどの関心を持たず、項目の全体的な特性と能力母数の推定だけに関心がある場合には、部分得点モデルで十分と思われる。
２．シミュレーションによる検討
実際のテストや質問紙において回答がどのようなメカニズムで生起しているのかは正確に知ることは出来ない。部分得点モデルと段階反応モデルのどちらがより現実に近いかは現時点で判断することは難しい。このため両モデルの比較をシミュレーションで行うにしても、データの作成にあたっては、どちらかのモデルに従ってデータを作成するべきかを決めることは困難である。あるモデルを仮定してデータを作成し、当該モデルと別のモデルで分析しても、別のモデルは良い成績を発揮することは期待できず、比較もうまく行えないだろう。このため本研究では、部分得点モデルを前提としたシミュレーションと段階反応モデルを前提としたシミュレーションの２つを行うことにした。各モデルは自己のモデルに従ったデータと他のモデルのデータの２つを分析することになる。もちろん実際のデータはこの２者以外のメカニズムによる可能性もあるわけであるが、両モデルの公平な比較を行うことはできる。すなわちデータがモデルに従っている場合は、モデルの再現性がシミュレーションによって検討でき、またデータがモデルに従っていない場合はモデルの頑健性が評価できる。
２．１．部分得点モデルを前提としたシミュレーションデータ
部分得点モデルを前提としたシミュレーションデータは、以下のようにして作成した。まず部分得点モデルの構成要素として２母数ロジスティックモデルを仮定する。この２母数ロジスティックモデルの母数の分布型を以下のように定める。識別力母数は、平均０．６５、標準偏差０．２５、下限０．３、上限２．０の切断正規分布、また困難度母数は、平均０、標準偏差０．５の正規分布に従うと仮定する。能力母数θは平均０、標準偏差１．０の正規分布に従うと仮定する。能力母数θを標準正規分布に従って作成し、２母数ロジスティックモデルから予想される正答確率を、範囲０〜１の一様乱数と比較し、前者が下回る場合被験者の反応を正答１、上回る場合誤答０とする。２母数ロジスティックモデルに従う、この２値データパターンを、被験者数５００、項目数２００として各１０回繰り返し作成した（データ１〜１０）。ただし５項目ずつ同一母数としている。続いて、このデータの同一母数の５項目ずつの正誤の和の平均をとり０、０．２、０．４、０．６、０．８、１．０の５段階の値をとる部分得点データとした。すなわち部分得点データは、被験者数は２値データと同様に５００であるが、項目数は４０となる。同様にして、前記の項目母数を所与として新たに被験者の能力母数θを５００人分追加してクロスバリデーション用のデータを作成した。
２．２．段階反応モデルを前提としたシミュレーションデータ
段階反応モデルを前提としたデータは以下のようにして作成した。段階反応モデルも、その構成要素として２母数ロジスティックモデルを仮定する。またその母数の分布形も０節と同様である。またデータの段階数としては１から５の値をとる５段階を仮定する。このため、モデルより段階間の境界反応曲線は４つ必要となる。この曲線群を確定するため、まず識別力母数を１つ分布に従って発生させ、これを各境界反応曲線に共通する識別力とする。続いて４つの困難度母数を作成し、最も小さいものを選択して、段階１と２の境界反応曲線の困難度とする。以下同様にして困難度の小さなものから順にとり各境界反応曲線の困難度を決定する。これらの境界反応曲線間の差をとって各段階反応曲線とする。標準正規分布に従う能力母数θを１つ作成し、この値を固定して各段階反応曲線で予想される反応確率の区間（θを固定したときの全段階反応曲線の大きさの和は１である）に、０〜１の一様乱数が入ったとき当該反応が生じたことにする。以上の過程を５００人分繰返し母数推定用のデータとした。また０節と同様に、以上で確定した項目母数を利用してクロスバリデーション用のデータを５００人分作成した。
２．３．母数の推定
母数の推定は、両モデルとも項目母数と潜在特性値θの交互同時最尤推定による自作のＦＯＲＴＲＡＮプログラムによった。部分得点モデル用では交互同時最尤推定だけでなく項目母数の周辺最尤推定が可能であるが、段階反応モデルの推定プログラムは交互同時最尤推定のみに対応しているため、比較の便を考慮して両モデルとも項目母数を最尤推定した（結果は省くが部分得点モデルに関しては周辺最尤推定と交互同時推定の結果に大きな差はない）。両モデルともθと困難度の推定値は−３．５〜３．５の範囲と定め、識別力の推定値の範囲は０．０２〜２．０としている。
２．４．シミュレーションの結果と考察
表１は、部分得点モデルにより作成したシミュレーションデータ（以下部分得点データと呼ぶ）の能力母数の真値、正答数得点と両モデルで推定したθの推定値の相関である。ただし相関は、ケンドールの順位相関係数を求めている（以下特に明示しない場合は相関はケンドールの順位相関を指す）。一般によく利用されるピアソンの積率相関でなくて順位相関を求めたのは、項目反応理論の現実の運用場面では正答数得点などと推定値の順位の逆転現象が問題となるケースが多いためである。表１より明らかなように真のθとの相関は、いずれも部分得点モデルによる推定値の方が高いものの段階反応モデルとの差はほとんどない。これに比し、正答数との相関は、若干差が拡大し部分得点モデルによる推定値が高い相関を与えている。
なお部分得点モデルの項目母数の推定値に関しては、例えばデータセット１については識別力の平均自乗誤差（ＭＳＥ）は、０．００１４、困難度に関しては０．００１７であり、特に問題はない精度で推定値が得られている。ちなみに、データ作成の元となったモデルとは異なるので値の良し悪しは判断できないが、段階反応モデルの識別力とのＭＳＥは０．０２７、困難度は０．３１となっている。ただし困難度に関しては、段階反応曲線の困難度の推定値平均によってＭＳＥを算出している。
続いて部分得点データの推定値を利用してクロスバリデーションデータの成績を比較してみよう（表２）。クロスバリデーションにおいても様相は先と同様で、真値との相関はいずれも部分得点データがほんの僅か上回り、正答数得点に関してはややモデル間の差が拡大することが示されている。
さて段階反応モデルにより作成したシミュレーションデータ（以下段階反応データと呼ぶ）についての結果が表３である。また同データに基づき推定された項目母数をクロスバリデーションデータに適用した結果が表４である。どちらにおいても部分得点モデルに比べて段階反応モデルの方が真のθとの相関がほんのわずか高いが、大きな差ではなく、データセット１，５のように逆転しているケースも見受けられる。また全体的に真値との相関が表１及び表２に比較してやや低くなっており、段階反応モデルが部分得点モデルに比較して再現性が難しいモデルであることを示唆していると言えよう。段階反応データであるにもかかわらず、正答数得点との相関は段階反応モデルより部分得点モデルによる推定値の方が高くなっている。しかも部分得点データの場合よりその差が拡大していることが分る。合計点との順序関係の逆転は段階反応モデルに多くなっているのであるが、この逆転が生じる理由は、段階反応モデルでは項目によって評定の中間部分の段階反応曲線が相対的にかなり低くなり、他項目の回答結果によっては、当該項目の回答がθの推定に（推定誤差の大きさはともかくとして、その点推定値の決定には）殆ど影響力を持てなくなるためである。この現象は段階反応モデルだけではなく、選択肢やカテゴリーごとの反応確率曲線をモデル化する他の多値モデルにも共通するため、これらのモデルの利用の際には注意を払う必要があると考えられる。もちろん部分得点モデルも２母数ロジスティックモデルをベースとしている以上、合計点とθの逆転も一部生じざるを得ないが、その程度は低く抑えられている。
次に段階反応モデルの項目母数の推定値について検討しよう。例えばデータセット１については識別力の平均自乗誤差（ＭＳＥ）は、０．２９９３、困難度に関しては０．０６３６であり、やや部分得点モデルの場合に比較して推定精度が悪いことがわかる。表５に示した項目８，１５はデータセット１の中の推定成績が悪い項目であるが、いずれも真の境界反応曲線が互いに接近しすぎている場合に推定が出来なくなっていることがわかる。このような場合には、２つの境界反応曲線を１つとして処理するなどの対処が必要になると考えられるが、どのような基準で行うかなどの問題もあり本研究ではこれを行っていない。ある意味ではこのような対処を必要とすることに段階反応モデルの問題点が存在するとも言えよう。なおモデルは異なるものの部分得点モデルの識別力のＭＳＥは０．０１３６となり段階反応モデルよりも良い推定値を与えている。ただし段階反応モデルの項目母数の推定に関しては周辺最尤推定では成績が改善する可能性も残されているので、ここではこれ以上取り上げず、別の研究で報告することにしたい。
以上をまとめると本研究のシミュレーションの条件下では、部分得点データ、段階反応データのいずれであっても真値との相関は、どちらのモデルを利用しても大きな差は生じていない。これに対し正答数得点との相関は明らかに部分得点モデルの方が良い成績であり、特に予期に反し段階反応データで差が大きくなっている。また項目母数の数が多い段階反応モデルで危惧されたクロスバリデーションデータでの不適合は生じていない（ただし母数推定上の問題は残る）。これは一つには、本研究が特にノイズをのせていない単純なシミュレーションであることも影響しているかもしれない。
３．質問紙データによる検討
３．１．質問紙データ及び母数の推定
本研究で分析の対象としたデータは、Ｏ県の青少年基本調査の中高生１８４９人のデータで、教師と生徒の心理的距離について調べた９項目尺度である（表６）。各項目は「１．よくあてはまる」から「４．まったくあてはまらない」の４段階で評定を求めるものであるが、９項目とも回答は値が小さいほど心理的距離が小さくなるように処理されている。部分得点モデルでは、このデータを０〜１の部分得点として処理するために、各回答結果をｘとするときｒ＝（ｘ−１）／３と変換して「０，１／３，２／３，１」の４段階をとる部分得点データとした。また推定方法はシミュレーションと同様の方法である。なお本調査の詳細については木原ら（１９９７）参照されたい。
３．２．質問紙データの結果と考察
段階反応モデルの識別力は部分得点モデルより全体的に高くなっている（表７）。これと類似の現象はデータを２値化して通常の２母数ロジスティックモデルで分析した場合にも生じる。たとえば４段階評定の場合、２値化は実質的には段階２を１に、段階３を４に置き換えるために生じる現象である。表７の「２値モデル」はこのようなデータ変換をした結果である。部分得点モデルに比較してやや識別力が高くなっていることが分る。このような現象が発生することは、図１の項目４の群別の平均回答結果を４値と２値の場合で比較してみると良く理解できる。ただし図の作成にあたっては、４値２値いずれの場合も全ての回答を０〜１の範囲に変換している。多値データの２値化が識別力の推定値に大きな影響を与えることが図より理解できる。さて境界反応曲線が実質的には多値の回答を２値化して得られるデータに基づき定義され、推定されるため、この２値化と類似の現象が生じている可能性もある。しかしシミュレーションの結果では、部分得点モデルの識別力と段階反応モデルの識別力の推定値は大きく異なっていなかったのだから、２値化を原因とすることにはやや疑問も残る。
もう一つの可能性として、テスト項目数の違いがある。シミュレーションでは４０項目であったが、本質問紙は９項目であり、この違いが影響した可能性がある。このため１つシミュレーションを追加した。段階反応データのデータセット１の初めの１０項目だけをとり、段階反応モデルにより交互同時推定値を求めたところ、識別力の値は表８のようになった。明らかに項目数が少なくなると識別力が大きくなる傾向があることが分る（ＭＳＥ＝０．２６４７）。段階反応モデルでは少数項目での識別力の推定にバイアスがかかることは明らかとしても、その原因がモデルに存在するのか、それとも推定方法に問題があるのかは区別されなければならない。つまり段階反応モデルそのものではなくて、同時最尤推定という方法が推定に悪影響を及ぼしている可能性もある（同時最尤推定による項目母数の推定値が一致性を持たないことは良く知られている）。このため、ＭＵＬＴＩＬＯＧ（Ｔｈｉｓｓｅｎ，１９９１）により周辺最尤推定値も算出したが、バイアスはほとんど変わらない（ＭＳＥ＝０．２５５８）。このことは推定法の問題というよりはモデルに問題があることを示唆するものであるかもしれない。なお表８からは項目７は一見すると同時最尤推定の識別力が極端に低く、反対にＭＵＬＴＩＬＯＧの推定値は妥当な値を得ているようであるが、実はＭＵＬＴＩＬＯＧは困難度において異常な推定値となっており、うまく推定できていないことには変わりは無い。このためＭＳＥの計算からは同項目を除外している。
部分得点データセット１の１０項目を利用した部分得点モデルの分析では交互同時推定のＭＳＥは、識別力が０．００９４、困難度が０．０００７であり、周辺最尤推定では識別力が０．００３２、困難度が０．００１４となった（表９）。同モデルでは交互同時推定、周辺最尤推定ともこのバイアスは認められないといって良いだろう。表１０には質問紙データを両モデルで分析し、周辺最尤推定を利用した推定値を示してある。同じく表１０より、シミュレーションと同様に、周辺最尤推定を利用しても段階反応モデルでは識別力が大きくなっていることが分る。
段階反応モデルにおいて少数項目では識別力の上方バイアスがかかることについては、慎重な検討を要するので、これについては別の研究で行うこととし、ここでは表７の同時最尤推定の結果に基づいて検討を進める。図２に項目１の部分得点モデルの項目反応曲線を、また図３に段階反応モデルの反応曲線を示した。評定結果の合計点と両モデルのθのケンドールの順位相関を求めたところ段階反応モデルとは０．９１０４、部分得点モデルとは０．９４２４の相関を得た（無回答の無いケース１５８８人のみで算出した。）。部分得点モデルの方が、合計点との相関がやや高く、その再現には適していることはシミュレーションの結果と一致している。相関の値は段階反応データのシミュレーション結果から得られた両モデルの相関と近いものとなっているが、これだけで本データは段階反応モデルに従って発生していると決めるわけには行かないだろう。その理由としては、たとえばシミュレーションデータの作成の際に多次元性などの影響を加味すれば、真値と推定値の相関だけでなく正答数（質問紙の場合は合計点）との相関も低下すると容易に予想できることなどがあげられるからである。
本節のデータは実際の調査であるため真値は不明であるからどちらのモデルが良いかを決定することは困難である。しかし段階反応モデルにおいて合計点との相関が低いことは、順位の逆転が十分説明がつくようなものであれば良いのであるが、一見で分るような性格のものではないため、モデルの利用者には逆転現象を納得しにくいということは利用の際には考慮しておいた方が良い。いずれにしろシミュレーションの結果からは、（シミュレーションの条件に近い場合は）真のθ値の推定という点では大きな差は両モデルでないことが想像される。しかし、少数項目の場合の段階反応モデルの推定値のバイアスがどのような影響をもたらすのかは、もう少し検討する必要があるだろう。いずれにしろ項目特性として識別力や項目困難度以外に大きな関心がない場合、つまり回答の各段階の困難度などに特別な関心がない場合（質問紙を利用した多くの研究はこれに該当する）には、複雑で多くの母数を推定しなければならない段階反応モデルより簡単な部分得点モデルの方が適していると言えるだろう。もちろん、個々の段階の反応にまで関心を持つ場合はこの限りではない。
文献
Ａｎｄｒｉｃｈ，Ｄ１９７８Ａｒａｔｉｎｇｆｏｒｍｕｌａｔｉｏｎｆｏｒｏｒｄｅｒｅｄｒｅｓｐｏｎｓｅｃａｔｅｇｏｒｉｅｓ．Ｐｓｙｃｈｏｍｅｔｒｉｋａ，４３，５６１−５７３．
Ｂｉｒｎｍａｕｍ，Ａ．１９６８Ｓｏｍｅｌａｔｅｎｔｔｒａｉｔｍｏｄｅｌｓａｎｄｔｈｅｉｒｕｓｅｉｎｉｎｆｅｒｒｉｎｇａｎｅｘａｍｉｎｅｅ’ｓａｂｉｌｉｔｙ．ＩｎＦ．Ｍ．Ｌｏｒｄ＆Ｍ．Ｒ．Ｎｏｖｉｃｋ（Ｅｄｓ．），Ｓｔａｔｉｓｔｉｃａｌｔｈｅｏｒｉｅｓｏｆｍｅｎｔａｌｔｅｓｔｓｃｏｒｅｓ（ｐｐ．３９５−４７９）．Ｒｅａｄｉｎｇ，ＭＡ：Ａｄｄｉｓｏｎ−Ｗｅｓｌｅｙ．
木原孝博・田中治彦・藤森進１９９７中学生・高校生の学校不適応に関する研究岡山県青少年基本調査（１９９４）に基づく分析岡山大学教育学部研究集録，１０４，１０５−１２２．
藤森進２００１項目反応理論における部分得点の処理について日本教育心理学会第４３回総会発表論文集，３９４．
藤森進２００２ａ項目反応理論におけるテストの部分得点の処理方法について未発表論文．
藤森進２００２ｂ部分得点モデルとその応用第１回心理測定研究会．
Ｍａｓｔｅｒｓ，Ｇ．Ｎ．１９８２ＡＲａｓｃｈｍｏｄｅｌｆｏｒｐａｒｔｉａｌｃｒｅｄｉｔｓｃｏｒｉｎｇ．Ｐｓｙｃｈｏｍｅｔｒｉｋａ，４７，１４９−１７４．
野口裕之１９９９適応型テストへの応用：ＣＡＴ方式による識別性検査（渡辺直登・野口裕之編著「組織心理測定論」第８章白桃書房）．
Ｓａｍｅｊｉｍａ，Ｆ．１９６９Ｅｓｔｉｍａｔｉｏｎｏｆｌａｔｅｎｔａｂｉｌｉｔｙｕｓｉｎｇａｒｅｓｐｏｎｓｅｐａｔｔｅｒｎｏｆｇｒａｄｅｄｓｃｏｒｅｓ．ＰｓｙｃｈｏｍｅｔｒｉｋａＭｏｎｏｇｒａｐｈ，Ｎｏ．１７．
Ｔｈｉｓｓｅｎ，Ｄ１９９１Ｍｕｌｔｉｌｏｇｕｓｅｒ’ｓｇｕｉｄｅ．Ｃｈｉｃａｇｏ，ＩＬ：ＳｃｉｅｎｔｉｆｉｃＳｏｆｔｗａｒｅ．

Claims

入力装置と出力装置とを備えた第１のコンピュータと、インターネットを含むネットワークを介して前記第１のコンピュータと接続されており入力装置と出力装置とを備えた第２のコンピュータと、前記ネットワークを介して前記第１及び第２のコンピュータと接続されたテスト管理サーバと、前記テスト管理サーバからアクセス可能であって難易度と識別力とを含む項目パラメータが予め推定されている複数の問題が記憶された問題データベースとによって構成され、１人の受験者にｎ問の問題を出題し、出題されたｎ問の問題に対する前記受験者の反応から前記受験者の能力θを推定するテスト・システムであって、
前記テスト管理サーバは、
前記第１のコンピュータから送信されたリクエストに応答して、１≦ｊ≦ｎである問題ｊに対し満点を１として０≦ｒ_ｊ≦１である部分得点ｒ_ｊを許容する態様で採点されうるｎ問の問題を前記問題データベースから選択し前記第１のコンピュータに送信する手段と、
前記問題データベースから選択され前記第１のコンピュータに送信された問題に対して前記第１のコンピュータから返送された解答を記憶する解答記憶手段と、
前記第２のコンピュータから送信されたリクエストに応答して、前記解答記憶手段に記憶されている解答を読み出し前記第２のコンピュータに送信する手段と、
前記第２のコンピュータに送信された解答に対して与えられた部分得点ｒ_ｊを前記第２のコンピュータから受信し記憶する部分得点記憶手段と、
前記部分得点記憶手段に記憶されている部分得点ｒ_ｊと前記問題データベースに記憶されている問題ｊの項目パラメータとを用いて、当該部分得点ｒ_ｊを獲得した受験者の能力θを推定する能力推定手段と、
を備えており、
前記能力推定手段において、Ｐ_ｊ（θ）は、部分得点ｒ_ｊを問題ｊに固有であって前記受験者が正答１又は誤答０のいずれか一方の潜在的反応を取り得る潜在的問題をｓ_ｊ回繰り返し実施したときに前記受験者が潜在的に取りうる正誤反応の平均であると想定した場合に、前記受験者が前記潜在的問題に正答する確率であり、Ｑ_ｊ（θ）は１−Ｐ_ｊ（θ）である場合に、

によって表される対数尤度ｌ_ｐａｒｔ（θ）を用いて受験者の能力θが推定されることを特徴とするテスト・システム。
請求項１記載のテスト・システムにおいて、前記Ｐ_ｊ（θ）は、２パラメータ・ロジスティック・モデルを用いて、

と表現され、この数式４１におけるａ_ｊ及びｂ_ｊはそれぞれが前記問題データベースに記憶されている問題が有する固有の特性である識別力と困難度とであり、Ｄは１．７という定数であることを特徴とするテスト・システム。
請求項２記載のテスト・システムにおいて、実際に観測される問題ｊに対する部分得点ｒ_ｊが顕在的な複数の正誤問題の平均によって構成されている場合にも、これらの正誤問題に共通する正答確率を数式４１で表現し、数式４０を用いて受験者の能力θが推定されることを特徴とするテスト・システム。
請求項１ないし請求項３の任意の請求項に記載のテスト・システムにおいて、テストが実施された集団の能力分布を仮定した上で、ｓ_ｊ回の正誤の和である２項分布と仮定された能力分布との積を能力の次元で積分して部分得点の理論的な分布関数を求め、求められた理論的な分布関数と実際のデータの部分得点の経験的な分布関数が最もよく一致するように、潜在的な問題の繰り返し回数であるｓ_ｊを推定する手段を更に備えていることを特徴とするテストシステム。
請求項１ないし請求項４の任意の請求項に記載のテスト・システムにおいて、前記第１及び第２のコンピュータにおける前記出力装置と前記入力装置とはそれぞれ音声出力装置と音声入力装置とを含み、前記テストサーバに送信され記憶される解答は音声データを含むことを特徴とするテスト・システム。
入力装置と出力装置とを備えた第１のコンピュータと、インターネットを含むネットワークを介して前記第１のコンピュータと接続されており入力装置と出力装置とを備えた第２のコンピュータと、前記ネットワークを介して前記第１及び第２のコンピュータと接続されたテスト管理サーバと、前記テスト管理サーバからアクセス可能であって難易度と識別力とを含む項目パラメータが予め推定されている複数の問題が記憶された問題データベースとによって構成され、１人の受験者にｎ問の問題を出題し、出題されたｎ問の問題に対する前記受験者の反応から前記受験者の能力θを推定するテスト・システムを制御する方法であって、
前記テスト管理サーバにおいて、
（１）前記第１のコンピュータから送信されたリクエストに応答して、１≦ｊ≦ｎである問題ｊに対し満点を１として０≦ｒ_ｊ≦１である部分得点ｒ_ｊを許容する態様で採点されうるｎ問の問題を前記問題データベースから選択し前記第１のコンピュータに送信するステップと、
（２）前記問題データベースから選択され前記第１のコンピュータに送信された問題に対して前記第１のコンピュータから返送された解答を記憶するステップと、
（３）前記第２のコンピュータから送信されたリクエストに応答して、前記ステップ（２）において記憶された解答を読み出し前記第２のコンピュータに送信する手段と、
（４）前記第２のコンピュータに送信された解答に対して与えられた部分得点ｒ_ｊを前記第２のコンピュータから受信し記憶するステップと、
（５）前記ステップ（４）において記憶された部分得点ｒ_ｊと前記問題データベースに記憶されている問題ｊの項目パラメータとを用いて、当該部分得点ｒ_ｊを獲得した受験者の能力θを推定するステップと、
を含んでおり、
前記ステップ（５）において、Ｐ_ｊ（θ）は、部分得点ｒ_ｊを問題ｊに固有であって前記受験者が正答１又は誤答０のいずれか一方の潜在的反応を取り得る潜在的問題をｓ_ｊ回繰り返し実施したときに前記受験者が潜在的に取りうる正誤反応の平均であると想定した場合に、前記受験者が前記潜在的問題に正答する確率であり、Ｑ_ｊ（θ）は１−Ｐ_ｊ（θ）である場合に、

によって表される対数尤度ｌ_ｐａｒｔ（θ）を用いて受験者の能力θが推定されることを特徴とするテスト・システム制御方法。
請求項６記載の方法において、前記Ｐ_ｊ（θ）は、２パラメータ・ロジスティック・モデルを用いて、

と表現され、この数式４３におけるａ_ｊ及びｂ_ｊはそれぞれが前記問題データベースに記憶されている問題が有する固有の特性である識別力と困難度とであり、Ｄは１．７という定数であることを特徴とする方法。
請求項７記載の方法において、実際に観測される問題ｊに対する部分得点ｒ_ｊが顕在的な複数の正誤問題の平均によって構成されている場合にも、これらの正誤問題に共通する正答確率を数式４３で表現し、数式４２を用いて受験者の能力θが推定されることを特徴とする方法。
請求項６ないし請求項８記載の方法において、
（６）テストが実施された集団の能力分布を仮定した上で、ｓ_ｊ回の正誤の和である２項分布と仮定された能力分布との積を能力の次元で積分して部分得点の理論的な分布関数を求め、求められた理論的な分布関数と実際のデータの部分得点の経験的な分布関数が最もよく一致するように、潜在的な問題の繰り返し回数である_ｊ