WO2004029906A1

WO2004029906A1 - テスト・システム及びその制御方法

Info

Publication number: WO2004029906A1
Application number: PCT/JP2003/012252
Authority: WO
Inventors: Susumu Fujimori; Hitoshi Yamashita
Original assignee: Benesse Corporation
Priority date: 2002-09-25
Filing date: 2003-09-25
Publication date: 2004-04-08
Also published as: JPWO2004029906A1; US7103508B2; GB0507837D0; KR100747141B1; GB2409314A; KR20050042743A; AU2003266616A1; JP3645901B2; CN1578972A; US20050256663A1

Abstract

　本発明によると、英語能力テストなどにおいて正誤の２値的な評価だけでなく部分得点を与える採点を可能にするテスト・システムが提供される。このテスト・システムでは、入出力装置（２０７、２０８）を含むコンピュータ（１０１、１０２）とインターネットなどのネットワーク（１０３）とが利用され、項目パラメータ及び能力の推定に従来の項目反応理論を修正した部分得点モデルが用いられる。この部分得点モデルでは、部分得点を、同一のパラメータを有する複数の項目の正誤の平均として構成されるものと想定している。本発明のテスト・システムを用いることにより、外国語テストにおけるライティングやスピーキングのように正誤だけでは判定困難であって部分得点を要するような出題形式のテストの制御が、従来よりも容易になる。

Description

明細書テス卜 · システム及びその制御方法技術分野

本発明は、テス卜 · システム及びその制御方法に関する。更に詳しくは、本発明は、従来型の項目反応理論を修正した部分得点モデルに依拠し、採点の際に単なる正誤の 2値だけでなく複数の段階を有する部分得点としての評価も許容するテス卜を従来よりも簡略化された態様で設計、実施及び評価するテス卜 · システ厶及びその制御方法に関する。背景技術

今日、テストを設計しその結果を処理する際に用いられる理論として、古典的テス卜理論と項目反応理論との 2つが広く知られている。これらのテス卜理論に関しては、例えば、渡部洋編著『心理統計の技法』（福村出版、 2 0 0 2年）の 6章及び 7章にそれぞれ一般的な解説が与えられている。なお、テス卜理論におけるテス卜とは、学力テス卜だけでなく、心理学における性格検査や臨床検査なども含むのであるが、この出願では、そのような広い応用分野を視野に入れた抽象的な説明を行うのではなく、理解を容易にするために、特に外国語試験などの学力テストを念頭において具体的な説明を試みたい。なお、項目反応理論における「項目」とは、学力テス卜の場合であれば問題を意味する。従って、この出願で具体例に即した説明する際には、「項目」ではなく「問題」、「被験者」ではなく「受験者」など、学力テス卜における一般的な用語を用いる。しかし、本発明は、一般のテスト理論に関する汎用的なものであって、学力テス卜だけに限定されることはなく、テス卜理論が一般的に適用される上記の分野にも適用が可能である。

古典的テスト理論は、現在広く用いられているが、得られる結論が受験者の特性の統計的な分布に依存するという特徴を有する。従って、古典的テス卜理論に依拠している場合には、特性が異なる受験者の集団に対して実施された複数のテス卜で得られた平均点や偏差値を比較することは、適切でない。

古典的テス卜理論の短所を克服する理論として項目反応理論があリ、現在では, この項目反応理論に基づいて設計され結果が処理される学力テス卜が多く存在する。例えば、最近出版された項目応答理論の教科書である豊田秀樹著『項目反応理論入門編』（朝倉書店、 2 0 0 2年）の第 1 6頁には次のような記述がある。「有名な語学試験である T 0 E F L…は 1年間に何度も実施される。しかも世界中で実施される。同一の被験者が再受験する可能性があるから同じ項目の集まリである同一のテス卜は 2度と使用できない。このため平均点や通過率は、テス卜ごとにそれぞれ異なる。地域によって英語力にも差があるから特性値の分布も異なる。したがって、偏差値や正規得点や経験分布関数を使用して、受験結果を異なるテス卜間で比較することは不可能である。 …丁 O E F Lの点（たとえば、 5 0 0点、 6 5 0点など）は、どこで受験したか、いつ受験したか、どの問題を解いたかに関係なく留学の可否の判断に利用される。つまり質な受験者が、異なる項目を、異なる日時に、異なる場所で受験したにも関わらず、被験者は、統一された処遇を受けることができる。この処遇を可能にするテストを継続的に、前向きに運用するシステムを構築する数理モデルが、 …項目反応モデルである。」また、特開 2 0 0 2 — 0 0 6 7 3 4号公報には、出題が予定される試験問題を予め樹状に配置しておき、受験者による解答の正否に応じて樹状に配置された経路に沿って問題を順に出題し、単に正解の数だけでなく、どのような経路で最終地点まで到達したかという途中経過を考慮して受験者の能力を推定するテス卜の方法及びシステムが開示されている。この公開特許公報にも、項目反応理論への言及が見られる。

しかし、従来型の理論に基づく項目反応モデルでは、 2値によって採点が可能な〇X式の解答以外の、例えば、 1 と 0との間の部分点を許容せざるを得ないような形式の問題の処理が容易ではなかった。段階反応モデルなど、多値の結果も扱えるように構築された方法も古くから存在してはいるが、従来の方法は後述する短所を有している。従って、部分得点を許容しなければ的確な採点が困難な英作文やスピーチなどは、コンピュータ適応型テス卜（C A T ) に含まれないことが通常である。例えば、上述の特開 2 0 0 2 — 0 0 6 7 3 4号公報に開示されている発明では、項目反応理論の利用が明言され、出題されるべき問題が予め樹状に配置されているが、受験者がある問題に正解したら右下、誤答したら左下に配置された問題に移動するというように、解答が正誤のいずれかの 2値であることが予定されている。発明の開示

本発明は、このような従来型の 2値の解答を予想する C A Tとは異なり、部分得点を与えるような採点を許容するテス卜 · システムであって、しかも、従来の段階反応モデル等の複雑なモデルよリもはるかに容易に部分得点の処理を可能にするテス卜，システム及びその制御方法を提供することを目的とする。

本発明によると、入力装置と出力装置とを備えた第 1 のコンピュータと、インターネッ卜を含むネッ卜ワークを介して前記第 1 のコンピュータと接続されておリ入力装置と出力装置とを備えた第 2のコンピュータと、前記ネッ卜ワークを介して前記第 1及び第 2のコンピュータと接続されたテス卜管理サーバと、前記テス卜管理サーバからアクセス可能であって難易度と識別力とを含む項目パラメ一夕が予め推定されている複数の問題が記憶された問題データベースとによって構成され、 1人の受験者に n問の問題を出題し、出題された n問の問題に対する前記受験者の反応から前記受験者の能力 0を推定するテス卜 · システムが提供される。前記テス卜管理サーバは、（ 1 ) 前記第 1 のコンピュータから送信されたリクエス卜に応答して、 1 ≤ j ≤ nである問題 j に対し満点を 1 として 0≤ r .≤ 1である部分得点 r 』を許容する態様で採点されうる n問の問題を前記問題データベースから選択し前記第 1 のコンピュータに送信する手段と、（2 ) 前記問題データベースから選択され前記第 1 のコンピュータに送信された問題に対して前記第 1 のコンピュータから返送された解答を記憶する解答記憶手段と、（3 ) 前記第 2のコンピュータから送信されたリクエストに応答して、前記解答記憶手段に記憶されている解答を読み出し前記第 2のコンピュータに送信する手段と、 ( 4 ) 前記第 2のコンピュータに送信された解答に対して与えられた部分得点 r jを前記第 2のコンピュータから受信し記憶する部分得点記憶手段と、（ 5 ) 前記部分得点記憶手段に記憶されている部分得点 r 』と前記問題データベースに記憶されている問題 jの項目パラメータとを用いて、当該部分得点 r _;を獲得した受験者の能力 0を推定する能力推定手段とを備えている。そして、（ 5 ) の前記能力推定手段においては、 Ρ 』 ( Θ ) は、部分得点 r _;を問題 j に固有であって前記受験者が正答 1又は誤答 0のいずれか一方の潜在的反応を取り得る潜在的問題を s j回繰り返し実施したときに前記受験者が潜在的に取りうる正誤反応の平均であると想定した場合に、前記受験者が前記潜在的問題に正答する確率であり . 【数 1 】

と表現され、この数式 1 における a』及び b _;はそれぞれが前記問題データべ一スに記憶されている問題が有する固有の特性である識別力と困難度とであリ、 D は 1 . 7という定数であリ、 Q j ( Θ ) は 1 一 P j ( Θ ) である場合に、

【数 2】 ' (^θ ) = ^SJ ( ^ {^pj ( ) + - )^ln {QJ (^Θ：

によって表される対数尤度^ を用いて受験者の能力 0が推定される。ただし、上記の数式 1 として表現されている P j ( Θ ) の関数形は単なる例示であり、 P j ( Θ ) がこの表現形式に限定されることは必要なく、様々な形式でありうる。

ここで注意すべきは、観測可能なものは、受験者が問題 j に対して獲得する 0 から 1 までの間の値を取りうる部分得点 r jであり、潜在的問題に対する受験者の潜在的な反応は観測できないという点である。

更に、本発明によるテス卜 · システムによれば、実際に観測される問題 j に対する部分得点が顕在的な複数の正誤問題の平均によって構成されている場合にも、これらの正誤問題の正答確率の平均を数式 1 で表現し、数式 2を用いて受験者の能力 0を推定することが可能である。

更に、本発明によるテス卜 ' システムによれば、テス卜が実施された集団の能力分布を仮定した上で、回の正誤の和である 2項分布と仮定された能力分布との積を能力の次元で積分して部分得点の理論的な分布関数を求め、求められた理論的な分布関数と実際のデータの部分得点の経験的な分布関数が最もよく一致するように、潜在的な問題の繰り返し回数であるを推定することも可能である。更に、本発明によるテスト · システムにおいて、前記第 1及び第 2のコンビュ一夕における前記出力装置と前記入力装置とがそれぞれ音声出力装置と音声入力装置とを含む場合には、前記テス卜サーバに送信され記憶される解答として音声データを含ませることも可能である。この場合には、第 1 のコンピュータにおいてリスニングの問題を出題したり、受験者に実際に発話させた内容を採点対象とするスピ一キングの問題も出題可能となる。

なお、本発明は、上述のテスト · システムを制御する方法としても実現することができる。更に、本発明は、そのようなテス卜 · システム制御方法を実装するコンピュータ · プログラムが記憶されているコンピュータ可読な記憶媒体自体として存在することもありうる。更には、そのようなテス卜 · システム制御方法を実行するコンピュータ · プログラム自体としても存在しうる。図面の簡単な説明

図 1 は、本発明によるテス卜 · システムの一例の概要である。

図 2は、本発明によるテス卜 · システムを構成する受験者ュニッ卜の概要である。

図 3は、本発明によるテス卜 · システムを構成する採点者ュニッ卜の概要である。

図 4は、本発明によるシステムを用いたテス卜実施の概要を示す流れ図であり, 特に、本発明が依拠する部分得点に関係するライティング及びスピーキングに関する受験及び採点のプ口セスが示されている。

図 5は、本発明によるテス卜 · システムを用いた能力推定の有効性を確認するために実施された被験者 1 2名によるスコア安定性確認調査の結果を示すグラフである。

図 6は、図 6 aから図 6 gで構成され、それぞれが、図 5のスコア安定性確認調査における被験者 1 2名のスコアを示すグラフである。

図 7は、図 7 aから図 7 dで構成され、繰り返し数 s 』.を推定する際に、真の s - 5 、 1 0 、 2 0 、 4 0の場合に、推定された経験分布と理論分布との分布関数の差の最大値（コルゴモロフ ·スミルノフ検定の統計量）を繰り返し数 3〜1 0についてプロッ卜したものである。

図 8は、図 8 a及び図 8 bで構成され、それぞれが、英語能力テス卜での繰り返し回数 s 』の推定への適用例である。発明を実施するための最良の形態

本発明の基礎として用いる部分得点モデルについて述べる前に、一般的な 2値の項目反応モデルについて簡単に説明する。 2値とは、解答が正答又は誤答の 2 つの値だけを取るという意味である。このモデルでは、受験者が問題に正答する確率を、受験者の能力を表すパラメータと問題を特徴付けるパラメータとを用いて表現する。例えば、本発明では、各問題を 2つのパラメータ（識別力 a及び困難度 b ) によって特徴付ける 2母数（パラメータ）ロジスティック 'モデルを用いるのであるが、この場合、能力 0を有する受験者 i が問題 j に正答する確率は次のように書くことができる。

【数 3】

ここで、 xは、受験者 i が問題 j に正答するならば 1 であり、誤答するならば 0 であるダミー変数である。また、 Dは定数である。この場合に、 n問の問題を終了した時点での受験者の能力 0の尤度 L _B ( Θ ) は、次のように書くことができる。

【数 4】

ここで、 P ( 0 ) は数式 3の右辺の正答確率であり、 Q ( 0 ) は誤答確率つまり 1一 P ( 0 ) である。項目応答理論では、数式 4の尤度 L _B ( Θ ) の最大値を与える 0の値を受験者の能力パラメータの推定値とする最尤推定法が知られ、広く用いられている。ただし、数式 4の右辺は積の形式で書かれており最大値を求めるのが容易でないので、和の形式に直して考察するため、両辺の自然対数を取つた対数尤度 I n ( L _B ( Θ ) ) の最大値を求めるのが一般的である。これは、自然対数は単調増加関数であって、尤度 L _B ( Θ ) の最大値を与える 0とその自然対数 I n ( L _B ( θ ) ) の最大値を与える 0とが一致するからである。

以上が、従来から公知である一般的な 2母数ロジスティック 'モデルであるが, 本発明において用いる部分得点モデルでは、問題への反応（解答）の評価が正誤という 2値にとどまらず、部分点として評価されることが可能となる。具体的には、数式 4のダミー変数 X _;が 1及び 0の 2値だけでなく、 0から 1 までの 3つ以上の複数の値（例えば、 0 、 0 . 2、 0 . 4、 0 . 6 、 0 . 8、 1 の 6つの値）を取ることを許容する。受験者 i の問題 j に対する部分得点を r ,』とすると、部分得点に対応する尤度は、次のように表すことができる。

【数 5】

具体的な外国語試験、例えば英語の試験を考えると、正誤問題ゃ多肢選択式問題であれば、正答及び誤答の 2値として処理できる。しかし、英作文や英語での発話（質問に対する口頭での応答）は単純な正答又は誤答として評価するのは困難であり、部分点を与えることによって評価することが必要となる。従って、従来型の 2値の項目応答モデルを用いることはできない。しかし、数式 5によれば, 任意の形式を有するテス卜の採点結果を部分得点に変換して分析用のデータとすることができる。

数式 5の意味を解釈するために、同一の問題パラメ一夕を有する s j個の問題が同じ受験者に向けて出題されるとする。学力テス卜の場合には、パラメータは同じであるが内容としては別の問題を提示すると想定するのが無理のない想定である。性格検査などに用いられる質問紙では、内容的にも同一の問題を提示するケースも考えられるが、これは項目反応理論の前提である局所独立の仮定に反する可能性も生じるので、ここでは、一応同一パラメータであるが内容の異なる質問項目を提示すると想定する。

一般の項目反応モデルでは、このような想定条件下の尤度は、数式 4から次のように表すことができる。【数 6】

すべての問題に関して繰り返しの解答 S jが等しい（= s ) と仮定した場合、の数式 6の s乗根をとると、次の数式が得られる。

【数 7】

L _B ( Θ )と L _B ( Θ ) *との最大値を与える 0は同一であるので、最尤推定値は. 数式 6及び数式 7で同じである。数式 7において

【数 8】

とおけば、 L _{p a r t} ( Θ ) と L _B* (Θ)とは形式上同じとなる。つまり、パラメ一夕が同じである問題の繰り返しによる正誤の平均によって部分得点が表現される場合には、本発明が依拠する部分得点モデル L _{p a r t} ( θ ) の解と一般の項目反応理論による L _B ( Θ )の解とは、と L _B* ( Θ ) を通じて一致する。以上によリ、同一パラメータの問題を複数回実施し、その正誤の合計又は平均により成績をつけるようなタイプの部分得点に関しては、当該項目のすべての実施結果に関してその平均を取ることにより 0から 1 までの間の部分得点を作ることにすれば, 部分得点モデル L _{p a r t} ( Θ )によって処理しても、従来の 2値データによる処理と同一の結果となることがわかる。数式 8から、提示の回数 s 』を増加させれば、実質的に 0から 1 までの任意の部分得点を表現できることが導かれる。なお, 数式 6と数式 7との間で s乗根分の相違があると実際には不便なので、次のように、数式 5を s乗して、その自然対数を部分得点化の対数尤度とするのが好ましい。

【数 9】 { ln(Pバ 0 )) + (l- ) ln(j¾ (0: さて、実際の学力テストでは、相互に関連する複数の問題が出題されることがある。外国語テストの例では、一定の長さの文章に関して複数の問題が出題される場合などがこれに該当する。しかし、このような問題群の存在は、項目反応理論の局所独立の仮定に反する可能性がある。

因子分析的に考えてみると、仮にテス卜の得点 zが、テス卜問題の全体で測定する因子 f ，と、ある問題群」に共通する因子 f ₂と、各問題に独自な因子 uから構成されるとすれば、受験者 i による問題 j の得点は次のように表現することができる。

【数 1 0】 zij = fn^aij + fi2^a2j ^{+ U}j

ここで、 aは因子負荷である。問題 j が問題群」に属する場合には a ₂ jはゼロでなく、問題 j が問題群 J に属する場合には a ₂ j = 0である。数式 1 0において問題群」についての和を取ると、次のようになる。

【数 1 1 】

^ = ^ 。" ⁺ ^ん + ^ "ゾ右辺第 2項は問題群」に共通する因子 f ₂に関する和であるが、因子の直交性の仮定からは、他の問題との相関を持たず独自性部分と見ることができる。項目反応理論でも項目に固有な成分を想定しているわけであるから、右辺第 2項はこれに該当する。すなわち、局所独立の仮定に触れずに済むことになる。因子 f ，を項目反応理論の能力パラメータ 0と仮定すれば、テス卜で相互に関連する問題群の和を取って部分得点として処理することには不都合はない。局所従属の関係にある問題に関して本発明が提唱するような処理を行うことは、項目反応理論の仮定からはむしろ望ましいとさえいえる。

もし完全な同一パラメータの項目でなく類似パラメータの項目の繰り返しを想定する場合は、一般の 2値の尤度は項目 j の繰り返し提示の正誤パターンによつて異なり、次のようになる,

【数 1 2】

0固定、項目パラメータ所与とする。数式 1 2の対数尤度をとり、類似項目 j に係わる部分だけを取り出すと

【数 1 3】

が得られる（ただし正答確率などに対する添え字 j 、及び 0は省略する）すると、その正誤反応 Xに関する期待値は

【数 1 4】

. ))= j^^ln( + (l-^)ln(l-^)) となる。また

【数 1 5】

P 【数 1 6】

とするとき、 A P _kは、各項目が類似項目であるため微小と仮定する。 A P _kの 2次以上の項を無視すると

【数 1 7】

s Pln(P) + ^P_kln{F) + ^P_k

【数 1 8】 ί- ,)ΐη(ΐ- ,) = (ΐ-Ρ-Δ^)ΐη(ΐ-Ρ-ΔΡ,

[-P)ln(l-F)-AP_k -ΔΡ,Ιη(ΐ-Ρ) が成立する。数式 1 7及び 1 8を数式 1 4に代入し、

【数 1 9】

A =0 であることを考慮に入れれば

【数 2 0】

^Pln( ) + (l- )ln(l-P

5^Pln P + 1-P In 1- 次に部分得点についても検討してみょう。先程と同様に全ての項目で繰り返しの回答 S jが等しい（= s ) と仮定した場合、数式 9の正誤の確率を数式 1 5の平均反応確率と

【数 2 1 】

¾(0)=1- (0) で置き換える。すると

【数 2 2】

となる。上式より特定の類似問題 j に係わる部分だけを取り出し、また部分得点 rが類似問題 j の正誤の平均であることから

【数 2 3】

となる（ただし正答確率などに対する添え字 j 、及び 0は省略する）するとその期待値は

【数 2 4】

= 5 {p in ( ) + (l - )ln (l - P)}

であり、数式 2 0及び 2 4から

【数 2 5】

が成立する。尤度を構成する全ての類似項目に数式 2 5が成立すれば、部分得点の最尤解と、 2値データによる解は近似的に一致すると考えられる。

なお、以上で、本発明における部分得点モデルは、同一パラメータの問題又は類似パラメータにおいて繰り返し定義の回数が同一であれば、通常の 2値の項目反応モデルと対応関係を有することを既に示した。しかし、現実の適用場面では, すべての問題の繰り返し回数が同一である、つまり、部分得点の段階数がどの問題についても同一であるとは限らない。例えば、学力テス卜においては、初めに 2値的に採点される易しい項目があリ、後半に多値的に採点される難しい項目が配置されることが多い。このような状況に対応するためには、数式 9を次のように拡張する必要がある。

【数 2 6】 (r. In (Pj (Θ )) + (1 - )ln (β_; (θ )))

このような拡張型部分得点モデルでも、一般の 2値モデルの最尤解と数式 2 6 の解とは近似的に一致する。

次に、 2項分布を利用した繰り返し回数の推定について説明する。拡張された部分得点モデル【数 2 7】 ' (⁰ ) = ( . In (Pj (θ )) + (1一 r. )ΐη (β_; (θ ))) を適用する場合、各項目の繰り返し回数はシミュレ一ションでもない限り実際には不明のことが多く推定する必要がある。部分得点の性質によりの推定は異なり、以下で説明を加える第 1 に、部分得点が複数の正誤問題の平均値である場合について考察する。ある問題 j の部分得点が、 1 組の組問などからなる複数の正誤 2値問題の平均値 (つまり複数の問題の合計点を採点結果とする場合）である場合は、それらの問題の数が、そのまま繰り返し数の推定値となる。第 2に、部分得点が質問紙などの段階評定である場合について考察する。質問紙で多用される評定尺度の場合、段階数を m + 1 とするとき繰返し数 sは mと推定できる，たとえば質問項目が、「 1 . よくあてはまる」 Γ 2 . ややあてはまる」 Γ 3 . ややあてはまらない」 Γ 4 . まったくあてはまらない」の 4段階の評定で回答を求めるものであるならば、回答結果を 0 ~ 1 の部分得点として処理するために、各回答を； c とするとき（一 1)/3 と変換して「0,1/3,2/3,1」の 4 段階をとる部分得点データとして分析することになる。これは、 3 つの 2値項目の得点の和を 3で割ったことと同じである，つまり質問紙の回答が m+l段階の評定であるならば、 2値データの繰り返し数^.は mであると推定できる。第 3に、部分得点が、複数の正誤 2値問題の平均値でなく、採点者の評定のような採点結果であり、比較的段階数が少ない場合について考察する。最も簡単なの推定方法は、部分得点 rが 1段階の得点であるならば、元の 2値データの項目の繰り返しは s であると推定するものである。部分得点モデルの考えでは、 2値データの合計を繰り返し回数で割ったものが部分得点と対応していたことから、たとえば、採点者の評価結果が 0、 0. 5、 1 の 3段階で表現されるのであれば、これは 2つの 2値項目の得点の和を 2で割ったことに他ならない.もちろんこれが成立するためには、得点の発生する可能性のある各段階間の等間隔性が必要となる。同じ 3段階の部分得点であっても 0、 0. 5、 1 と 0、 0. 7 5 , 1 . 0の持つ意味は異なる，部分得点が同一母数項目の繰返しにより生ずるという仮定からは繰返し数 2で後者のパターンが生じるとは考えにくく、より大きな繰返し数を仮定する必要があるだろう。たとえば 0、 0. 2 5、 0. 5、 0. 7

5、 1 . 0のパターンを想定し、繰返し 4を考える場合である. 第 4に、部分得点が複数の正誤 2値問題の平均値でなく、採点者の評定のような採点結果であり、段階数が多い場合について考察する。既に述べたように部分得点 r が m+l 段階であるとき 2値の正誤項目からこれを構成するためには繰返し回数 sは mであることが必要である。段階数が少ない場合は、前節の推定で良いと考えられるが、段階数が多くなると問題が発生する可能性が高くなる。たとえば、 1 0 0点満点のテス卜で、 1 人の結果を除いた解答に採点者が 1 0点刻みに採点した場合、段階数は 1 1段階で繰返し数は 1 0である。しかし採点者が残る 1 人の解答結果に 6 9点という点をつけたとするとその途端に、繰返し数を 1 0 1 としないと部分得点化が困難となる。また得点を整数に限らず実数も許容する場合には、このような考え方では繰返し数を推定することは困難となる。

以上のような問題を解消するため、ここでは若干の仮定を設けた上で繰返し数を推定する。問題 j の部分得点は、当該の問題に関係する潜在的な問題の繰り返し実施による正誤の平均で部分得点が構成されることを仮定し、正答確率は P j、誤答確率は Q j = l— P j とする（以上部分得点の仮定）。このとき 0を固定すれば、部分得点 Rが 0,ΐ//η，2//η，···，1をとる確率 P_m(/? = r|0)は 2項分布

【数 2 8】

P_m(x =χ\θ)=

x = 0,l,...,m

に一致する。すると母集団全体では、 m回の繰返しで部分得点が rとなる確率は、【数 2 9】

であり、その分布関数は

【数 3 0】

となる。ここでは 0の母集団分布である。この理論分布とデータから得られる経験分布が一致することが望ましい。このため理論分布と経験分布の一致度をコルモゴロフ ·スミルノフ検定の統計量

【数 3 1 】

値 = max| (V)-F'(r)|

で評価する。ここで^ (r)は、理論分布における段階 rまでの分布関数の相対累積度数であリ、 F'(r)は経験分布における段階 rまでの相対累積度数である。

実際にコルモゴロフ · スミルノフ検定の統計量を求めるためには、理論分布、経験分布とも rが離散量であり、また両者で段階の値が必ずしも一致しないことから生じる比較の困難さがあり、ここでは次のような方法で比較することにした, まず φ ( を標準正規分布と仮定する，もちろんこれは必要に応じて 0の母集団分布と想定される任意のものを用いることが出来る。これにより、数値積分を行えば数式 2 9が求まり、その結果数式 3 0が分る。 Rは 0、 l Z m、 2 m . - 、 1 の m + 1段階の値を取り得るわけだが、 Rが潜在的には連続量であると仮定すれば、たとえば番目の段階値 / の度数は、区間に含まれる Rの度数の反映に他ならない，このため、 f番目の段階値 //«までの理論分布関数 F / )と比較する経験分布関数 ^ 、は、部分得点としての区間 [ 0 , 1 ]の内の区間 0， + の相対累積度数とすることにする,

m 2m

m

以上のような方法で、最小のコルモゴロフ ■ スミルノフ検定の統計量を与える段階数 m を、繰返し数の推定値とすることが可能であり、以下のシミュレ一ション及び実際のデータへの適用により、この方法の有効性が確 +認されている。第 5に、シミュレーションによる繰返し数の推定法の検討について述べる。問題 jの部分得点が正誤 2値問題の繰返し提示による正誤平均として表現されることを仮定して、シミュレーションによりこれを再現し、繰り返し数として 5. = 5 . 1 0、 2 0、 4 0の 4種類（ 1 つの問題の部分得点データを作るために 2 値の問題を 5〜 4 0個利用したということ）を行い、 4 0問題 3 0 0 0人分のデー夕を作成した。

前節の繰返し数の推定法は、項目母数が与えられていなければならない。このため作成された部分得点データに基づいて項目母数と能力母数の同時推定を行つた（この段階での繰返し回数 .は 1 ) 。

図 7 aは、真の s = 5のとき、推定された経験分布と理論分布の分布関数の差の最大値（コルモゴロフ · スミルノフ検定の統計量）を、繰返し数 s = 3〜 1 0 についてプロッ卜したものである。ここで問題にしているのは繰返し数が大きいときのケースであるから、繰返し数 s = 1 、 2は、元々不要であるので省略している（ 2項分布を利用した繰返し数の推定は最低でも s = 3からとしたい）。この図より明らかに真の繰返し数 5 の点でコルモゴロフ · スミルノフ検定の統計量が最小値をつけていることが分る。図 7 bには s = 1 0、図 7 cには s = 2 0、図 7 dには s = 4 0の場合を示したが、いずれも真の繰返し数で最小値をとつていることが分る，

第 6に、能力検査への適用例として、実際のデータでの繰り返し数の推定例について述べる。英語力テス卜での繰返し回数 .の推定への適用例を示す。同テス卜は受験者 9 4 8 0人、問題数 4 3項目のデータであり、長文読解に絡んで複数の小問をあてているため 5問組が 2組存在している。両組の小問の正誤平均で部分得点を作成し、前節の繰返し数の推定を試みた。その結果得られたのが図 8 a 及び図 8 bである。どちらも当該群の問題数の 5でコルモゴロフ ·スミルノフ検定の統計量は最小値をとっていることが分り、推定の有効性が示されている。以上では、本発明によるコンピュータ適応型テス卜設計及び処理システムにおいて用いられる部分得点モデルについて説明した。この部分得点モデルは、 2値の項目反応モデルを修正することによって得られている。従って、この部分得点モデルでは、推定すべきパラメータの数も 2値モデルの場合と同じであり、問題の特性に特別な関心があるとき以外は、学力テス卜の設計及び結果処理の際に、従来試みられてきたような複雑な多値モデルを利用する必要性は少ないといえよう。

本発明において用いられる部分得点モデルを従来から公知であった段階反応モデルなどと比較すると、次のようなことが明らかとなる。（ 1 ) 項目反応理論では、通常はデータが 2値で 1次元であることを要求しているが、部分得点モデルは、多値、多次元データに適用できる。（ 2 ) 部分得点モデルは（段階反応モデルゃ他の多値モデルに比較して）簡明なモデルで利用者に理解しやすい。（ 3 ) 部分得点モデルは、（段階反応モデルや他の多値モデルと違い）一般によく利用されている 2母数ロジスティックモデルとシームレスなので、結果の解釈も容易であり、 2値と多値の混在データの分析にも便利である。（4 ) 部分得点モデルは、モデルのパラメータの数が（段階反応モデルや）他のモデルに比較して少なく、推定に問題が生じない。（5 ) 部分得点モデルは、どのような解答（回答）結果でも 0から 1 の部分得点に変換すれば適用できるので応用範囲が広い。 ( 6 ) 部分得点モデルは、テストだけでなく質問紙データにも容易に適用できる,

( 7 ) 部分得点モデルは、解答（回答）の段階数が増えても（段階反応モデルや他のモデルのように）モデルのパラメータが増加しないので、採点結果の変更に対応が容易である，

また、本発明の発明者の 1 人（藤森）は、部分得点モデルを用いたシミュレ一シヨンを行ったが、その結果によると、（ 1 ) 段階反応モデルは、テストが少数項目であると識別力の推定にバイアスがかかるが、部分得点モデルではこの現象は生じない。（ 2 ) 正答数得点と能力推定値の順位相関は、部分得点モデルの方が段階反応モデルより高い（真の値との相関では両モデルともほぼ同等）。

以上で本発明によるテス卜 · システムにおいて用いられる部分得点モデルの概要を説明したが、その要旨を再確認しておきたい。本発明が依拠する部分得点モデルにおいては、合計点を和を取った項目数で割ることにより 0から 1 の間の部分得点として入力データとする、すなわち、 2値モデルの尤度の正誤に使われるダミー変数を部分得点を表す実質的変数あるいは正誤確率の重みとして扱う。このような想定の下で部分得点を処理しても、理論的にも従来の 2値型の処理の場合との整合性が保たれ、また、シミュレーションの結果を見ても 2値データの場合の尤度関数を用いる推定結果と部分得点モデルによる尤度関数を用いる推定結果とは実質的に同じであるといえる。

次に、上述した部分得点モデルが本発明によるテスト · システムにおいてどのように具体的に適用されるかを説明したい。具体例として、英語能力テス卜を考える。多肢選択式など解答が正答又は誤答の 2値で評価される設問に関しては、従来型の項目反応理論が適応され、数式 4の尤度関数 L _Bを用いて項目パラメ一夕と能力値 0とが推定される。これに対し、ライティング（作文）ゃスピーキング（会話）の問題では、正誤判断による 2値的な採点ではなく部分点を許容する採点を行うことが、受験者の英語能力評価をより分析的かつ精密に行うことを可能にすると思われる。そのような場合には、 2値評価を前提とする従来型の項目反応理論を適用することはできず、上述した部分得点モデルが用いられる。

部分得点モデルでは、例えば作文問題に対する受験者の解答を採点する際に、零点（ 0 ) から満点（ 1 ) までの間で 2 5 %刻みの部分得点を与えることができる。具体的には、数式 5において r , _;が、 0、 0 · 2 5、 0. 5 0、 0. 7 5、 1 という 5つの値を取りうる尤度関数を考えて、部分得点を処理する。 Pを定義する数式 3に含まれる項目パラメータ a (識別力）及び b (困難度）は、同じ問題を用いて予め行われたプレテス卜におけるデータを用いて既に推定されている < 既に一般論として論じたように、本発明の部分得点モデルでは、部分得点を同一パラメータを有する問題が反復的に出題された場合の正誤の平均として表現されるものと想定しているため、 1つの項目（=問題）の内部では、どの部分得点についても項目パラメータ a及び bの値は同じである。

具体例として、このような英作文の問題が 3題出題され、ある受験者によって与えられた解答がそれぞれ 0. 2 5、 0. 7 5、 0. 5 0と評価される場合を考える。この場合、 0と 1 とを含めると 5段階の部分得点を用いて評価されているので、繰り返し数は 4であり、尤度関数 L _{p a r t}の対数尤度を考え、数式 9の r jに部分得点 0. 2 5、 0. 7 5、 0. 5 0を代入することによって次のように決定される。

【数 3 2】 ' ( =∑ ^SJ ( In )) + (!- ) In (Qj (θ ]

= 4 [ { ( 0. 2 5 ) I n P , ( Θ ) + ( 0. 7 5 ) I n Q , ( Θ ) } + { ( 0. 7 5 ) I n P ₂ ( β ) + ( 0. 2 5 ) I n Q ₂ ( Θ ) } +

{ ( 0. 5 0 ) I n P a ( Θ ) + ( 0. 5 0 ) I n Q ₃ ( Θ ) } ]

ここで、ロジスティック曲線 Pに含まれる項目パラメータ a及び bは、それぞれの問題に対して予め推定されている。数式 3 2の対数尤度を用い、最尤推定法やベイズ推定法により、受験者の能力 0が推定される。これらの方法自体は従来から知られている一般的な統計学的手法であり本発明の特徴ではない。しかし、いずれの推定方法を用いるにしても必要な対数尤度は、本発明の核心である部分得点モデルによって初めて得られるものである。

以上は、部分得点モデルの基本的な適用例である。更に、部分得点モデルを用いると、このような単純な例とは異なリ、複数の評価基準を設け、 1 問を複数の視点から評価する分析的な評価方法を採用することによって、受験者の能力推定の精度を向上させることもできる。例えば、上述した基本的な適用例では顕在化しない受験者の能力差を明らかにできる可能性がある。例えば、ライティング問題では、精度の高い評価のために、（ a ) 目的達成の有無（ Goal Achievementノ、 ( b ) 文法 ( Grammar ) 、 ( c ) |§彙 ( Vocabulary ) 、 ( d ) 文章構成 ( style ) 、 ( e ) 綴り字 - 句読点 ( Mechanics ) という 5つの評価基準を設定し、スピーキング問題であれば、（ a ) から（ c ) に加え、

( f ) 発話の流暢さ ( Fluency) 、 ( g ) 発音 ( Pronunciat ion) という 5つの評価項目を設定する。このような評価項目を設定する理由は、例えば、作文の設問であれば、非常に拙いが書き手の意図が一応は読み手に伝わる、文法的には誤りはないが余りに不自然であり状況にそぐわない、明らかな文法上の誤りがある、単語の綴りに間違いがある、類似する単語が誤用されている、文の途中で中断し完結していない、パンクチュエーションが間違っているなど、ただ 1 つの作文を評価するに場合でも、異なる複数の視点から評価を行えば、 1 つの問題を複数の小問題から構成されているものと考え、視点ごとに異なる評価が可能であるからである。そして、このように複数の評価項目を設定すると、 1 つの問題を複数の問題から構成されているものと見なすことによって、上述した基本的な適用例の場合よりも高精度の評価が可能となリうる。

以上のような評価項目を設けた場合には、次のような評価が可能であろう。

( 1 ) の目的達成の有無については、例えば、「相手に宿を手配して欲しいという意図の伝達」という目的が問題ごとに設定され、設定された目的が「達成されている、達成されていない」の 2値（ 1 又は 0 ) で採点される。それ以外の評価項目に関しては、 0から 1 までの間に 2 5 %刻みの部分得点を許容する採点を行う。つまり、数式 5のに、 0、 0 . 2 5、 0 . 5、 0 . 7 5、 1 という 5 つの値が代入される。上述した基本的な適用例と同様に、尤度関数に含まれる口ジスティック曲線 Pを定義する数式 3に含まれる項目パラメータ a (識別力）及び b (困難度）も、上述の例と同様に、同じ問題を用い本番のテス卜に先行して行われたプレテス卜におけるデータを用いて予め推定されている。このような採点方法を用いれば、ただ 1題の英作文又は会話の問題を出題することによって、非常に多角的な評価が可能になる。ただし、ここで挙げた評価項目は単なる例示であり、本発明によるテス卜 · システムにおいて他の視点から評価を行うことも可能である。

以上が、部分得点モデルを含む項目反応理論が英語能力テス卜へ適用され受験者の能力が推定される様子についての説明であり、本発明は、このような部分得点モデルを含む項目反応理論による能力推定をインターネッ卜接続環境にある一般的なパーソナル · コンピュータを用いて実現するテス卜 · システム及びテス卜方法である。以下では、添付の図面を参照しながら、本発明によるテス卜 · システムの動作を概説する。

図 1 には、本発明によるテス卜 · システムの第 1 の実施例の概要が示されている。受験者は、本発明によるシステムによって設計、実施及び処理されるテスト (例えば、英語能力テス卜）を実施する語学学校などに設置されたインターネッ卜接続環境にあるパーソナル · コンピュータである受験者ュニッ卜 1 0 1 を用いてテス卜を受験する。受験者の認証が適切になされるのであれば、自宅での受験も可能である。受験者によってキーボード、マウス、マイクロフォンなどを介してパーソナル · コンピュータである受験者ュニット 1 0 1 に入力される解答結果は、ィンターネッ卜などのネッ卜ワーク 1 0 3を介して、採点者ュニッ卜 1 0 2 に送られ、例えばテス卜対象である英語を母語とする採点者が部分得点を許容しながら採点を行う。その際に、部分得点を与える評価項目は、問題の難易度にあわせて変更されることはない。ただし、解答結果は、受験者ユニット 1 0 1 から直接に採点者ユニット 1 0 2に送信されるのではなく、このテス卜を集中的に管理するテス卜管理サーバ 1 0 4にいつたん送られた後で、複数存在する中から適切であると判断される採点者ユニット 1 0 2へ送られるのが一般的である。テス卜管理サーバ 1 0 4は、問題データベース 1 0 5を備えている。問題データべ一ス 1 0 5には、プレテス卜として実施され項目パラメータ（数式 3における識別力 a及び困難度 b ) が予め推定されている問題群が記憶されている。テス卜管理サーバ 1 0 4は、受験者が特定されると、問題データベース 1 0 5から一群の問題を選択し、選択された問題群を受験者ュニッ卜 1 0 1 へ送信する。

図 2には、受験者ュニッ卜 1 0 1 の概要が図解されている。受験者ュニッ卜 1 0 1 は、通常、インターネット接続環境を有する一般的なパーソナル · コンビュ一夕である。入力装置 2 0 7は、キーボード、マウス、タツチパネルなど機械的な入力装置であり、音声入出力装置 2 0 9は、マイクロフォンやスピーカなどである。受験者は、まず、入力装置 2 0 7から手動で、又は、音声入出力装置 2 0 9から音声で、自分自身の I Dを入力すると共に、テス卜の開始を指示する。受験者の I Dは、その受験者が受験の申込みを行う登録時に、テス卜管理サーバ 1 0 4から各受験者に対して一意的に発行されたものが用いられる。セキュリティ管理のため、 I Dと共にパスワードも発行されるのが一般的である。一意的な I Dが発行されていることにより、同一の受験者が複数回受験する場合には、その旨がテス卜管理サーバ 1 0 4において認識され、適切な出題がなされる。指示に応答してテス卜管理サーバ 1 0 4から送信されディスプレイ 2 0 8に表示される, 又は、スピーカを含む音声入出力装置 2 0 9から出力される自分のレベルに合わせて選択された問題に対して、受験者は、入力装置 2 0 7、又は、マイクロフ才ン（音声入出力装置 2 0 9 ) を介して解答を入力する。解答、特に、部分得点を許容する採点が必要となるライティングゃスピーキングの設問に対する解答は、通信ィンターフェース 2 0 2とインタ一ネットなどのネットワーク 1 0 3とを介して、採点者ユニット 1 0 2に送られる。ただし、既に述べたように、解答は、受験者ュニット 1 0 1 から直接に採点者ュニッ卜 1 0 2に送信されリアルタイ厶に採点されるのではなく、このテス卜を集中的に管理するテス卜管理サーバ 1 0 4にいつたん送られた後で、複数存在する中から適切であると判断される採点者ユニット 1 0 2へ送られるのが一般的である。一定数の解答が集まってから採点するのが効率的であるという採点の経済からもこれは当然であろう。

図 3には、採点者ュニッ卜 1 0 2の概要が図解されている。採点者ュニッ卜 1 0 2は、受験者ュニッ卜 1 0 1 と同じように、通常、インターネッ卜接続環境を有する一般的なパーソナル · コンピュータである。インターネッ卜などのネットワーク 1 0 3を介して受験者ュニッ卜 1 0 1 又はテスト管理サーバ 1 0 4から送られてくる解答結果をディスプレイ 3 0 8に表示し、又は、スピーカ（音声入出力装置 3 0 9 ) から出力して、キーボードやマウスなどの入力装置 4 0 7を用いて採点する。採点結果は、インターネットなどのネットワーク 1 0 3を介してテス卜管理サーバ 1 0 4に返送する。以上で説明した本発明のテスト · システムを実現する第 1 の実施例では、受験者ュニッ卜と採点者ュニッ卜とテス卜管理サーバとがィンターネッ卜などの通信回線を用いた通信ネットワークの通信端末として構成されていた。しかし、当業者には明らかなことであるが、本発明によるテス卜 · システムは、第 2の実施例として、通信機能を備えていないスタンドアロンのパーソナル · コンピュータを用いて実現することもできる。その場合、難易度及び識別力が予め推定された多数の問題が記憶されているデータベースは、例えば当該パーソナル · コンビユー夕のハードディスクなどの記憶装置に構築されており、受験者は、例えば C Dや D V Dなどに格納された態様で提供される本発明のテストを実施するプログラムに含まれる命令に従って出題されるライティングゃスピーキングの問題に対し、キーボードゃマイクロフォンを介して解答する。解答結果はいったんハ一ドディスクなどに記憶され、採点者は、その解答結果をハードディスクから読み出して部分得点を許容する採点を行う。この第 2の実施例の場合の部分得点の処理方法は、第 1 の実施例の場合と同様である。採点がなされると、部分得点モデルに基づく尤度関数を用いて受験者の能力推定が行われる。

図 4は、本発明によるテスト · システムを用いたテス卜実施の概要を示す流れ図であり、特に、第 1 の実施例に則して、本発明が依拠する部分得点モデルが用いられるライティング及びスピーキングに関するテス卜の実施及び処理プロセスが示されている。なお、ライティングの問題では、受験者は、キーボード（図 2 の入力装置 2 0 7 ) を用いて、英文などの文章をタイプインする形式で解答するのが一般的である。スピ一キングの問題では、受験者がパーソナル · コンビユー夕に備え付けられたマイクロフォン（図 3の音声入出力装置 3 0 9 ) を介して、提示された質問に対する応答として、又は、自由な内容で音声を入力し、その音声として発話された内容が評価の対象となる。採点者は、受験者が現在利用しているパーソナル · コンピュータとインターネッ卜などのネッ卜ワークを介して接続されている別の端末である採点者ュニッ卜の前で待機し、リアルタイムで採点を行うことも可能ではあるが、実際には、受験者の解答は、いったんテスト管理サーバに記憶された後で採点者ュニッ卜へ送られ、集合的に多数の解答を採点するのが一般的である。まず、受験者は、受験者ュニッ卜 1 0 1 においてインターネッ卜上の指定されたウェブページにアクセスする。そのウェブページにおいて、自分自身の受験者

I Dとパスワードとを入力し認証がなされた後で、所定のボタンをクリックすることにより、ライティング又はスピーキング問題の受験を開始する意図を通知する（ 4 0 0 ) 。テス卜管理サーバ 1 0 4は、この通知に応答して、ライティング又はスピーキングの問題を問題データベース 1 0 5から選択する（ステップ 4 0 1 ) 。この選択の際には、この受験者による多肢選択式問題に対する解答の採点結果から推定された能力 0との関係で、最も適切な識別力及び困難度を有する評価項目を含む問題を選択することができる。例えば、ライティング問題選択の際にはリーディング問題への解答結果を参考にし、スピ一キング問題選択の際にはリスニング問題への解答結果を参考にすることが考えられる。これは、ライティングの能力はリーディングの能力と相関関係を有し、スピーキングの能力はリスニングの能力と相関関係を有すると考えられるからである。ただし、このような問題選択は、単なる例示であり、本発明による部分得点モデルを含む項目反応理論に基づくテス卜 ■ システムの本質部分ではない。

選択された問題に対応する口ジスティック曲線に含まれる項目パラメータは、先に実施されたプレテス卜におけるデータから、評価項目ごとに予め決定されているのが一般的である。ただし、能力パラメータの推定と同時に項目パラメータを推定する同時最尤推定なども理論的には可能であり、本発明によるテス卜 · システ厶も、この同時最尤推定の可能性は排除しない。その場合には、問題データベース 1 0 5に記憶されている問題の項目パラメータは既に推定されている場合とそうでない場合とが併存することになる。項目パラメータの推定は、能力 0の推定と同じく数式 5の尤度関数が用いた部分得点モデルに基づいて行われる。また、項目パラメータが推定される際には、それぞれの問題の識別力及び困難度を標準化する等化と称されるプロセスも行われる。この等化のプロセスにより、受験者の母集団に左右されない絶対評価が可能になる。ただし、等化自体は項目反応理論一般について妥当することであリ、特に本発明の特徴ではない。

テス卜管理サーバ 1 0 4によって出題されるべき問題が選択されると、選択された問題は、インターネット等のネットワーク 1 0 3を介して受験者ユニット 1 0 1 に送信される（ステップ 4 0 2 ) 。送信された問題は、テキス卜形式の問題であればディスプレイ 2 0 8において、音声形式の問題であればスピーカ（音声入出力装置 2 0 9 ) から受験者に対して出題される（ステップ 4 0 3 ) 。受験者は、その出題された問題に対して、文章をタイプインする形式で、又は、発話された音声形式で、解答を与える（ステップ 4 0 4 ) 。解答を構成する文書又は音声ファイルは、インターネット等のネットワーク 1 0 3を介してテス卜管理サーノ 1 0 4に送信され、いったん記憶される（ステップ 4 0 5 ) 。

以上のプロセスが一定数の受験者に対して反復され、一定数の解答ファイルがテス卜管理サーバ 1 0 4に記憶される。ただし、これら複数の受験者に対して出題される問題は、同じとは限らない。項目反応理論の一般論から、出題される問題は異なっていても、能力 0は適切に推定されうるからである。採点者ユニット 1 0 2からテス卜管理サーバ 1 0 4により開設されているウェブページへのァクセスがなされ、テス卜管理サーバ 1 0 4に蓄積されている解答を採点のために送信して欲しい旨のリクエス卜がなされると、一定数の解答ファイルが、採点者ュニット 1 0 2に送られる（ステップ 4 0 6 ) 。採点者は、既に説明した部分得点を許容する方法により解答を採点し（ステップ 4 0 7 ) 、採点結果をテス卜管理サーバ 1 0 4に返送する（ステップ 4 0 8 ) 。ただし、一般的には、このように複数の解答がまとめて採点されるか、リアルタイムで採点されるかは、本発明の特徴とは関係ない。

次に、テス卜管理サーバ 1 0 4は、採点者ユニット 1 0 2から受信した部分得点を数式 5の尤度関数に代入し、能力 0の推定を行う（ステップ 4 0 9 ) 。上述したように、項目パラメータが同時に推定される場合もありうる。推定の方法は、最尤推定、ベイズ推定などである。推定が終了すると、必要な場合には、推定された 0の値が、他のテス卜との比較に適した点数に換算される（ステップ 4 1 0 ) 。

本発明のテス卜 · システムを用いて上述のような処理を行うことにより、従来から行われてきた一般的な項目反応理論では処理が困難であった部分得点を許容して採点を行う問題を含むテス卜であっても、従来型の項目反応理論と同様な能力推定を行うことができる。発明者らは、本発明によるテス卜 · システムを用いた能力推定の有効性を確認するために、 2 0 0 3年 5月 2 1 日から 2 8日において、被験者 1 2名によるスコア安定性確認調査を行った。方法としては、同一被験者に 3回続けて本発明によるテスト · システムを用いた英語能力テス卜を受験してもらい、スコアに大きなぶれが生じないかどうかを確認した。ここで実施された英語能力テス卜は、リスニング、リーディング、ライティング、スピーキングの 4つの技能のテス卜で構成されていた。

被験者は、東京の比較的英語が得意な某大学の大学生 1 2名である。もし、本発明によるテス卜 ■ システムによる英語能力評価が適切なものであリ、等化を含めた各問題の項目パラメータの推定が本発明によるテスト · システムにおいて適切になされているのであれば、同一受験者が 1 日のうちに 3回テストを受験した場合、英語能力はその間に変化しないと者えられるので、結果のスコアは大きく変動しないはずである。

結果の詳細は、図 5のグラフとして示されている。また、 1 2名の平均スコアは、図 6の通りである。個人差はそれぞれあるが、図 5及び図 6において観察されるように、 1 回目から 2回目において試験形式の慣れによる得点の向上（一般的には「リハーサル効果 j と呼ばれる）と、 3回目の受験における疲労効果（特に、最後の回の最終問題であるスピーキングの得点に見られる）による得点の低下とが見られた。

しかし、平均点で見ると各技能で 2 5 0点満点中 5 . 4から 1 8 . 5点のスコァの変動（= 2 . 2 %から 7 . 4 % ) であり、卜一タルスコアでも 3 %の変動幅で収まっている。従って、異なった問題を受験しても本発明によるテス卜 ■ システムでは、テスト ·スコアの変動は少なく、スコアの標準化が適切に行われておリ、母集団の能力レベルに左右されない絶対評価が可能であることがわかった。同一パラメータを有する複数の項目が反復的に出題された場合の正誤の平均として部分得点が表現されると想定すれば、理論的には、数式 5における _{r i j}を実質的な変数と考え 0から 1 までの間の部分得点を許容しても、従来型の項目反応理論における 2値的な評価に用いられる尤度関数の場合と推定結果は同一になる、というのが、本発明によるテス卜 · システムが依拠する部分得点モデルによる提唱であった。図 5及び図 6において示された実験結果は、この理論的帰結が，実験的にも確認されたことを示している。

従って、本発明によるテス卜 · システムによれば、従来型の項目反応理論との整合性を維持しながら、従来よりも高精度の能力推定が達成される。これは、本発明の著しい効果である。

明細書の最後に、本発明の発明者の 1人（藤森）による段階反応モデルと部分得点モデルとの比較に関する論文（『項目反応理論による多値データの分析について—段階反応モデルと部分得点モデル一』）を、文中で言及されている図面 ( Figure ) や表（Table) を除いて、以下に引用する。なお、この論文は、この出願における優先権主張の基礎となる日本特許出願である特願 2 0 0 2 - 2 7 9 5 1 3が出願された平成 9月 2 5日の時点では未発表であつたが、その後、文教大学人間科学部の紀要である『人間科学研究』 2 4号において発表された（平成 1 4年）。また、この論文は、学力テス卜だけを念頭においたものではなく、より広い応用についても言及しているので、「問題」ではなく「項目」、「受験者 J ではなく「被験者」など、以上の用例と異なる箇所が含まれている。

1 . 研究の目的

2母数口ジスティックモデル（Birnmaum , 1 9 6 8 ) のような一般の項目反応理論では、正答、誤答のような 2値データを処理することが出来るだけであり、多値のデータを分析することは出来ない。しかし心理学一般の研究では質問紙デ一夕などで多値データを利用することも多い。項目反応理論でも多値データが全く扱えないわけではなく、幾つかの分析モデルが開発されている。例えば Same j ima ( 1 9 6 9 ) の段階反応モデソレ（graded response model ) 、評定尺度モテノレ ( rat ing scale model； Andrich . 1 9 7 8 ) や part ial credit model ( Mas ters , 1 9 8 2 ) はこの種の代表的なものとされる。しかし現実問題としては分析するためのソフ卜ウェア環境が十分整備されていないこともあってか、これらのモデルが広く一般に利用されているとは言い難い。

このような状況に鑑み、本研究では藤森（ 2 0 0 1 ) の部分得点モデル ( part ial tes t score model ) と段階反応モデゾレとの Jt較をシミュレーシヨン及び質問紙データの分析結果をもとに行い、項目反応理論を利用した多値デ一夕に関する分析方法の検討を行うことにする。

多値データへ項目反応理論を適用するとしても、どのようなモデルが良いのか検討する必要がある，このためには（ 1 ) 理論的側面の検討、モデル母数の再現性や能力母数の分布などの影響を検討するための（ 2 ) シミュレーションによる検討、そして現実のデ一夕にどの程度うまくあてはまるのかという（3 ) 実証デ一夕に基づく検討が求められるであろう。このため、本研究では（ 1 ) を 1 . 3 節で、（ 2 ) を 2節で、そして（3 ) を 3節で行うことにする。

1 . 1 . 段階反応モデル

m個の順序性を持つ段階反応を許容する Samejima ( 1 9 6 9 ) の段階反応モデルを初めに説明する。ここではテストのある一つの項目だけを考えることにする。被験者の回答の各段階に対応して決まるダミー変数を uとし、ある段階より低い段階に反応したとき 0、そうでないとき 1 となるダミー変数を X とする。能力 0を持つ被験者が X= 1 となる確率を

【数 3 3】

=尸ぽ =ι|0' で表すとき

【数 3 4】

【数 3 5】 p_u(e)>o が段階反応モデルである。ただし

【数 3 6】

^( =1

【数 3 7】

である。数式 3 3は段階の間を確定する境界反応曲線でぁリ、数式 3 4は段階の反応確率を表現する段階反応曲線となる。前記の条件を満たす限り数式 3 3の関数はどのようなものでも自由であるが、本研究では良く利用される 2母数口ジステイツクモデル

【数 3 8】

P* (θ u = l, ...,m -l

を仮定する。数式 3 5式の条件 Sのため、 a は数式 3 8の全ての曲線に共通した母数となり識別力と呼ばれる。 b _uは各段階の閾値に関係した母数であり困難度と呼ばれる。すなわち段階反応モデルでは項目ごとに 1 つの識別力と各段階の閾値に対応する m— 1個の困難度母数を持っていることになる。

1 . 2 . 部分得点モデル

部分得点モデルでは部分得点を r ( 0〜 1 の範囲）とするとき母数推定のための対数尤度は次式で表される。

【数 3 9】

ここで iは被験者、 0はその特性値を表す母数、 j は項目、 sは 2値項目換算の繰り返し数、 Pは 2母数ロジスティックモデル、 Q= 1 — Pである。

すなわち部分得点モデルは 2母数口ジスティックモデルをその基礎に置いている。また同一あるいは類似項目母数を持つ項目を被験者に対し潜在的に繰返し実施することを想定している。このとき rは繰返し実施の正誤平均と考えることができる。このような部分得点モデルと繰返し実施を考えた 2母数口ジスティックモデルの最尤解は一致する（類似母数の時は近似）ことが証明できる（藤森， 2 0 0 2 a) .

1 . 3 . 理論的側面からの検討

部分得点モデルの特徴は、以下のようなものである（藤森、 2 0 0 2 b ) 。

( 1 ) 項目母数は識別力と困難度で一般の利用者にも比較的理解しやすい。

( 2 ) モデル母数の数が他の多値モデルと比較して少なく推定上の問題がない。

( 3 ) どのような解答ノ回答結果でも値を 0〜 1 の部分得点に変換すれば適用できるので応用範囲が広い。（ 4 ) 質問紙の評定尺度にも容易に適用できる。

( 5 ) 解答の段階数が増えても母数が増加しないので、採点結果の変更や微調整にも対応が容易である。（ 6 ) 2母数ロジスティックモデルとシームレスなので識別力や困難度母数の解釈もそのまま 2母数口ジスティックモデルと同様に行えるので、 2値と多値の混在データなどでの運用に便利である。（ 7 ) testlet / 組問などの部分得点化により 2値項目からなるテス卜に組問が存在する場合、組問を 1 つの部分得点項目としてとしての運用することが可能になり、副次的にテス卜全体での母数の数が減る。（8 ) 残差得点にモデルを再適用して多次元デ一夕への対応もできる。

( 7 ) ( 8 ) については本研究では取り上げていないが特徴としては大きなものである，

続いて段階反応モデルの特徴は、以下のようなものである。（ 1 ) 項目反応理論で多値データに対応したモデルとして著名なものである，（ 2 ) 発表されてから 3 0年以上の時間がたち応用研究も報告されている（例えば野口（ 1 9 9 9 ) など）。（ 3 ) 公開されている分析用ソフトウェア MULT I LOG が存在する。

( 4 ) 各段階反応曲線が得られるため、各段階に対する反応にまで関心を持つ場合は便利である。例えば境界反応曲線の母数を利用すれば、段階ごとの反応が 0 上のどの水準で発生するのかについて予測も出来る。

両モデルを比較してみると、モデル化の考えの違いが明らかである。段階反応モデルは、モデルの母数の数が多いだけ、部分得点モデルに比較してデータとの当てはまリも良くなると考えられる。もちろんモデル母数の数が多ければ、母数の正確な推定にはデータ量が必要であるなどの問題が生じる危険性がある。逆に部分得点モデルは単純であるだけ、当てはまリは劣ると予想されるが推定値などの安定性は良いと考えられる.この点に関しては赤池情報量規準 A I Cなどの観点が評価に必要となろう。

また段階反応モデルの（4 ) の点については、部分得点モデルでは、モデル上これは困難である。行うとすれば、事後的には段階ごとに被験者の分布を作成して検討することになるだろう。項目母数は所与であってもテス卜実施の事前であれば、被験者の能力分布について適当なる仮定を設けて、シミュレーションを行い段階ごとに被験者の分布を作成して検討することになるだろう。いずれにしても段階反応モデルよリ手間がかかることになる。

このような利点がある一方で段階反応モデルは（そして今まで提案された殆どの多値モデルも）、各段階にモデル母数を置くため段階の変化に柔軟性を欠く問題がある.たとえば、能力テストで教師が採点時に 2 0点満点である項目を、 0、 5、 1 0、 1 5、 2 0の粗い 5段階で評価していたとしたら 5段階の段階反応モデルでの分析となる。しかし、もし誤字脱字などである答案を 1 点減点することにしたら、たちまちモデルの母数の値だけでなく、母数の数そのものが変化してしまうという問題点がある。質問紙でも評定を 5段階で行っている項目を 4段階にしたら、段階反応モデルでは、それまでの項目母数をそのまま利用するわけにはいかなくなってしまうのである。

以上のように、どちらのモデルも一長一短はあるのだが、各段階や評定についてはそれほどの関心を持たず、項目の全体的な特性と能力母数の推定だけに関心がある場合には、部分得点モデルで十分と思われる。

2 . シミュレーションによる検討

実際のテス卜や質問紙において回答がどのようなメカニズムで生起しているのかは正確に知ることは出来ない。部分得点モデルと段階反応モデルのどちらがより現実に近いかは現時点で判断することは難しい。このため両モデルの比較をシミュレ一シヨンで行うにしても、デ一夕の作成にあたっては、どちらかのモデルに従ってデータを作成するべきかを決めることは困難である。あるモデルを仮定してデータを作成し、当該モデルと別のモデルで分析しても、別のモデルは良い成績を発揮することは期待できず、比較もうまく行えないだろう。このため本研究では、部分得点モデルを前提としたシミュレーションと段階反応モデルを前提としたシミュレーションの 2つを行うことにした。各モデルは自己のモデルに従つたデータと他のモデルのデータの 2つを分析することになる，もちろん実際のデータはこの 2者以外のメカニズムによる可能性もあるわけであるが、両モデルの公平な比較を行うことはできる。すなわちデータがモデルに従っている場合は、モデルの再現性がシミュレーションによって検討でき、またデータがモデルに従つていない場合はモデルの頑健性が評価できる。 2 . 1 . 部分得点モデルを前提としたシミュレーションデータ

部分得点モデルを前提としたシミュレーションデータは、以下のようにして作成した。まず部分得点モデルの構成要素として 2母数口ジスティックモデルを仮定する。この 2母数口ジスティックモデルの母数の分布型を以下のように定める _t 識別力母数は、平均 0 . 6 5、標準偏差 0 . 2 5、下限0 . 3、上限 2 . 0の切断正規分布、また困難度母数は、平均 0、標準偏差 0 . 5の正規分布に従うと仮定する。能力母数 0は平均 0、標準偏差 1 . 0の正規分布に従うと仮定する。能力母数 0を標準正規分布に従って作成し、 2母数口ジスティックモデルから予想される正答確率を、範囲 0〜の一様乱数と比較し、前者が下回る場合被験者の反応を正答 1 、上回る場合誤答 0とする。 2母数ロジスティックモデルに従う、この 2値データパターンを、被験者数 5 0 0、項目数 2 0 0として各 1 0回繰り返し作成した（データ 1 〜 1 0 ) 。ただし 5項目ずつ同一母数としている。続いて、このデータの同一母数の 5項目ずつの正誤の和の平均をとリ 0、 0 . 2、 0 , 4、 0 . 6、 0 . 8、 1 . 0の 5段階の値をとる部分得点データとした。すなわち部分得点データは、被験者数は 2値データと同様に 5 0 0であるが、項目数は 4 0となる。同様にして、前記の項目母数を所与として新たに被験者の能力母数 0を 5 0 0人分追加してクロスバリデーション用のデータを作成した。

2 . 2 . 段階反応モデルを前提としたシミュレーションデータ

段階反応モデルを前提としたデータは以下のようにして作成した。段階反応モデルも、その構成要素として 2母数ロジスティックモデルを仮定する。またその母数の分布形も 0節と同様である.またデータの段階数としては 1 から 5の値をとる 5段階を仮定する。このため、モデルより段階間の境界反応曲線は 4つ必要となる。この曲線群を確定するため、まず識別力母数を 1 つ分布に従って発生させ、これを各境界反応曲線に共通する識別力とする。続いて 4つの困難度母数を作成し、最も小さいものを選択して、段階 1 と 2の境界反応曲線の困難度とする。以下同様にして困難度の小さなものから順にとリ各境界反応曲線の困難度を決定する，これらの境界反応曲線間の差をとつて各段階反応曲線とする。標準正規分布に従う能力母数 0を 1 つ作成し、この値を固定して各段階反応曲線で予想される反応確率の区間（ 0を固定したときの全段階反応曲線の大きさの和は 1 である）に、 0〜 1 の一様乱数が入ったとき当該反応が生じたことにする。以上の過程を 5 0 0人分繰返し母数推定用のデータとした。また 0節と同様に、以上で確定した項目母数を利用してクロスバリデーシヨン用のデータを 5 0 0人分作成した，

2 . 3 . 母数の推定

母数の推定は、両モデルとも項目母数と潜在特性値 0の交互同時最尤推定による自作の FORTRAN プログラムによった.部分得点モデル用では交互同時最尤推定だけでなく項目母数の周辺最尤推定が可能であるが、段階反応モデルの推定プログラムは交互同時最尤推定のみに対応しているため、比較の便を考慮して両モデルとも項目母数を最尤推定した（結果は省くが部分得点モデルに関しては周辺最尤推定と交互同時推定の結果に大きな差はない）。両モデルとも 0と困難度の推定値は- 3 . 5 ~ 3 . 5の範囲と定め、識別力の推定値の範囲は 0 . 0 2 ~ 2 . 0としている。

2 . 4 . シミュレーションの結果と考察

表 1 は、部分得点モデルにより作成したシミュレーションデータ（以下部分得点データと呼ぶ）の能力母数の真値、正答数得点と両モデルで推定した 0の推定値の相関である。ただし相関は、ケンドールの順位相関係数を求めている（以下特に明示しない場合は相関はケンドールの順位相関を指す）。一般によく利用されるピアソンの積率相関でなくて順位相関を求めたのは、項目反応理論の現実の運用場面では正答数得点などと推定値の順位の逆転現象が問題となるケースが多いためである，表 1 よリ明らかなように真の 0との相関は、いずれも部分得点モデルによる推定値の方が高いものの段階反応モデルとの差はほとんどない。これに比し、正答数との相関は、若干差が拡大し部分得点モデルによる推定値が高い相関を与えている。

なお部分得点モデルの項目母数の推定値に関しては、例えばデータセッ卜 1 については識別力の平均自乗誤差（MSE) は、 0 . 0 0 1 4、困難度に関しては 0 . 0 0 1 7であり、特に問題はない精度で推定値が得られている.ちなみに、データ作成の元となったモデルとは異なるので値の良し悪しは判断できないが、段階反応モデルの識別力との MSE は 0 . 0 2 7、困難度は 0 . 3 1 となっている。ただし困難度に関しては、段階反応曲線の困難度の推定値平均によって MSE を算出している。

続いて部分得点データの推定値を利用してクロスバリデーションデータの成績を比較してみょう（表 2 ) 。クロスバリデーシヨンにおいても様相は先と同様で, 真値との相関はいずれも部分得点データがほんの僅か上回り、正答数得点に関してはややモデル間の差が拡大することが示されている，

さて段階反応モデルにより作成したシミュレーションデータ（以下段階反応デ一夕と呼ぶ）についての結果が表 3である。また同データに基づき推定された項目母数をクロスバリデーションデータに適用した結果が表 4である。どちらにおいても部分得点モデルに比べて段階反応モデルの方が真の 0との相関がほんのわずか高いが、大きな差ではなく、データセッ卜 1， 5のように逆転しているケースも見受けられる，また全体的に真値との相関が表 1及び表 2に比較してやや低くなつておリ、段階反応モデルが部分得点モデルに比較して再現性が難しいモデルであることを示唆していると言えよう，段階反応データであるにもかかわらず、正答数得点との相関は段階反応モデルより部分得点モデルによる推定値の方が高くなつている。しかも部分得点データの場合よりその差が拡大していることが分る。合計点との順序関係の逆転は段階反応モデルに多くなつているのであるが、この逆転が生じる理由は、段階反応モデルでは項目によって評定の中間部分の段階反応曲線が相対的にかなり低くなリ、他項目の回答結果によっては、当該項目の回答が 0の推定に（推定誤差の大きさはともかくとして、その点推定値の決定には）殆ど影響力を持てなくなるためである。この現象は段階反応モデルだけではなく、選択肢やカテゴリーごとの反応確率曲線をモデル化する他の多値モデルにも共通するため、これらのモデルの利用の際には注意を払う必要があると考えられる。もちろん部分得点モデルも 2母数口ジスティックモデルをベースとしている以上、合計点と 0の逆転も一部生じざるを得ないが、その程度は低く抑えられている。

次に段階反応モデルの項目母数の推定値について検討しょう。例えばデータセット 1 については識別力の平均自乗誤差（MSE ) は、 0 . 2 9 9 3、困難度に関しては 0 . 0 6 3 6であり、やや部分得点モデルの場合に比較して推定精度が悪いことがわかる。表 5に示した項目 8 , 1 5はデータセッ卜 1 の中の推定成績が悪い項目であるが、いずれも真の境界反応曲線が互いに接近しすぎている場合に推定が出来なくなつていることがわかる。このような場合には、 2つの境界反応曲線を 1つとして処理するなどの対処が必要になると考えられるが、どのような基準で行うかなどの問題もあり本研究ではこれを行っていない。ある意味ではこのような対処を必要とすることに段階反応モデルの問題点が存在するとも言えよう。なおモデルは異なるものの部分得点モデルの識別力の MSE は 0 . 0 1 3 6となり段階反応モデルよりも良い推定値を与えている。ただし段階反応モデルの項目母数の推定に関しては周辺最尤推定では成績が改善する可能性も残されているので、ここではこれ以上取り上げず、別の研究で報告することにしたい。

以上をまとめると本研究のシミュレーションの条件下では、部分得点データ、段階反応データのいずれであっても真値との相関は、どちらのモデルを利用しても大きな差は生じていない。これに対し正答数得点との相関は明らかに部分得点モデルの方が良い成績であリ、特に予期に反し段階反応データで差が大きくなつている.また項目母数の数が多い段階反応モデルで危惧されたクロスバリデーシヨンデータでの不適合は生じていない（ただし母数推定上の問題は残る），これは一つには、本研究が特にノイズをのせていない単純なシミュレーションであることも影響しているかもしれない。

3 . 質問紙データによる検討

3 . 1 . 質問紙データ及び母数の推定

本研究で分析の対象としたデータは、 0県の青少年基本調査の中高生 1 8 4 9 人のデータで、教師と生徒の心理的距離について調べた 9項目尺度である（表 6 ) 。各項目は Γ 1 . よくあてはまる」から Γ 4 . まったくあてはまらない」の 4段階で評定を求めるものであるが、 9項目とも回答は値が小さいほど心理的距離が小さくなるように処理されている。部分得点モデルでは、このデータを 0〜 1 の部分得点として処理するために、各回答結果を X とするとき r = ( x - 1 ) / 3と変換して「 0 , 1 / 3 , 2 / 3 , 1 」の 4段階をとる部分得点データとした。また推定方法はシミュレーションと同様の方法である，なお本調査の詳細については木原ら（ 1 9 9 7 ) 参照されたい。 3 . 2 . 質問紙データの結果と考察

段階反応モデルの識別力は部分得点モデルよリ全体的に高くなつている（表 7 ) 。これと類似の現象はデータを 2値化して通常の 2母数ロジスティックモデルで分析した場合にも生じる。たとえば 4段階評定の場合、 2値化は実質的には段階 2を 1 に、段階 3を 4に置き換えるために生じる現象である。表 7の Γ 2値モデル」はこのようなデータ変換をした結果である。部分得点モデルに比較してやや識別力が高くなつていることが分る。このような現象が発生することは、図 1 の項目 4の群別の平均回答結果を 4値と 2値の場合で比較してみると良く理解できる。ただし図の作成にあたっては、 4値 2値いずれの場合も全ての回答を 0 ~ 1 の範囲に変換している.多値データの 2値化が識別力の推定値に大きな影響を与えることが図よリ理解できる。さて境界反応曲線が実質的には多値の回答を 2値化して得られるデータに基づき定義され、推定されるため、この 2値化と類似の現象が生じている可能性もある。しかしシミュレーションの結果では、部分得点モデルの識別力と段階反応モデルの識別力の推定値は大きく異なっていなかつたのだから、 2値化を原因とすることにはやや疑問も残る。

もう一つの可能性として、テス卜項目数の違いがある。シミュレーションでは 4 0項目であつたが、本質問紙は 9項目であり、この違いが影響した可能性がある。このため 1 つシミュレーションを追加した。段階反応データのデータセッ卜 1 の初めの 1 0項目だけをとリ、段階反応モデルにより交互同時推定値を求めたところ、識別力の値は表 8のようになった。明らかに項目数が少なくなると識別力が大きくなる傾向があることが分る（MSE = 0 . 2 6 4 7 ) 。段階反応モデルでは少数項目での識別力の推定にバイアスがかかることは明らかとしても、その原因がモデルに存在するのか、それとも推定方法に問題があるのかは区別されなけれぱならない。つまり段階反応モデルそのものではなくて、同時最尤推定という方法が推定に悪影響を及ぼしている可能性もある（同時最尤推定による項目母数の推定値が一致性を持たないことは良く知られている）。このため、 MULTILOG ( Thi s s en . 1 9 9 1 ) により周辺最尤推定値も算出したが、バイアスはほとんど変わらない（MSE= 0 . 2 5 5 8 ) 。このことは推定法の問題というよりはモデルに問題があることを示唆するものであるかもしれない。なお表 8からは項目 7は一見すると同時最尤推定の識別力が極端に低く、反対に MULTILOG の推定値は妥当な値を得ているようであるが、実は MULT I LOG は困難度において異常な推定値となっておリ、うまく推定できていないことには変わりは無い。このため MSEの計算からは同項目を除外している„

部分得点データセット 1 の 1 0項目を利用した部分得点モデルの分析では交互同時推定の MSE は、識別力が 0 . 0 0 9 4、困難度が 0 . 0 0 0 7であり、周辺最尤推定では識別力が 0 . 0 0 3 2、困難度が 0 . 0 0 1 4となった（表 9 ) < 同モデルでは交互同時推定、周辺最尤推定ともこのバイアスは認められないといつて良いだろう。表 1 0には質問紙データを両モデルで分析し、周辺最尤推定を利用した推定値を示してある。同じく表 1 0より、シミュレーションと同様に、周辺最尤推定を利用しても段階反応モデルでは識別力が大きくなつていることが分る。

段階反応モデルにおいて少数項目では識別力の上方バイアスがかかることについては、慎重な検討を要するので、これについては別の研究で行うこととし、ここでは表 7の同時最尤推定の結果に基づいて検討を進める。図 2に項目 1 の部分得点モデルの項目反応曲線を、また図 3に段階反応モデルの反応曲線を示した。評定結果の合計点と両モデルの 0のゲンドールの順位相関を求めたところ段階反応モデルとは 0 . 9 1 0 4、部分得点モデルとは 0 . 9 4 2 4の相関を得た（無回答の無いケース 1 5 8 8人のみで算出した。）。部分得点モデルの方が、合計点との相関がやや高く、その再現には適していることはシミュレーションの結果と一致している。相関の値は段階反応データのシミュレーション結果から得られた両モデルの相関と近いものとなっているが、これだけで本データは段階反応モデルに従って発生していると決めるわけには行かないだろう。その理由としては、たとえばシミュレーションデータの作成の際に多次元性などの影響を加味すれば, 真値と推定値の相関だけでなく正答数（質問紙の場合は合計点）との相関も低下すると容易に予想できることなどがあげられるからである。

本節のデータは実際の調査であるため真値は不明であるからどちらのモデルが良いかを決定することは困難である。しかし段階反応モデルにおいて合計点との相関が低いことは、順位の逆転が十分説明がっくようなものであれば良いのであるが、一見で分るような性格のものではないため、モデルの利用者には逆転現象を納得しにくいということは利用の際には考慮しておいた方が良い，いずれにしろシミュレーションの結果からは、（シミュレーションの条件に近い場合は）真の 0値の推定という点では大きな差は両モデルでないことが想像される。しかし、少数項目の場合の段階反応モデルの推定値のバイアスがどのような影響をもたらすのかは、もう少し検討する必要があるだろう，いずれにしろ項目特性として識別力や項目困難度以外に大きな関心がない場合、つまり回答の各段階の困難度などに特別な関心がない場合（質問紙を利用した多くの研究はこれに該当する）には、複雑で多くの母数を推定しなければならない段階反応モデルより簡単な部分得点モデルの方が適していると言えるだろう。もちろん、個々の段階の反応にまで関心を持つ場合はこの限りではない。

文献

Andrich , D 1978 A rating formulation for ordered response categories . Psychometrika , 43 , 561-573.

Birnmaum, A . 1968 Some latent trait models and their use in inferring an examinee ' s ability . In F . M. Lord & Μ· R. Novick (Eds.) , Statistical theories of mental test scores (pp.395- 479) . Reading , MA: Addis on -Wesley .

木原孝博 · 田中治彦 ·藤森進 1997 中学生 ' 高校生の学校不適応に関する研究岡山県青少年基本調査（1994) に基づく分析岡山大学教育学部研究集録， 104, 105-122.

藤森進 2001 項目反応理論における部分得点の処理について日本教育心理学会第 43回総会発表論文集， 394.

藤森進 2002a 項目反応理論におけるテストの部分得点の処理方法について未発表論文.

藤森進 2002b 部分得点モデルとその応用第 1回心理測定研究会.

Masters , G.N. 1982 A Rasch model for partial credit scoring . Psychometrika , 47 , 149-174.

野ロ裕之 1999 適応型テストへの応用： C A T方式による識別性検査（渡辺直登 · 野ロ裕之編著「組織心理測定論」第 8章白桃書房） .

Same ima , F . 1969 Estimation of latent ability using a response pattern of graded scores · Psychometrika Monograph, o · 17 ·

Thissen , D 1991 Multilog user's guide . Chicago , IL： Scientific Software .

Claims

請求の範囲

1 . 入力装置と出力装置とを備えた第 1 のコンピュータと、インターネットを含むネットワークを介して前記第 1 のコンピュータと接続されており入力装置と出力装置とを備えた第 2のコンピュータと、前記ネッ卜ワークを介して前記第 1 及び第 2のコンピュータと接続されたテス卜管理サーバと、前記テスト管理サーバからアクセス可能であって難易度と識別力とを含む項目パラメータが予め推定されている複数の問題が記憶された問題データベースとによって構成され、 1 人の受験者に n問の問題を出題し、出題された n問の問題に対する前記受験者の反応から前記受験者の能力 0を推定するテス卜 · システムであって、

前記テス卜管理サーバは、

前記第 1 のコンピュータから送信されたリクエス卜に応答して、 1 ≤ j ≤ n である問題 j に対し満点を 1 として 0≤ r ·≤ 1 である部分得点 r を許容する態様で採点されうる n問の問題を前記問題データベースから選択し前記第 1 のコンピュー夕に送信する手段と、

前記問題データベースから選択され前記第 1 のコンピュータに送信された問題に対して前記第 1 のコンピュータから返送された解答を記憶する解答記憶手段と、

前記第 2のコンピュータから送信されたリクエス卜に応答して、前記解答記憶手段に記憶されている解答を読み出し前記第 2のコンピュータに送信する手段前記第 2のコンピュータに送信された解答に対して与えられた部分得点 r j を前記第 2のコンピュータから受信し記憶する部分得点記憶手段と、

前記部分得点記憶手段に記憶されている部分得点 r jと前記問題データべ一スに記憶されている問題 j の項目パラメータとを用いて、当該部分得点 jを獲得した受験者の能力 0を推定する能力推定手段と、

を備えており、

前記能力推定手段において、 P j ( Θ ) は、部分得点 r」·を問題 j に固有であつて前記受験者が正答 1 又は誤答 0のいずれか一方の潜在的反応を取り得る潜在的問題を S j回繰り返し実施したときに前記受験者が潜在的に取りうる正誤反応の平均であると想定した場合に、前記受験者が前記潜在的問題に正答する確率であり、 Q j ( θ ) は 1 一 P』 ( θ ) である場合に、

【数 4 0】 ( =∑ ^SJ ( ^ln {^pj (θ )) + (1 - )^ln {QJ ( )) によって表される対数尤度^ ^ (θ )を用いて受験者の能力 0が推定されることを特徴とするテス卜 · システム。

2 . 請求項 1記載のテス卜 ' システムにおいて、前記 Ρ』 ( Θ ) は、 2パラメ一夕 ' ロジスティック 'モデルを用いて、

【数 4

と表現され、この数式 4 1 における a』及び b _;はそれぞれが前記問題データべースに記憶されている問題が有する固有の特性である識別力と困難度とであリ、 Dは 1 . 7という定数であることを特徴とするテス卜 · システム。

3 . 請求項 2記載のテスト · システムにおいて、実際に観測される問題 j に対する部分得点が顕在的な複数の正誤問題の平均によって構成されている場合にも、これらの正誤問題に共通する正答確率を数式 4 1 で表現し、数式 4 0を用いて受験者の能力 0が推定されることを特徴とするテス卜 · システム。

4 . 請求項 1ないし請求項 3の任意の請求項に記載のテス卜 · システムにおいて、テス卜が実施された集団の能力分布を仮定した上で、回の正誤の和である 2項分布と仮定された能力分布との積を能力の次元で積分して部分得点の理論的な分布関数を求め、求められた理論的な分布関数と実際のデータの部分得点の経験的な分布関数が最もよく一致するように、潜在的な問題の繰り返し回数である .を推定する手段を更に備えていることを特徴とするテス卜システム。

5 . 請求項 1 ないし請求項 4の任意の請求項に記載のテス卜 ■ システムにおいて、前記第 1及び第 2のコンピュータにおける前記出力装置と前記入力装置とはそれぞれ音声出力装置と音声入力装置とを含み、前記テス卜サーバに送信され記憶される解答は音声データを含むことを特徴とするテス卜 · システム。

6 . 入力装置と出力装置とを備えた第 1 のコンピュータと、インターネットを含むネットワークを介して前記第 1 のコンピュータと接続されており入力装置と出力装置とを備えた第 2のコンピュータと、前記ネッ卜ワークを介して前記第 1 及び第 2のコンピュータと接続されたテスト管理サーバと、前記テスト管理サーバからアクセス可能であって難易度と識別力とを含む項目パラメ一夕が予め推定されている複数の問題が記憶された問題データベースとによって構成され、 1人の受験者に n問の問題を出題し、出題された n問の問題に対する前記受験者の反応から前記受験者の能力 0を推定するテス卜 · システムを制御する方法であって, 前記テス卜管理サーバにおいて、

( 1 ) 前記第 1 のコンピュータから送信されたリクエス卜に応答して、 1 ≤ j ≤ nである問題〗に対し満点を 1 として 0≤ r i≤ 1 である部分得点 r ；を許容する態様で採点されうる n問の問題を前記問題データベースから選択し前記第 1のコンピュータに送信するステツプと、

( 2 ) 前記問題データベースから選択され前記第 1 のコンピュータに送信された問題に対して前記第 1 のコンピュータから返送された解答を記憶するステツプと、

( 3 ) 前記第 2のコンピュータから送信されたリクエス卜に応答して、前記ステップ（2 ) において記憶された解答を読み出し前記第 2のコンピュータに送信する手段と、

( 4 ) 前記第 2のコンピュータに送信された解答に対して与えられた部分得点 r ；を前記第 2のコンピュータから受信し記憶するステップと、

( 5 ) 前記ステップ（4 ) において記憶された部分得点 r；と前記問題デー夕ベースに記憶されている問題 j の項目パラメータとを用いて、当該部分得点 r jを獲得した受験者の能力 0を推定するステップと、

を含んでおリ、

前記ステップ（5 ) において、 Ρ』 ( Θ ) は、部分得点 r 』·を問題 j に固有であって前記受験者が正答 1又は誤答 0のいずれか一方の潜在的反応を取り得る潜在的問題を s _;回繰り返し実施したときに前記受験者が潜在的に取りうる正誤反応の平均であると想定した場合に、前記受験者が前記潜在的問題に正答する確率であり、 Q j ( Θ ) は 1 一 P j ( Θ ) である場合に、

【数 4 2】

( =ヌ ^SJ ( ^ln (^pi (^θ )) + - ^ri )^ln (QJ i^e；によって表される対数尤度^ ^ (0 )を用いて受験者の能力 0が推定されることを特徴とするテス卜 · システム制御方法。

7 . 請求項 6記載の方法において、前記 P , ( Θ ) は、 2パラメータ ■ 口ジスティック ·モデルを用いて、

【数 4 3】ト

と表現され、この数式 4 3における a』及び b』はそれぞれが前記問題データべースに記憶されている問題が有する固有の特性である識別力と困難度とであリ、 Dは 1 . 7という定数であることを特徴とする方法。

8 . 請求項 7記載の方法において、実際に観測される問題 j に対する部分得点が顕在的な複数の正誤問題の平均によって構成されている場合にも、これらの正誤問題に共通する正答確率を数式 4 3で表現し、数式 4 2を用いて受験者の能力 0が推定されることを特徴とする方法。

9 . 請求項 6ないし請求項 8記載の方法において、

( 6 ) テス卜が実施された集団の能力分布を仮定した上で、回の正誤の和である 2項分布と仮定された能力分布との積を能力の次元で積分して部分得点の理論的な分布関数を求め、求められた理論的な分布関数と実際のデータの部分得点の経験的な分布関数が最もよく一致するように、潜在的な問題の緣リ返し回数である；