WO2021176714A1

WO2021176714A1 - 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム

Info

Publication number: WO2021176714A1
Application number: PCT/JP2020/009806
Authority: WO
Inventors: 光甫西田; 京介西田; いつみ斉藤; 久子浅野; 準二富田
Original assignee: 日本電信電話株式会社
Priority date: 2020-03-06
Filing date: 2020-03-06
Publication date: 2021-09-10
Also published as: JPWO2021176714A1; JP7452623B2

Abstract

一実施形態に係る学習装置は、テキストと、前記テキストに関連する質問とを入力として、第１のニューラルネットワークのモデルパラメータを用いて、前記テキストに含まれる文字列が前記質問に対する回答の根拠となる尤もらしさを表す根拠スコアを算出し、前記根拠スコアをパラメータとして持つ所定の分布からのサンプリングによって、前記回答の根拠となる文字列の集合を示す第１の集合を前記テキストから抽出する根拠抽出手段と、前記質問と、前記第１の集合とを入力として、第２のニューラルネットワークのモデルパラメータを用いて、前記回答を前記第１の集合から抽出する回答抽出手段と、前記回答と前記質問に対する真の回答との間の第１の損失と連続緩和とを用いて誤差逆伝搬により勾配を計算することで、前記第１のニューラルネットワークのモデルパラメータと前記第２のニューラルネットワークのモデルパラメータとを学習する第１の学習手段と、を有することを特徴とする。

Description

学習装置、情報処理装置、学習方法、情報処理方法及びプログラム

　本発明は、学習装置、情報処理装置、学習方法、情報処理方法及びプログラムに関する。

　近年、与えられたテキストを参照し読み解きながら質問に回答する機械読解が注目を集めており、様々な機械読解モデルが提案されている。しかしながら、機械読解モデルはブラックボックスであり、その回答の根拠がわからないという課題がある。この課題に対して、回答の根拠を提示する機械読解モデルが提案されている（非特許文献１）。

K. Nishida, K. Nishida, M. Nagata, A. Otsuka, I. Saito, H. Asano, and J. Tomita. Answering while summarizing: Multi-task learning for multi-hop QA with evidence extraction. In ACL, pp. 2335-2345, 2019.

　しかしながら、上記の非特許文献１に記載されている機械読解モデルが提示する根拠は、訓練データ中のアノテーションを再現しているだけであり、厳密な意味での根拠になっていなかった。

　本発明の一実施形態は、上記の点に鑑みてなされたもので、回答の根拠を提示可能な機械読解を実現することを目的とする。

　上記目的を達成するため、一実施形態に係る学習装置は、テキストと、前記テキストに関連する質問とを入力として、第１のニューラルネットワークのモデルパラメータを用いて、前記テキストに含まれる文字列が前記質問に対する回答の根拠となる尤もらしさを表す根拠スコアを算出し、前記根拠スコアをパラメータとして持つ所定の分布からのサンプリングによって、前記回答の根拠となる文字列の集合を示す第１の集合を前記テキストから抽出する根拠抽出手段と、前記質問と、前記第１の集合とを入力として、第２のニューラルネットワークのモデルパラメータを用いて、前記回答を前記第１の集合から抽出する回答抽出手段と、前記回答と前記質問に対する真の回答との間の第１の損失と連続緩和とを用いて誤差逆伝搬により勾配を計算することで、前記第１のニューラルネットワークのモデルパラメータと前記第２のニューラルネットワークのモデルパラメータとを学習する第１の学習手段と、を有することを特徴とする。

　回答の根拠を提示可能な機械読解を実現することができる。

推論時における質問応答装置の全体構成の一例を示す図である。本実施形態に係る推論処理の一例を示すフローチャートである。学習（教師あり学習）時における質問応答装置の全体構成の一例を示す図である。本実施形態に係る教師あり学習処理の一例を示すフローチャートである。学習（教師なし学習）時における質問応答装置の全体構成の一例を示す図である。本実施形態に係る教師なし学習処理の一例を示すフローチャートである。本実施形態に係る質問応答装置のハードウェア構成の一例を示す図である。

　以下、本発明の一実施形態について説明する。本実施形態では、回答の抽出対象となる参照テキストとこの参照テキストに関連する質問とが与えられたときに、回答を提示すると共に、当該回答の根拠を提示可能な機械読解を実現する質問応答装置１０について説明する。

　機械読解は、ニューラルネットワーク等で構成される機械読解モデルにより実現される。本実施形態では、回答の根拠を提示可能な機械読解モデルを解釈可能であるといい、以下で定義する。

　定義（解釈可能な機械読解モデル）：機械読解モデルが解釈可能であるとは、機械読解モデルが以下の入出力を持つ２つのモデルで構成されていることをいう。

　・根拠モデル：参照テキストと質問とを入力として、根拠を出力するモデル
　・回答モデル：根拠と質問とを入力として、回答を出力するモデル
　ここで、根拠は参照テキストの部分文字列の集合である。本実施形態では、根拠は文の集合であるものとする。ただし、これに限られず、根拠は、文よりも長い文字列（例えば、段落等）の集合であってもよいし、文よりも短い文字列（例えば、フレーズ等）の集合であってもよい。

　解釈可能な機械読解モデルは、参照テキストに含まれる文字列のうち、根拠に含まれる文字列のみを回答モデルに入力する。すなわち、根拠以外の情報（例えば、根拠モデルの隠れ状態等）は回答モデルでは利用しない。このため、（１）厳密な意味で回答の根拠を提示可能であり、（２）回答モデルは根拠と質問の情報のみを持つため、回答を予測した理由を十分短い根拠（つまり、参照テキストよりも十分短い文字列である根拠）に限定することができ、（３）回答モデルの入力が短くなるため、回答モデルで計算コストの高い処理を許容することが可能となる、という利点がある。また、後述する教師なし学習により学習を行うことで、（４）人手のアノテーションではなく、機械読解モデルが高精度に回答するために必要な根拠を学習させることが可能となる、という利点もある。

　ここで、本実施形態は、機械読解モデルのパラメータ（つまり、根拠モデルのパラメータと回答モデルのパラメータ）を学習する学習時と、学習済みのパラメータを用いた機械読解モデルにより機械読解を行う推論時とがある。また、本実施形態では、機械読解モデルのパラメータの学習方法として、根拠の正解データ及び回答の正解データの両方を利用する教師あり学習と、根拠の正解データは利用しない教師なし学習との２つの学習方法について説明する。そこで、以降では、質問応答装置１０の「推論時」、「学習（教師あり学習）時」、「学習（教師なし学習）時」について説明する。

　［推論時］
　まず、機械読解モデルのパラメータが学習済みであるものとして、学習済みのパラメータを用いて機械読解モデルにより機械読解を行う場合について説明する。推論時における質問応答装置１０には、参照テキストＰと、この参照テキストＰに関連する質問Ｑとが入力される。

　＜推論時における質問応答装置１０の全体構成＞
　推論時における質問応答装置１０の全体構成について、図１を参照しながら説明する。図１は、推論時における質問応答装置１０の全体構成の一例を示す図である。

　図１に示すように、推論時における質問応答装置１０は、機械読解モデルを実現する根拠抽出処理部１０１及び回答抽出処理部１０２と、根拠モデルのパラメータ（以下、「根拠モデルパラメータ」という。）を記憶する根拠モデルパラメータ記憶部２０１と、回答モデルのパラメータ（以下、「回答モデルパラメータ」という。）を記憶する回答モデルパラメータ記憶部２０２とを有する。

　根拠抽出処理部１０１は根拠モデルにより実現され、参照テキストＰと質問Ｑとを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習済み根拠モデルパラメータを用いて、根拠

を出力する。なお、本明細書のテキスト中では、推定値を表すハット「＾」は任意の記号Ｘの前に付与し、「＾Ｘ」と表記するものとする。ここで、根拠抽出処理部１０１には、言語理解部１１１と、根拠抽出部１１２とが含まれる。

　言語理解部１１１は、参照テキストＰと質問Ｑとを入力として、質問ベクトルｑと参照テキストＰ中の全ての文ベクトルの集合｛ｓ_ｉ｝とを出力する。根拠抽出部１１２は、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを入力として、根拠＾Ｒを出力する。

　回答抽出処理部１０２は回答モデルにより実現され、根拠＾Ｒと質問Ｑとを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習済み回答モデルパラメータを用いて、回答＾Ａを出力する。ここで、回答抽出処理部１０２には、言語理解部１２１と、回答抽出部１２２とが含まれる。

　言語理解部１２１は、根拠＾Ｒと質問Ｑとを入力として、ベクトル系Ｈを出力する。回答抽出部１２２は、ベクトル系列Ｈを入力として、回答＾Ａ（より正確には、根拠＾Ｒ中で回答範囲の始点及び終点となるスコア）を出力する。

　なお、図１に示す例では、根拠モデルパラメータ記憶部２０１と回答モデルパラメータ記憶部２０２を異なる記憶部としているが、同一の記憶部であってもよい。また、根拠モデルパラメータ及び回答モデルパラメータのうち、言語理解部１１１が用いるパラメータと言語理解部１２１が用いるパラメータとは同一であってもよい（つまり、言語理解部１１１と言語理解部１２１でパラメータを共有していてもよい。）。

　＜推論処理＞
　次に、本実施形態に係る推論処理について、図２を参照しながら説明する。図２は、本実施形態に係る推論処理の一例を示すフローチャートである。

　まず、根拠抽出処理部１０１の言語理解部１１１は、参照テキストＰと質問Ｑとを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習済み根拠モデルパラメータを用いて、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを出力する（ステップＳ１０１）。

　具体的には、言語理解部１１１は、参照テキストＰと質問Ｑとをトークン系列［'［ＣＬＳ_Ｑ］'；質問；'［ＳＥＰ_Ｑ］'；'［ＣＬＳ_Ｐ］'；文１；'［ＳＥＰ_Ｐ］'；・・・；'［ＣＬＳ_Ｐ］'；文ｎ；'［ＳＥＰ_Ｐ］'］としてBERT（Bidirectional Encoder Representations from Transformers）に入力する。ここで、'［ＣＬＳ_Ｑ］'，［ＳＥＰ_Ｑ］'，'［ＣＬＳ_Ｐ］'，'［ＳＥＰ_Ｐ］'は特殊トークン、ｎは参照テキストＰ中の文数である。なお、BERT以外の他の事前学習済み言語モデルが用いられてもよい。

　そして、言語理解部１１１は、BERTの出力のうち、'［ＣＬＳ_Ｑ］'に相当する位置のベクトルを質問ベクトルｑ∈Ｒ^ｄ、ｉ番目の'［ＣＬＳ_Ｐ］'に相当する位置のベクトルをｉ文目の文ベクトルｓ_ｉ∈Ｒ^ｄとする。ｄはBERTの出力の次元である。なお、Ｒ^ｄはｄ次元の実空間である。

　これにより、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とが得られる。なお、BERTについては、例えば、参考文献１「Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language」を参照されたい。

　なお、例えば、参照テキストＰが長文でBERTに入力できない場合、適当な長さで参照テキストＰを分割した複数の分割参照テキストを作成した上で、これら複数の分割参照テキストのそれぞれ（と質問Ｑ）をBERTに入力すればよい。この場合、文ベクトル集合｛ｓ_ｉ｝は各分割参照テキストから得られた文ベクトルの集合とすればよく、質問ベクトルｑは各分割参照テキストから得られた質問ベクトルの平均とすればよい。

　次に、根拠抽出処理部１０１の根拠抽出部１１２は、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習済み根拠モデルパラメータを用いて、根拠＾Ｒを出力する（ステップＳ１０２）。根拠抽出部１１２は、文抽出の終了を判定するためのダミー文であるＥＯＥ文ｓ_ＥＯＥを文ベクトル集合｛ｓ_ｉ｝に追加した上で、上記の非特許文献１と同様に、ＧＲＵ（Gated recurrent unit）を用いて再帰的に文を抽出することで根拠＾Ｒ＝｛＾ｒ^ｔ｝を得る。

　すなわち、根拠抽出部１１２は、時刻ｔ毎に、文＾ｒ^ｔを抽出してその文＾ｒ^ｔの文ベクトルを用いて質問ベクトルｑ^ｔを更新する処理を、終了条件を満たすまで繰り返し実行することで根拠＾Ｒ＝｛＾ｒ^ｔ｝を得る。具体的には、根拠抽出部１１２は、時刻ｔ（ｔ＝０，１，・・・）毎に以下のＳｔｅｐ１～Ｓｔｅｐ４を繰り返し実行する。なお、ｑ^０＝ｑとする
　Ｓｔｅｐ１：根拠抽出部１１２は、質問ベクトルｑ^ｔを用いて、以下により文ｉのスコアを得る。

　ここで、Ｗ_ｐ∈Ｒ^ｄ×ｄは学習済み根拠モデルパラメータに含まれる学習済みパラメータである（つまり、Ｗ_ｐは、後述する学習処理で学習対象となるパラメータである。）。なお、Ｒ^ｄ×ｄはｄ×ｄ次元の実空間である。

　Ｓｔｅｐ２：次に、根拠抽出部１１２は、以下により文＾ｒ^ｔを抽出する。

　ここで、Ｓは文全体の集合、＾Ｒ^ｔ－１は時刻ｔ－１までに抽出された文の集合である。すなわち、根拠抽出部１１２は、これまでに抽出されていない文の中で最もスコアが高い文を抽出する。

　Ｓｔｅｐ３：次に、根拠抽出部１１２は、上記のＳｔｅｐ２で抽出した文がＥＯＥ文ｓ_ＥＯＥであるか否かを判定する。そして、上記のＳｔｅｐ２で抽出した文がＥＯＥ文ｓ_ＥＯＥでなければＳｔｅｐ４を実行し、ＥＯＥ文ｓ_ＥＯＥであれば処理を終了する。ここで、文ベクトルｓ_ＥＯＥは学習済み根拠モデルパラメータに含まれる学習済みパラメータである（つまり、文ベクトルｓ_ＥＯＥは、後述する学習処理で学習対象となるパラメータである。）。

　Ｓｔｅｐ４：根拠抽出部１１２は、上記のＳｔｅｐ２で抽出した文の文ベクトルを用いて、以下により質問ベクトルｑ^ｔを更新する。

　なお、質問ベクトルｑ^ｔは質問に答えるために不足している情報を表現している。初期状態ｑ^０は質問に答えるために必要な情報の全てであり、上記のＳｔｅｐ４により、抽出した文＾ｒ^ｔにある情報がＧＲＵによってｑ^ｔから除かれることが期待される。

　終了条件を満たすまで（つまり、上記のＳｔｅｐ２でＥＯＥ文ｓ_ＥＯＥが抽出されるまで）、時刻ｔ毎に上記のＳｔｅｐ１～Ｓｔｅｐ４が繰り返し実行され、根拠＾Ｒ＝｛＾ｒ^ｔ｝が得られる。

　次に、回答抽出処理部１０２の言語理解部１２１は、根拠＾Ｒと質問Ｑとを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習済み回答モデルパラメータを用いて、ベクトル系列Ｈを出力する（ステップＳ１０３）。

　具体的には、言語理解部１２１は、根拠＾Ｒと質問Ｑとをトークン系列［'［ＣＬＳ］'；質問；'［ＳＥＰ］'；文ｒ^１；・・・；文ｒ^Ｔ；'［ＳＥＰ］'］としてBERTに入力する。ここで、'［ＣＬＳ］'，'［ＳＥＰ］'は特殊トークン、Ｔは根拠＾Ｒに含まれる文数である。なお、BERT以外の他の事前学習済み言語モデルが用いられてもよい。

　そして、言語理解部１２１は、各トークンのベクトルの系列Ｈ＝［ｈ_１，・・・，ｈ_ｋ］∈Ｒ^ｋ×ｄを出力する。ここで、ｋは系列長である。なお、Ｒ^ｋ×ｄはｋ×ｄ次元の実空間である。

　次に、回答抽出処理部１０２の回答抽出部１２２は、ベクトル系列Ｈを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習済み回答モデルパラメータを用いて、回答＾Ａを出力する（ステップＳ１０４）。

　具体的には、回答抽出部１２２は、ベクトル系列Ｈを以下の線形変換により回答のスコアに変換する。

　ここで、ａ_ｓ，ｉは第ｉトークンが回答の始点となるスコア、ａ_ｅ，ｉは第ｉトークンが回答の終点となるスコアを表す。また、Ｗ_ａ∈Ｒ^２×ｄ及びｂ_ａ∈Ｒ^２は学習済み回答モデルパラメータに含まれる学習済みパラメータである（つまり、Ｗ_ａ及びｂ_ａは、後述する学習処理で学習対象となるパラメータである。）。なお、Ｒ^２×ｄは２×ｄ次元の実空間、Ｒ^２は２次元の実空間である。

　これにより、第ｉトークンが回答の始点となるスコアと終点となるスコアとが得られる。したがって、例えば、ａ_ｓ，ｉが最も高いトークンを回答範囲の始点、ａ_ｅ，ｉが最も高いトークンを回答範囲の終点とすることで、この回答範囲（又は、この回答範囲内の文）が回答＾Ａとして得られる。

　以上により、推論時における質問応答装置１０は、参照テキストＰと質問Ｑとを入力として、回答＾Ａを得ることができる。しかも、このとき、質問応答装置１０は、この回答＾Ａの根拠＾Ｒ（つまり、回答＾Ａの根拠となった文集合）を得ることもできる。なお、この回答＾Ａ及びその根拠＾Ｒは質問応答装置１０の内外の任意の出力先（例えば、ディスプレイや記憶装置、通信ネットワークを介して接続される他の装置等）に出力されてもよい。

　［学習（教師あり学習）時］
　次に、機械読解モデルのパラメータは学習済みでないものとして、このパラメータを教師あり学習により学習する場合について説明する。学習（教師あり学習）時における質問応答装置１０には、参照テキストＰと、この参照テキストＰに関連する質問Ｑと、この質問Ｑに対する真の回答の回答範囲を示す正解回答Ａと、この正解回答Ａの真の根拠を示す正解根拠Ｒとが含まれる訓練データの集合（訓練データセット）が入力される。

　＜学習（教師あり学習）時における質問応答装置１０の全体構成＞
　学習（教師あり学習）時における質問応答装置１０の全体構成について、図３を参照しながら説明する。図３は、学習（教師あり学習）時における質問応答装置１０の全体構成の一例を示す図である。なお、図３では、主に、推論時との相違点について説明し、推論時と同様の構成要素についてはその説明を省略する。

　図３に示すように、学習（教師あり学習）時における質問応答装置１０は、機械読解モデルを実現する根拠抽出処理部１０１及び回答抽出処理部１０２と、根拠モデルパラメータ及び回答モデルパラメータを学習するパラメータ学習部１０３と、根拠モデルパラメータを記憶する根拠モデルパラメータ記憶部２０１と、回答モデルパラメータを記憶する回答モデルパラメータ記憶部２０２とを有する。なお、根拠モデルパラメータ記憶部２０１には学習済みでない（つまり、学習中の）根拠モデルパラメータが記憶されており、回答モデルパラメータにも学習中の回答モデルパラメータが記憶されている。

　パラメータ学習部１０３は、根拠＾Ｒと正解根拠Ｒとの誤差（損失）を用いて根拠モデルパラメータを学習すると共に、回答＾Ａと正解回答Ａとの誤差（損失）を用いて回答モデルパラメータを学習する。

　＜教師あり学習処理＞
　次に、本実施形態に係る教師あり学習処理について、図４を参照しながら説明する。図４は、本実施形態に係る教師あり学習処理の一例を示すフローチャートである。以降では、オンライン学習により根拠モデルパラメータ及び回答モデルパラメータを学習する場合について説明するが、これは一例であって、バッチ学習やミニバッチ学習等も適用可能である。

　パラメータ学習部１０３は、訓練データセットから１件の訓練データ（つまり、参照テキストＰと質問Ｑと正解回答Ａと正解根拠Ｒとの組）を処理対象として選択する（ステップＳ２０１）。

　次に、根拠抽出処理部１０１の言語理解部１１１は、上記のステップＳ２０１で処理対象として選択された訓練データに含まれる参照テキストＰと質問Ｑとを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習中の根拠モデルパラメータを用いて、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを出力する（ステップＳ２０２）。なお、言語理解部１１１は、図２のステップＳ１０１と同様の処理を行って質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを出力する。

　次に、根拠抽出処理部１０１の根拠抽出部１１２は、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習中の根拠モデルパラメータを用いて、根拠＾Ｒを出力する（ステップＳ２０３）。根拠抽出部１１２は、ＥＯＥ文ｓ_ＥＯＥを文ベクトル集合｛ｓ_ｉ｝に追加した上で、図２のステップＳ１０２と同様に、時刻ｔ（ｔ＝０，１，・・・）毎に上記のＳｔｅｐ１～Ｓｔｅｐ４を繰り返し実行する。ただし、上記のＳｔｅｐ２で文＾ｒ^ｔを抽出する際、根拠抽出部１１２は、Teacher-Forcingを用いて文＾ｒ^ｔを抽出する。すなわち、根拠抽出部１１２は、以下により文＾ｒ^ｔを抽出する。

　このように、教師あり学習時では正解根拠Ｒの中から文＾ｒ^ｔを抽出する。また、ＥＯＥ文ｓ_ＥＯＥは正解根拠Ｒ中の全ての文が抽出された後に選択（抽出）する。

　なお、正解根拠Ｒに含まれる文同士には順序が存在しないため、上記のargmax操作によって未だ選ばれていない根拠Ｒの中で最もスコアが高い文を時刻ｔの正解データとみなしている。そのため、教師あり学習によって、根拠モデルは質問Ｑにとって重要な情報を含む順に文を抽出（選択）することが期待される。

　次に、パラメータ学習部１０３は、根拠モデルの損失Ｌ_Ｒとして、各時刻ｔで根拠となる文の抽出に関する負の対数尤度の平均を算出する（ステップＳ２０４）。すなわち、パラメータ学習部１０３は、以下により損失Ｌ_Ｒを算出する。

　ここで、Ｐｒ（ｉ；＾Ｒ^ｔ－１）は時刻ｔに文ｉが出力される確率、つまり、

である。

　次に、回答抽出処理部１０２の言語理解部１２１は、根拠＾Ｒと質問Ｑとを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習中の回答モデルパラメータを用いて、ベクトル系列Ｈを出力する（ステップＳ２０５）。なお、言語理解部１２１は、図２のステップＳ１０３と同様の処理を行ってベクトル系列Ｈを出力する。

　次に、回答抽出処理部１０２の回答抽出部１２２は、ベクトル系列Ｈを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習中の回答モデルパラメータを用いて、回答＾Ａを出力する（ステップＳ２０６）。なお、回答抽出部１２２は、図２のステップＳ１０４と同様の処理を行って回答＾Ａを出力する。

　次に、パラメータ学習部１０３は、回答モデルの損失Ｌ_Ａとして、回答＾Ａと正解回答ＡのCross-Entropy損失の和を算出する（ステップＳ２０７）。すなわち、パラメータ学習部１０３は、以下により損失Ｌ_Ａを算出する。

　ここで、ａ_ｓは各ａ_ｓ，ｉを要素とするベクトル、ａ_ｅは各ａ_ｅ，ｉを要素とするベクトルである。また、ｉ_ｓは正解回答Ａが示す回答範囲の始点、ｊ_ｅは当該回答範囲の終点である。

　次に、パラメータ学習部１０３は、上記のステップＳ２０４で算出した損失Ｌ_Ｒを用いて根拠モデルパラメータを学習すると共に、上記のステップＳ２０７で算出した損失Ｌ_Ａを用いて回答モデルパラメータを学習する（ステップＳ２０８）。すなわち、パラメータ学習部１０３は、損失Ｌ_Ｒの値及びその勾配を算出し、損失Ｌ_Ｒの値が最小となるように根拠モデルパラメータを更新する。同様に、パラメータ学習部１０３は、損失Ｌ_Ａの値及びその勾配を算出し、損失Ｌ_Ａの値が最小となるように回答モデルパラメータを更新する。

　なお、上記では損失Ｌ_Ｒと損失Ｌ_Ａとをそれぞれ最小化させたが、損失Ｌ_Ｒ＋Ｌ_Ａを最小化させることで、根拠モデルパラメータと回答モデルパラメータとを更新してもよい。

　次に、パラメータ学習部１０３は、訓練データセット中の全ての訓練データが処理対象として選択されたか否かを判定する（ステップＳ２０９）。未だ処理対象として選択されていない訓練データが存在する場合（ステップＳ２０９でＮＯ）、パラメータ学習部１０３は、ステップＳ２０１に戻る。これにより、訓練データセット中の全ての訓練データに対して上記のステップＳ２０１～ステップＳ２０８が実行される。

　一方で、訓練データセット中の全ての訓練データが処理対象として選択された場合（ステップＳ２０９でＹＥＳ）、パラメータ学習部１０３は、収束条件を満たすか否かを判定する（ステップＳ２１０）。収束条件を満たす場合（ステップＳ２１０でＹＥＳ）は、パラメータ学習部１０３は学習処理を終了する。一方で、収束条件を満たさない場合（ステップＳ２１０でＮＯ）は、パラメータ学習部１０３は、訓練データセット中の全ての訓練データが処理対象として選択されていないものとした上で、ステップＳ２０１に戻る。ここで、収束条件としては、例えば、上記のステップＳ２０１～ステップＳ２０８が処理された回数（反復回数）が所定の回数以上となったこと等が挙げられる。

　以上により、学習（教師あり学習）時における質問応答装置１０は、参照テキストＰと質問Ｑと正解回答Ａと正解根拠Ｒとが含まれる訓練データを入力として、根拠モデルパラメータ及び回答モデルパラメータを学習することができる。なお、図４では１つの学習処理の中で根拠モデルパラメータと回答モデルパラメータとを学習させたが、これに限られず、根拠モデルパラメータと回答モデルパラメータとを別々の学習処理の中で学習させてもよい。

　［学習（教師なし学習）時］
　次に、教師なし学習により機械読解モデルのパラメータを学習する場合について説明する。学習（教師なし学習）時における質問応答装置１０には、参照テキストＰと、この参照テキストＰに関連する質問Ｑと、この質問Ｑに対する真の回答の回答範囲を示す正解回答Ａとが含まれる訓練データの集合（訓練データセット）が入力される。このように、教師なし学習時には、正解回答Ａの真の根拠を示す正解根拠Ｒが与えられない（つまり、教師なしとは正解根拠Ｒが与えられないことを意味する。）。このため、正解根拠Ｒが入手できない又は存在しない場合であっても、機械読解モデルのパラメータを学習することができる。

　＜学習（教師なし学習）時における質問応答装置１０の全体構成＞
　学習（教師なし学習）時における質問応答装置１０の全体構成について、図５を参照しながら説明する。図５は、学習（教師なし学習）時における質問応答装置１０の全体構成の一例を示す図である。なお、図５では、主に、推論時との相違点について説明し、推論時と同様の構成要素についてはその説明を省略する。

　図５に示すように、学習（教師なし学習）時における質問応答装置１０は、機械読解モデルを実現する根拠抽出処理部１０１及び回答抽出処理部１０２と、根拠モデルパラメータ及び回答モデルパラメータを学習するパラメータ学習部１０３と、根拠モデルパラメータを記憶する根拠モデルパラメータ記憶部２０１と、回答モデルパラメータを記憶する回答モデルパラメータ記憶部２０２とを有する。なお、根拠モデルパラメータ記憶部２０１には学習中の根拠モデルパラメータが記憶されており、回答モデルパラメータにも学習中の回答モデルパラメータが記憶されている。

　パラメータ学習部１０３は、回答＾Ａの損失を用いて根拠モデルパラメータ及び回答モデルパラメータを学習する。

　＜教師なし学習処理＞
　次に、本実施形態に係る教師なし学習処理について、図６を参照しながら説明する。図６は、本実施形態に係る教師なし学習処理の一例を示すフローチャートである。以降では、オンライン学習により根拠モデルパラメータ及び回答モデルパラメータを学習する場合について説明するが、これは一例であって、バッチ学習やミニバッチ学習等も適用可能である。

　パラメータ学習部１０３は、訓練データセットから１件の訓練データ（つまり、参照テキストＰと質問Ｑと正解回答Ａとの組）を処理対象として選択する（ステップＳ３０１）。

　次に、根拠抽出処理部１０１の言語理解部１１１は、上記のステップＳ３０１で処理対象として選択された訓練データに含まれる参照テキストＰと質問Ｑとを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習中の根拠モデルパラメータを用いて、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを出力する（ステップＳ３０２）。なお、言語理解部１１１は、図２のステップＳ１０１と同様の処理を行って質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを出力する。

　次に、根拠抽出処理部１０１の根拠抽出部１１２は、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習中の根拠モデルパラメータを用いて、根拠＾Ｒを出力する（ステップＳ３０３）。根拠抽出部１１２は、ＥＯＥ文ｓ_ＥＯＥを文ベクトル集合｛ｓ_ｉ｝に追加した上で、図２のステップＳ１０２と同様に、時刻ｔ（ｔ＝０，１，・・・）毎に上記のＳｔｅｐ１～Ｓｔｅｐ４を繰り返し実行する。ただし、根拠となる文の抽出操作argmaxは微分不可であるため、上記のＳｔｅｐ２で文＾ｒ^ｔを抽出する際、根拠抽出部１１２は、gumbel-softmax trickによるサンプリングで根拠となる文＾ｒ^ｔを抽出する。

　具体的には、ｇ_ｉ（ｉ＝１，・・・，ｎ）を一様独立なgumbel分布からサンプリングした確率変数（すなわち、ｕ_ｉ～Uniform（０，１），ｇ_ｉ＝－ｌｏｇ（－ｌｏｇ（ｕ_ｉ））とする。）とする。このとき、根拠抽出部１１２は、時刻ｔに抽出する文＾ｒ^ｔを

に従って決定する。なお、この式は、所定の第１の分布からのサンプリングによってテキストを抽出することを意味する。より具体的には、根拠スコアと、所定の第２の分布（本実施形態では、一例としてgumbel分布）に従う確率変数との和からなるスコアに基づいてテキストを抽出することを意味する。ただし、根拠スコアとは上記の式中のｌｏｇ（Ｐｒ（ｉ；＾Ｒ^ｔ－１））のことであり、文ｉが回答の根拠となる尤もらしさを表すスコアのことである。

　ここで、上述したように、根拠の抽出操作argmaxは微分不可である。また、文集合の中から文を抽出するためのone-hotベクトルを作成する操作も微分不可である。そこで、後述する損失Ｌの勾配を計算する際（つまり、損失を逆伝播（誤差逆伝搬）する際）には、straight-through gumbel-softmax estimatorをone-hotベクトルの微分値の近似値として用いる。すなわち、one-hotベクトル

の連続緩和（つまり、離散空間から連続空間への緩和）はτを温度パラメータとして、

であるため、

とする。ここで、ｙはｙ_ｉを要素とするベクトルである。

　次に、回答抽出処理部１０２の言語理解部１２１は、根拠＾Ｒと質問Ｑとを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習中の回答モデルパラメータを用いて、ベクトル系列Ｈを出力する（ステップＳ３０４）。なお、言語理解部１２１は、図２のステップＳ１０３と同様の処理を行ってベクトル系列Ｈを出力する。

　次に、回答抽出処理部１０２の回答抽出部１２２は、ベクトル系列Ｈを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習中の回答モデルパラメータを用いて、回答＾Ａを出力する（ステップＳ３０５）。なお、回答抽出部１２２は、図２のステップＳ１０４と同様の処理を行って回答＾Ａを出力する。

　次に、パラメータ学習部１０３は、回答Ａの損失を含む損失Ｌを算出する（ステップＳ３０６）。回答Ａの損失としては、本来は確率分布

に対応する損失－ｌｏｇＰｒ（Ａ｜Ｐ，Ｑ）を用いることが望ましいが、教師なし学習では、この損失－ｌｏｇＰｒ（Ａ｜Ｐ，Ｑ）の近似である損失Ｌ_Ａを用いる。これは、損失Ｌ_Ａ＝－ｌｏｇＰｒ（Ａ｜＾Ｒ，Ｑ）は、－ｌｏｇＰｒ（Ａ｜Ｐ，Ｑ）の上限に相当することがJensenの不等式により示されるためである。すなわち、

となるためである。最後の近似はgumbel-softmax trickによる。

　そして、損失Ｌ_Ａと、学習を補助する目的の正則化項Ｌ_Ｃ、Ｌ_Ｎ及びＬ_Ｅとを用いて、損失Ｌを、Ｌ＝Ｌ_Ａ＋λ_ＣＬ_Ｃ＋λ_ＮＬ_Ｎ＋λ_ＥＬ_Ｅとする。ここで、λ_Ｃ、λ_Ｎ及びλ_Ｅはハイパーパラメータである。

　正則化項Ｌ_Ｃは根拠として抽出した情報が、質問が言及する情報を包含しないことへの罰則を表す。正則化項Ｌ_Ｃは、

をそれぞれ質問と根拠の単語埋め込みの系列であるとして、

により算出される。ここで、ｌ_Ｑは質問の長さ、ｌ_Ｒは根拠に含まれる全ての文を連携した文の長さである。この正則化項Ｌ_Ｃは質問中の各単語ｉについて、根拠として抽出された文の中に１単語以上の意味的に近い単語ｊが含まれることを意図している。

　正則化項Ｌ_Ｎは根拠中に回答が含まれないことへの罰則を表す。正則化項Ｌ_Ｎは、

により算出される。ここで、Ｓ_Ａ⊂Ｓは回答を含む文の集合、ａ^ｔは回答を含む文のうち時刻ｔに根拠として最も選ばれやすかった文である。この正則化項Ｌ_Ｎはスコア（文のスコア）の差に活性化関数としてＲｅＬＵ（Rectified Linear Unit）を与えた値

の時刻に関する最小値である。１回でも回答を含む文が他の文より選ばれやすかった場合、

となるため、Ｌ_Ｎ＝０となる。

　また、ＲｅＬＵの代わりに、ランキング問題で使われる損失関数が用いられてもよい。例えば、RankNetの損失関数を用いる場合、正則化項Ｌ_Ｎは、

により算出されてもよい。RankNetについては、例えば、参考文献２「C. Burges, T. Shaked, E. Renshaw, A. Lazier, M. Deeds, N. Hamilton, and G. N. Hullender. Learning to rank using gradient descent. In ICML, pp. 89-96, 2005.」等を参照されたい。

　なお、根拠中に回答が含まれない場合、Cross-Entropy損失によって損失Ｌ_Ａを計算することができない。このため、根拠中に回答が含まれない場合は、損失Ｌ_Ａを計算する前に、

が根拠＾Ｒに追加される。

　正則化項Ｌ_Ｅは強化学習等でよく用いられるエントロピー正則化であり、

により算出される。この正則化項Ｌ_Ｅは１時刻における根拠となる文の抽出に関する負のエントロピーに相当する。エントロピーを大きくすることで文の抽出の探索範囲を広げ、学習を安定させる効果がある。

　次に、パラメータ学習部１０３は、上記のステップＳ３０６で算出した損失Ｌを用いて根拠モデルパラメータ及び回答モデルパラメータを学習する（ステップＳ３０７）。すなわち、パラメータ学習部１０３は、損失Ｌの値及びその勾配を算出し、損失Ｌの値が最小となるように根拠モデルパラメータ及び回答モデルパラメータを更新する。

　次に、パラメータ学習部１０３は、訓練データセット中の全ての訓練データが処理対象として選択されたか否かを判定する（ステップＳ３０８）。未だ処理対象として選択されていない訓練データが存在する場合（ステップＳ３０８でＮＯ）、パラメータ学習部１０３は、ステップＳ３０１に戻る。これにより、訓練データセット中の全ての訓練データに対して上記のステップＳ３０１～ステップＳ３０７が実行される。

　一方で、訓練データセット中の全ての訓練データが処理対象として選択された場合（ステップＳ３０８でＹＥＳ）、パラメータ学習部１０３は、収束条件を満たすか否かを判定する（ステップＳ３０９）。収束条件を満たす場合（ステップＳ３０９でＹＥＳ）は、パラメータ学習部１０３は学習処理を終了する。一方で、収束条件を満たさない場合（ステップＳ３０９でＮＯ）は、パラメータ学習部１０３は、訓練データセット中の全ての訓練データが処理対象として選択されていないものとした上で、ステップＳ３０１に戻る。ここで、収束条件としては、例えば、上記のステップＳ３０１～ステップＳ３０７が処理された回数（反復回数）が所定の回数以上となったこと等が挙げられる。

　以上により、学習（教師なし学習）時における質問応答装置１０は、参照テキストＰと質問Ｑと正解回答Ａとが含まれる訓練データを入力として（つまり、正解根拠Ｒを入力しなくても）、根拠モデルパラメータ及び回答モデルパラメータを学習することができる。なお、教師なし学習では学習の安定のため、事前学習を行うことが好ましい。正解根拠Ｒが存在する場合には、上述した教師あり学習を事前学習とすればよい。一方で、正解根拠Ｒが存在しない場合には、疑似的な正解根拠を用いて半教師あり学習で事前学習を行えばよい。このような疑似的な正解根拠は、例えば、文の根拠らしさを表すラベルを各文に付与した上で、このラベルの値が所定の閾値以上となる文の集合とすればよい。このラベルの値は任意の式で決定すればよいが、例えば、文と質問のTF-IDF類似度等を用いることができる。また、回答を含む文集合Ｓ_Ａに含まれる文のうちの少なくとも１つ文が、疑似的な正解根拠に含まれるようにする。

　＜評価＞
　以下、本実施形態の評価について説明する。

　　（データセット）
　正解根拠（つまり、根拠の教師データ）を持つデータセットであるHotpotQAを用いて評価した。HotpotQAでは、質問ＱはWikipedia中の２段落に跨る内容を問うように作成される。参照テキストＰは当該２段落を繋げたテキストとした。出力は回答Ａと根拠Ｒである。回答Ａは回答ラベル｛ｙｅｓ，ｎｏ，ｓｐａｎ｝のいずれかと回答区間（回答範囲）である。回答区間は、回答ラベルが'ｓｐａｎ'のときのみ存在する。よって、回答モデルでは回答区間の分類に加えて回答ラベルの分類も行なった。質問Ｑが２段落に跨る内容を問う質問に限定されているため、根拠Ｒは２文以上となる。以降では、便宜上、根拠Ｒに含まれる文のうち、回答Ａを含む文を回答文、回答を含まないが回答するために必要な文を補助文と呼ぶ。なお、HotpotQAについては、例えば、参考文献３「Z. Yang, P. Qi, S. Zhang, Y. Bengio, W. W. Cohen, R. Salakhutdinov, and C. D. Manning. HotpotQA: A dataset for diverse, explainable multi-hop question answering. In EMNLP, pp. 2369-2380, 2018.」等を参照されたい。

　　（実験設定）
　本評価では、BERT_Baseを用いた３つの手法を比較した。ベースラインモデルは根拠モデルなしのモデルであり、回答モデルに直接参照テキストＰと質問Ｑとを入力する。本実施形態の手法としては、教師あり学習と、教師あり学習の後に教師なし学習を行った追加学習とを評価した。教師あり学習ではバッチサイズを６０、エポック数を３、最適化手法をAdam、学習率を５ｅ－５とし、教師なし学習ではエポック数を１、学習率を５ｅ－６、τを０．００１、λ_Ｃを０、λ_Ｎを１、λ_Ｅを０．００１として、ＧＰＵ（Graphics Processing Unit）を用いて学習を行った。

　　（評価と議論）
　以上のデータセットと実験設定で実験を行った場合における回答と根拠の評価結果を以下の表１に示す。

　上記の表１はＥＭ（Exact match）／Ｆ１の評価結果を表している。

　また、解釈可能な機械読解モデルと追加学習（教師あり学習＋教師なし学習）の有効性検証のため、以下の（ａ）～（ｃ）のリサーチクエスチョンについて議論する。

　（ａ）本実施形態の手法は回答精度の向上に貢献するか
　回答精度に関して、本実施形態の手法（教師あり学習、追加学習）はベースラインの性能を上回った。特にベースラインの性能を上回ったことで、回答モデルの前に根拠モデルを用いる解釈可能な機械読解モデルが、回答モデル単体に比べて精度よく回答できることを確認した。これは、根拠モデルが不要なテキストを取り除く効果があり、回答モデルでの推論が容易になるためであると考えられる。

　また、追加学習によって回答精度がさらに向上することを確認した。これは、追加学習によって回答モデルが正答しやすい根拠を根拠モデルが学習したためであると考えられる。

　（ｂ）追加学習で根拠モデルの挙動がどう変化したか
　教師あり学習と追加学習での根拠の出力の変化を以下の表２に示す。

　上記の表２に示されるように、教師あり学習ではPrecisionを重視して文を抽出しているが、追加学習ではRecall重視に傾向が変化している。また、抽出する文数の増加は平均で１．２５文である。

　Recall重視に変わった理由を調査するため、根拠文の種類（回答文、補助文）別でRecallを評価した。その評価結果を以下の表３に示す。

　教師あり学習では、回答文が補助文よりも抽出されやすかった。これは、質問文（質問Ｑ）が回答文の表現を流用することが多いためであると考えられる。

　追加学習でRecallが増大した理由は、回答の損失Ｌ_Ａと根拠に回答がないことの罰則を表す正則化項Ｌ_Ｎとに求めることができる。上記の表３において、追加学習では回答文より補助文の方が選ばれやすくなっている。正則化項Ｌ_Ｎには回答文を選びやすくする効果しかないため、損失Ｌ_Ａが根拠の抽出の変化に寄与していることがわかる。本結果は、回答モデルが回答するにあたって根拠が過剰であることよりも不足することの方が悪影響であることを、根拠モデルが回答の損失Ｌ_Ａから学習していることを示唆している。

　（ｃ）追加学習で回答モデルの挙動がどう変化したか
　回答モデル単体としての性能を評価するため、根拠の予測結果で開発データを４つのドメイン「全て」、「完全一致」、「過剰」、「不足」に分類して評価を行った。「全て」は全ての開発データのドメイン、「完全一致」は教師あり学習と追加学習とで根拠の抽出結果＾Ｒが真の根拠Ｒに対して完全一致（Ｒ＝＾Ｒ）したデータのドメイン、「過剰」は教師あり学習と追加学習とで根拠の抽出結果＾Ｒが真の根拠Ｒに対して過剰（Ｒは＾Ｒの真部分集合）となったデータのドメイン、「不足」は教師あり学習と追加学習とで根拠の抽出結果＾Ｒが真の根拠Ｒに対して不足（＾ＲはＲの真部分集合）なったデータのドメインである。回答ラベルが'ｓｐａｎ'かつ回答文を抽出していないサンプルでは回答が不可能であるため、分析に用いなかった。このときの評価結果を以下の表４に示す。

　上記の表４はＥＭ／Ｆ１の評価結果を表している。

　追加学習では、全てのドメインで性能が向上している。これは、根拠モデルがRecall重視になったこととは別に、回答モデル単体で見た場合も追加学習によって性能が向上したことを示している。追加学習では回答モデルの入力が予測した根拠になるため、推論時に近い状況でロバストに学習ができるため、精度よく回答ができると考えられる。

　　（本実施形態の手法の貢献）
　本実施形態では、解釈可能な機械読解モデルを定義し、教師なし学習での学習手法を初めて提案した。

　また、本実施形態では、解釈可能な機械読解モデルと追加学習での学習の性能を評価した。回答モデルのみを使う通常の機械読解モデルに比べて、解釈可能な機械読解モデルは前段で根拠の抽出を行うことで精度が向上することを確認した。更に、追加学習では、回答モデル及び根拠モデルそれぞれで回答精度が改善する学習が進んでいることが確認できた。

　機械読解モデルを解釈可能にすることで、例えば、ユーザに納得感を与えることができる、ソースを明示化でき事実検証が可能になる、のように従来の機械読解が抱える社会的問題を解決することができる。また、本実施形態で説明した追加学習をスクラッチからの教師なし学習に拡張することで、根拠の教師データを持たないデータセットでも根拠を抽出することが可能となる。

　なお、本実施形態では、根拠モデルで根拠を抽出した後、回答モデルで回答を抽出したが、より一般には、第１のモデルで第１の部分文字列を抽出（又は検索）した後、第２のモデルで第１の部分文字列から所定の条件に基づいて第２の部分文字列を抽出する処理で実現される任意のタスクに適用可能である。例えば、第１のモデルで文章から段落を検索し、第２のモデルで段落に対して読解（回答抽出等）を行う、等のタスクにも適用可能である。

　＜ハードウェア構成＞
　最後に、本実施形態に係る質問応答装置１０のハードウェア構成について、図７を参照しながら説明する。図７は、本実施形態に係る質問応答装置１０のハードウェア構成の一例を示す図である。

　図７に示すように、本実施形態に係る質問応答装置１０は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置３０１と、表示装置３０２と、外部Ｉ／Ｆ３０３と、通信Ｉ／Ｆ３０４と、プロセッサ３０５と、メモリ装置３０６とを有する。これらの各ハードウェアは、それぞれがバス３０７を介して通信可能に接続されている。

　入力装置３０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置３０２は、例えば、ディスプレイ等である。なお、質問応答装置１０は、入力装置３０１及び表示装置３０２のうちの少なくとも一方を有していなくてもよい。

　外部Ｉ／Ｆ３０３は、外部装置とのインタフェースである。外部装置には、記録媒体３０３ａ等がある。質問応答装置１０は、外部Ｉ／Ｆ３０３を介して、記録媒体３０３ａの読み取りや書き込み等を行うことができる。記録媒体３０３ａには、質問応答装置１０が有する各機能部（根拠抽出処理部１０１、回答抽出処理部１０２及びパラメータ学習部１０３）を実現する１以上のプログラムが格納されていてもよい。

　なお、記録媒体３０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

　通信Ｉ／Ｆ３０４は、質問応答装置１０が通信ネットワークに接続するためのインタフェースである。なお、質問応答装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ３０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

　プロセッサ３０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ等の各種演算装置である。質問応答装置１０が有する各機能部は、例えば、メモリ装置３０６に格納されている１以上のプログラムがプロセッサ３０５に実行させる処理により実現される。

　メモリ装置３０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。質問応答装置１０が有する根拠モデルパラメータ記憶部２０１及び回答モデルパラメータ記憶部２０２は、例えば、メモリ装置３０６を用いて実現可能である。なお、根拠モデルパラメータ記憶部２０１及び回答モデルパラメータ記憶部２０２のうちの少なくとも一方の記憶部が、質問応答装置１０と通信ネットワークを介して接続される記憶装置（例えば、データベースサーバ等）を用いて実現されていてもよい。

　本実施形態に係る質問応答装置１０は、図７に示すハードウェア構成を有することにより、上述した推論処理や教師あり学習処理、教師なし学習処理を実現することができる。なお、図７に示すハードウェア構成は一例であって、質問応答装置１０は、他のハードウェア構成を有していてもよい。例えば、質問応答装置１０は、複数のプロセッサ３０５を有していてもよいし、複数のメモリ装置３０６を有していてもよい。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

　１０　　　　質問応答装置
　１０１　　　根拠抽出処理部
　１０２　　　回答抽出処理部
　１０３　　　パラメータ学習部
　１１１　　　言語理解部
　１１２　　　根拠抽出部
　１２１　　　言語理解部
　１２２　　　回答抽出部
　２０１　　　根拠モデルパラメータ記憶部
　２０２　　　回答モデルパラメータ記憶部

Claims

　テキストと、前記テキストに関連する質問とを入力として、第１のニューラルネットワークのモデルパラメータを用いて、前記テキストに含まれる文字列が前記質問に対する回答の根拠となる尤もらしさを表す根拠スコアを算出し、前記根拠スコアをパラメータとして持つ所定の分布からのサンプリングによって、前記回答の根拠となる文字列の集合を示す第１の集合を前記テキストから抽出する根拠抽出手段と、
　前記質問と、前記第１の集合とを入力として、第２のニューラルネットワークのモデルパラメータを用いて、前記回答を前記第１の集合から抽出する回答抽出手段と、
　前記回答と前記質問に対する真の回答との間の第１の損失と連続緩和とを用いて誤差逆伝搬により勾配を計算することで、前記第１のニューラルネットワークのモデルパラメータと前記第２のニューラルネットワークのモデルパラメータとを学習する第１の学習手段と、
　を有することを特徴とする学習装置。
　前記第１の学習手段は、
　前記根拠抽出手段により抽出された文字列が表す情報が、前記質問が言及する情報を包含しないことへの罰則に関する項と、前記根拠抽出手段により抽出された文字列中に前記回答が含まれないことへの罰則に関する項とが含まれる損失関数により前記第１の損失を計算する、ことを特徴とする請求項１に記載の学習装置。
　前記根拠抽出手段は、
　前記テキストと、前記テキストに関連する質問と、前記質問に対する回答の正解根拠である文字列の集合を示す第２の集合とを入力として、前記第１のニューラルネットワークのモデルパラメータを用いて、前記第１の集合に含まれる文字列を、前記第２の集合から抽出し、
　前記学習装置は、前記第１の集合と前記第２の集合との間の第２の損失を用いて、前記第１のニューラルネットワークのモデルパラメータを学習すると共に、前記回答と前記真の回答との間の第３の損失を用いて、前記第２のニューラルネットワークのモデルパラメータを学習する第２の学習手段を更に有し、
　前記第１の学習手段による学習は前記第２の学習手段による学習の後に行われる、ことを特徴とする請求項１又は２に記載の学習装置。
　テキストと、前記テキストに関連する質問とを入力として、第１のニューラルネットワークのモデルパラメータを用いて、前記質問に対する回答の根拠となる文字列の集合を前記テキストから抽出する根拠抽出手段と、
　前記質問と、前記集合とを入力として、第２のニューラルネットワークのモデルパラメータを用いて、前記回答を前記集合から抽出する回答抽出手段と、
　を有することを特徴とする情報処理装置。
　テキストと、前記テキストに関連する質問とを入力として、第１のニューラルネットワークのモデルパラメータを用いて、前記テキストに含まれる文字列が前記質問に対する回答の根拠となる尤もらしさを表す根拠スコアを算出し、前記根拠スコアをパラメータとして持つ所定の分布からのサンプリングによって、前記回答の根拠となる文字列の集合を示す第１の集合を前記テキストから抽出する根拠抽出手順と、
　前記質問と、前記第１の集合とを入力として、第２のニューラルネットワークのモデルパラメータを用いて、前記回答を前記第１の集合から抽出する回答抽出手段と、
　前記回答と前記質問に対する真の回答との間の第１の損失と連続緩和とを用いて誤差逆伝搬により勾配を計算することで、前記第１のニューラルネットワークのモデルパラメータと前記第２のニューラルネットワークのモデルパラメータとを学習する第１の学習手順と、
　をコンピュータが実行することを特徴とする学習方法。
　テキストと、前記テキストに関連する質問とを入力として、第１のニューラルネットワークのモデルパラメータを用いて、前記質問に対する回答の根拠となる文字列の集合を前記テキストから抽出する根拠抽出手順と、
　前記質問と、前記集合とを入力として、第２のニューラルネットワークのモデルパラメータを用いて、前記回答を前記集合から抽出する回答抽出手順と、
　をコンピュータが実行することを特徴とする情報処理方法。
　コンピュータを、請求項１乃至３の何れか一項に記載の学習装置における各手段、又は、請求項４に記載の情報処理装置における各手段、として機能させるためのプログラム。