WO2022079826A1

WO2022079826A1 - 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム

Info

Publication number: WO2022079826A1
Application number: PCT/JP2020/038758
Authority: WO
Inventors: 光甫西田; 京介西田; いつみ斉藤; 仙吉田; 準二富田; 久子浅野
Original assignee: 日本電信電話株式会社
Priority date: 2020-10-14
Filing date: 2020-10-14
Publication date: 2022-04-21

Abstract

一実施形態に係る学習装置は、テキストと質問とを入力として、第１のニューラルネットワークのモデルパラメータを用いて、前記質問に対する回答の根拠となる文字列の集合を前記テキストから抽出する根拠抽出部と、前記質問と前記集合とを入力として、第２のニューラルネットワークのモデルパラメータを用いて、前記回答の種別を表すラベルを予測するラベル予測部と、前記ラベル予測部で予測されたラベルが回答不能を表すラベルでない場合、前記第２のニューラルネットワークのモデルパラメータを用いて、前記集合から前記回答を抽出する回答抽出部と、前記ラベル予測部で予測されたラベルと、前記ラベルに対する正解ラベルとの間の第１の損失を少なくとも用いて、前記第１のニューラルネットワークのモデルパラメータと前記第２のニューラルネットワークのモデルパラメータとを学習する学習部と、を有する。

Description

学習装置、情報処理装置、学習方法、情報処理方法及びプログラム

　本発明は、学習装置、情報処理装置、学習方法、情報処理方法及びプログラムに関する。

　近年、与えられたテキストを参照し読み解きながら質問に回答する機械読解が注目を集めており、様々な機械読解モデルが提案されている。しかしながら、機械読解モデルはブラックボックスであり、その回答の根拠がわからないという課題がある。この課題に対して、回答の根拠を提示する機械読解モデルが提案されている（非特許文献１）。

K. Nishida, K. Nishida, M. Nagata, A. Otsuka, I. Saito, H. Asano, and J. Tomita. Answering while summarizing: Multi-task learning for multi-hop QA with evidence extraction. In ACL, pp. 2335-2345, 2019.

　しかしながら、上記の非特許文献１に記載されている機械読解モデルが提示する根拠は、訓練データ中のアノテーションを再現しているだけであり、厳密な意味での根拠になっていなかった。

　本発明の一実施形態は、上記の点に鑑みてなされたもので、回答の根拠を提示可能な機械読解を実現することを目的とする。

　上記目的を達成するため、一実施形態に係る学習装置は、テキストと質問とを入力として、第１のニューラルネットワークのモデルパラメータを用いて、前記質問に対する回答の根拠となる文字列の集合を前記テキストから抽出する根拠抽出部と、前記質問と前記集合とを入力として、第２のニューラルネットワークのモデルパラメータを用いて、前記回答の種別を表すラベルを予測するラベル予測部と、前記ラベル予測部で予測されたラベルが回答不能を表すラベルでない場合、前記第２のニューラルネットワークのモデルパラメータを用いて、前記集合から前記回答を抽出する回答抽出部と、前記ラベル予測部で予測されたラベルと、前記ラベルに対する正解ラベルとの間の第１の損失を少なくとも用いて、前記第１のニューラルネットワークのモデルパラメータと前記第２のニューラルネットワークのモデルパラメータとを学習する学習部と、を有する。

　回答の根拠を提示可能な機械読解を実現することができる。

第一の実施形態の推論時における質問応答装置の全体構成の一例を示す図である。第一の実施形態に係る推論処理の一例を示すフローチャートである。第一の実施形態の学習（教師あり学習）時における質問応答装置の全体構成の一例を示す図である。第一の実施形態に係る教師あり学習処理の一例を示すフローチャートである。第一の実施形態の学習（教師なし学習）時における質問応答装置の全体構成の一例を示す図である。第一の実施形態に係る教師なし学習処理の一例を示すフローチャートである。第一の実施形態に係る質問応答装置のハードウェア構成の一例を示す図である。第二の実施形態の推論時における質問応答装置の全体構成の一例を示す図である。第二の実施形態に係る推論処理の一例を示すフローチャートである。第二の実施形態の学習時における質問応答装置の全体構成の一例を示す図である。第二の実施形態に係る学習処理の一例を示すフローチャートである。

　以下、本発明の一実施形態について説明する。

　［第一の実施形態］
　まず、第一の実施形態について説明する。本実施形態では、回答の抽出対象となる参照テキストとこの参照テキストに関連する質問とが与えられたときに、回答を提示すると共に、当該回答の根拠を提示可能な機械読解を実現する質問応答装置１０について説明する。

　機械読解は、ニューラルネットワーク等で構成される機械読解モデルにより実現される。本実施形態では、回答の根拠を提示可能な機械読解モデルを解釈可能であるといい、以下で定義する。

　定義（解釈可能な機械読解モデル）：機械読解モデルが解釈可能であるとは、機械読解モデルが以下の入出力を持つ２つのモデルで構成されていることをいう。

　・根拠モデル：参照テキストと質問とを入力として、根拠を出力するモデル
　・回答モデル：根拠と質問とを入力として、回答を出力するモデル
　ここで、根拠は参照テキストの部分文字列の集合である。本実施形態では、根拠は文の集合であるものとする。ただし、これに限られず、根拠は、文よりも長い文字列（例えば、段落等）の集合であってもよいし、文よりも短い文字列（例えば、フレーズ等）の集合であってもよい。

　解釈可能な機械読解モデルは、参照テキストに含まれる文字列のうち、根拠に含まれる文字列のみを回答モデルに入力する。すなわち、根拠以外の情報（例えば、根拠モデルの隠れ状態等）は回答モデルでは利用しない。このため、（１）厳密な意味で回答の根拠を提示可能であり、（２）回答モデルは根拠と質問の情報のみを持つため、回答を予測した理由を十分短い根拠（つまり、参照テキストよりも十分短い文字列である根拠）に限定することができ、（３）回答モデルの入力が短くなるため、回答モデルで計算コストの高い処理を許容することが可能となる、という利点がある。また、後述する教師なし学習により学習を行うことで、（４）人手のアノテーションではなく、機械読解モデルが高精度に回答するために必要な根拠を学習させることが可能となる、という利点もある。

　ここで、本実施形態は、機械読解モデルのパラメータ（つまり、根拠モデルのパラメータと回答モデルのパラメータ）を学習する学習時と、学習済みのパラメータを用いた機械読解モデルにより機械読解を行う推論時とがある。また、本実施形態では、機械読解モデルのパラメータの学習方法として、根拠の正解データ及び回答の正解データの両方を利用する教師あり学習と、根拠の正解データは利用しない教師なし学習との２つの学習方法について説明する。そこで、以降では、質問応答装置１０の「推論時」、「学習（教師あり学習）時」、「学習（教師なし学習）時」について説明する。

　≪推論時≫
　まず、機械読解モデルのパラメータが学習済みであるものとして、学習済みのパラメータを用いて機械読解モデルにより機械読解を行う場合について説明する。推論時における質問応答装置１０には、参照テキストＰと、この参照テキストＰに関連する質問Ｑとが入力される。

　＜推論時における質問応答装置１０の全体構成＞
　推論時における質問応答装置１０の全体構成について、図１を参照しながら説明する。図１は、第一の実施形態の推論時における質問応答装置１０の全体構成の一例を示す図である。

　図１に示すように、推論時における質問応答装置１０は、機械読解モデルを実現する根拠抽出処理部１０１及び回答抽出処理部１０２と、根拠モデルのパラメータ（以下、「根拠モデルパラメータ」という。）を記憶する根拠モデルパラメータ記憶部２０１と、回答モデルのパラメータ（以下、「回答モデルパラメータ」という。）を記憶する回答モデルパラメータ記憶部２０２とを有する。

　根拠抽出処理部１０１は根拠モデルにより実現され、参照テキストＰと質問Ｑとを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習済み根拠モデルパラメータを用いて、根拠

を出力する。なお、本明細書のテキスト中では、推定値を表すハット「＾」は任意の記号Ｘの前に付与し、「＾Ｘ」と表記するものとする。ここで、根拠抽出処理部１０１には、言語理解部１１１と、根拠抽出部１１２とが含まれる。

　言語理解部１１１は、参照テキストＰと質問Ｑとを入力として、質問ベクトルｑと参照テキストＰ中の全ての文ベクトルの集合｛ｓ_ｉ｝とを出力する。根拠抽出部１１２は、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを入力として、根拠＾Ｒを出力する。

　回答抽出処理部１０２は回答モデルにより実現され、根拠＾Ｒと質問Ｑとを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習済み回答モデルパラメータを用いて、回答＾Ａを出力する。ここで、回答抽出処理部１０２には、言語理解部１２１と、回答抽出部１２２とが含まれる。

　言語理解部１２１は、根拠＾Ｒと質問Ｑとを入力として、ベクトル系列Ｈを出力する。回答抽出部１２２は、ベクトル系列Ｈを入力として、回答＾Ａ（より正確には、根拠＾Ｒ中で回答範囲の始点及び終点となるスコア）を出力する。

　なお、図１に示す例では、根拠モデルパラメータ記憶部２０１と回答モデルパラメータ記憶部２０２を異なる記憶部としているが、同一の記憶部であってもよい。また、根拠モデルパラメータ及び回答モデルパラメータのうち、言語理解部１１１が用いるパラメータと言語理解部１２１が用いるパラメータとは同一であってもよい（つまり、言語理解部１１１と言語理解部１２１でパラメータを共有していてもよい。）。

　＜推論処理＞
　次に、本実施形態に係る推論処理について、図２を参照しながら説明する。図２は、第一の実施形態に係る推論処理の一例を示すフローチャートである。

　まず、根拠抽出処理部１０１の言語理解部１１１は、参照テキストＰと質問Ｑとを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習済み根拠モデルパラメータを用いて、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを出力する（ステップＳ１０１）。

　具体的には、言語理解部１１１は、参照テキストＰと質問Ｑとをトークン系列［'［ＣＬＳ_Ｑ］'；質問；'［ＳＥＰ_Ｑ］'；'［ＣＬＳ_Ｐ］'；文１；'［ＳＥＰ_Ｐ］'；・・・；'［ＣＬＳ_Ｐ］'；文ｎ；'［ＳＥＰ_Ｐ］'］としてBERT（Bidirectional Encoder Representations from Transformers）に入力する。ここで、'［ＣＬＳ_Ｑ］'，［ＳＥＰ_Ｑ］'，'［ＣＬＳ_Ｐ］'，'［ＳＥＰ_Ｐ］'は特殊トークン、ｎは参照テキストＰ中の文数である。なお、BERT以外の他の事前学習済み言語モデルが用いられてもよい。

　そして、言語理解部１１１は、BERTの出力のうち、'［ＣＬＳ_Ｑ］'に相当する位置のベクトルを質問ベクトルｑ∈Ｒ^ｄ、ｉ番目の'［ＣＬＳ_Ｐ］'に相当する位置のベクトルをｉ文目の文ベクトルｓ_ｉ∈Ｒ^ｄとする。ｄはBERTの出力の次元である。なお、Ｒ^ｄはｄ次元の実空間である。

　これにより、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とが得られる。なお、BERTについては、例えば、参考文献１「Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova, "BERT: Pre-training of Deep Bidirectional Transformers for Language」を参照されたい。

　なお、例えば、参照テキストＰが長文でBERTに入力できない場合、適当な長さで参照テキストＰを分割した複数の分割参照テキストを作成した上で、これら複数の分割参照テキストのそれぞれ（と質問Ｑ）をBERTに入力すればよい。この場合、文ベクトル集合｛ｓ_ｉ｝は各分割参照テキストから得られた文ベクトルの集合とすればよく、質問ベクトルｑは各分割参照テキストから得られた質問ベクトルの平均とすればよい。

　次に、根拠抽出処理部１０１の根拠抽出部１１２は、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習済み根拠モデルパラメータを用いて、根拠＾Ｒを出力する（ステップＳ１０２）。根拠抽出部１１２は、文抽出の終了を判定するためのダミー文であるＥＯＥ文ｓ_ＥＯＥを文ベクトル集合｛ｓ_ｉ｝に追加した上で、上記の非特許文献１と同様に、ＧＲＵ（Gated recurrent unit）を用いて再帰的に文を抽出することで根拠＾Ｒ＝｛＾ｒ^ｔ｝を得る。

　すなわち、根拠抽出部１１２は、時刻ｔ毎に、文＾ｒ^ｔを抽出してその文＾ｒ^ｔの文ベクトルを用いて質問ベクトルｑ^ｔを更新する処理を、終了条件を満たすまで繰り返し実行することで根拠＾Ｒ＝｛＾ｒ^ｔ｝を得る。具体的には、根拠抽出部１１２は、時刻ｔ（ｔ＝０，１，・・・）毎に以下のＳｔｅｐ１～Ｓｔｅｐ４を繰り返し実行する。なお、ｑ^０＝ｑとする
　Ｓｔｅｐ１：根拠抽出部１１２は、質問ベクトルｑ^ｔを用いて、以下により文ｉのスコアを得る。

　ここで、Ｗ_ｐ∈Ｒ^ｄ×ｄは学習済み根拠モデルパラメータに含まれる学習済みパラメータである（つまり、Ｗ_ｐは、後述する学習処理で学習対象となるパラメータである。）。なお、Ｒ^ｄ×ｄはｄ×ｄ次元の実空間である。

　Ｓｔｅｐ２：次に、根拠抽出部１１２は、以下により文＾ｒ^ｔを抽出する。

　ここで、Ｓは文全体の集合、＾Ｒ^ｔ－１は時刻ｔ－１までに抽出された文の集合である。すなわち、根拠抽出部１１２は、これまでに抽出されていない文の中で最もスコアが高い文を抽出する。

　Ｓｔｅｐ３：次に、根拠抽出部１１２は、上記のＳｔｅｐ２で抽出した文がＥＯＥ文ｓ_ＥＯＥであるか否かを判定する。そして、上記のＳｔｅｐ２で抽出した文がＥＯＥ文ｓ_ＥＯＥでなければＳｔｅｐ４を実行し、ＥＯＥ文ｓ_ＥＯＥであれば処理を終了する。ここで、文ベクトルｓ_ＥＯＥは学習済み根拠モデルパラメータに含まれる学習済みパラメータである（つまり、文ベクトルｓ_ＥＯＥは、後述する学習処理で学習対象となるパラメータである。）。

　Ｓｔｅｐ４：根拠抽出部１１２は、上記のＳｔｅｐ２で抽出した文の文ベクトルを用いて、以下により質問ベクトルｑ^ｔを更新する。

　なお、質問ベクトルｑ^ｔは質問に答えるために不足している情報を表現している。初期状態ｑ^０は質問に答えるために必要な情報の全てであり、上記のＳｔｅｐ４により、抽出した文＾ｒ^ｔにある情報がＧＲＵによってｑ^ｔから除かれることが期待される。

　終了条件を満たすまで（つまり、上記のＳｔｅｐ２でＥＯＥ文ｓ_ＥＯＥが抽出されるまで）、時刻ｔ毎に上記のＳｔｅｐ１～Ｓｔｅｐ４が繰り返し実行され、根拠＾Ｒ＝｛＾ｒ^ｔ｝が得られる。

　次に、回答抽出処理部１０２の言語理解部１２１は、根拠＾Ｒと質問Ｑとを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習済み回答モデルパラメータを用いて、ベクトル系列Ｈを出力する（ステップＳ１０３）。

　具体的には、言語理解部１２１は、根拠＾Ｒと質問Ｑとをトークン系列［'［ＣＬＳ］'；質問；'［ＳＥＰ］'；文ｒ^１；・・・；文ｒ^Ｔ；'［ＳＥＰ］'］としてBERTに入力する。ここで、'［ＣＬＳ］'，'［ＳＥＰ］'は特殊トークン、Ｔは根拠＾Ｒに含まれる文数である。なお、BERT以外の他の事前学習済み言語モデルが用いられてもよい。

　そして、言語理解部１２１は、各トークンのベクトルの系列Ｈ＝［ｈ_１，・・・，ｈ_ｋ］∈Ｒ^ｋ×ｄを出力する。ここで、ｋは系列長である。なお、Ｒ^ｋ×ｄはｋ×ｄ次元の実空間である。

　次に、回答抽出処理部１０２の回答抽出部１２２は、ベクトル系列Ｈを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習済み回答モデルパラメータを用いて、回答＾Ａを出力する（ステップＳ１０４）。

　具体的には、回答抽出部１２２は、ベクトル系列Ｈを以下の線形変換により回答のスコアに変換する。

　ここで、ａ_ｓ，ｉは第ｉトークンが回答の始点となるスコア、ａ_ｅ，ｉは第ｉトークンが回答の終点となるスコアを表す。また、Ｗ_ａ∈Ｒ^２×ｄ及びｂ_ａ∈Ｒ^２は学習済み回答モデルパラメータに含まれる学習済みパラメータである（つまり、Ｗ_ａ及びｂ_ａは、後述する学習処理で学習対象となるパラメータである。）。なお、Ｒ^２×ｄは２×ｄ次元の実空間、Ｒ^２は２次元の実空間である。

　これにより、第ｉトークンが回答の始点となるスコアと終点となるスコアとが得られる。したがって、例えば、ａ_ｓ，ｉが最も高いトークンを回答範囲の始点、ａ_ｅ，ｉが最も高いトークンを回答範囲の終点とすることで、この回答範囲（又は、この回答範囲内の文）が回答＾Ａとして得られる。

　以上により、推論時における質問応答装置１０は、参照テキストＰと質問Ｑとを入力として、回答＾Ａを得ることができる。しかも、このとき、質問応答装置１０は、この回答＾Ａの根拠＾Ｒ（つまり、回答＾Ａの根拠となった文集合）を得ることもできる。なお、この回答＾Ａ及びその根拠＾Ｒは質問応答装置１０の内外の任意の出力先（例えば、ディスプレイや記憶装置、通信ネットワークを介して接続される他の装置等）に出力されてもよい。

　≪学習（教師あり学習）時≫
　次に、機械読解モデルのパラメータは学習済みでないものとして、このパラメータを教師あり学習により学習する場合について説明する。学習（教師あり学習）時における質問応答装置１０には、参照テキストＰと、この参照テキストＰに関連する質問Ｑと、この質問Ｑに対する真の回答の回答範囲を示す正解回答Ａと、この正解回答Ａの真の根拠を示す正解根拠Ｒとが含まれる訓練データの集合（訓練データセット）が入力される。

　＜学習（教師あり学習）時における質問応答装置１０の全体構成＞
　学習（教師あり学習）時における質問応答装置１０の全体構成について、図３を参照しながら説明する。図３は、第一の実施形態の学習（教師あり学習）時における質問応答装置１０の全体構成の一例を示す図である。なお、図３では、主に、推論時との相違点について説明し、推論時と同様の構成要素についてはその説明を省略する。

　図３に示すように、学習（教師あり学習）時における質問応答装置１０は、機械読解モデルを実現する根拠抽出処理部１０１及び回答抽出処理部１０２と、根拠モデルパラメータ及び回答モデルパラメータを学習するパラメータ学習部１０３と、根拠モデルパラメータを記憶する根拠モデルパラメータ記憶部２０１と、回答モデルパラメータを記憶する回答モデルパラメータ記憶部２０２とを有する。なお、根拠モデルパラメータ記憶部２０１には学習済みでない（つまり、学習中の）根拠モデルパラメータが記憶されており、回答モデルパラメータ記憶部２０２にも学習中の回答モデルパラメータが記憶されている。

　パラメータ学習部１０３は、根拠＾Ｒと正解根拠Ｒとの誤差（損失）を用いて根拠モデルパラメータを学習すると共に、回答＾Ａと正解回答Ａとの誤差（損失）を用いて回答モデルパラメータを学習する。

　＜教師あり学習処理＞
　次に、本実施形態に係る教師あり学習処理について、図４を参照しながら説明する。図４は、第一の実施形態に係る教師あり学習処理の一例を示すフローチャートである。以降では、オンライン学習により根拠モデルパラメータ及び回答モデルパラメータを学習する場合について説明するが、これは一例であって、バッチ学習やミニバッチ学習等も適用可能である。

　パラメータ学習部１０３は、訓練データセットから１件の訓練データ（つまり、参照テキストＰと質問Ｑと正解回答Ａと正解根拠Ｒとの組）を処理対象として選択する（ステップＳ２０１）。

　次に、根拠抽出処理部１０１の言語理解部１１１は、上記のステップＳ２０１で処理対象として選択された訓練データに含まれる参照テキストＰと質問Ｑとを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習中の根拠モデルパラメータを用いて、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを出力する（ステップＳ２０２）。なお、言語理解部１１１は、図２のステップＳ１０１と同様の処理を行って質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを出力する。

　次に、根拠抽出処理部１０１の根拠抽出部１１２は、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習中の根拠モデルパラメータを用いて、根拠＾Ｒを出力する（ステップＳ２０３）。根拠抽出部１１２は、ＥＯＥ文ｓ_ＥＯＥを文ベクトル集合｛ｓ_ｉ｝に追加した上で、図２のステップＳ１０２と同様に、時刻ｔ（ｔ＝０，１，・・・）毎に上記のＳｔｅｐ１～Ｓｔｅｐ４を繰り返し実行する。ただし、上記のＳｔｅｐ２で文＾ｒ^ｔを抽出する際、根拠抽出部１１２は、Teacher-Forcingを用いて文＾ｒ^ｔを抽出する。すなわち、根拠抽出部１１２は、以下により文＾ｒ^ｔを抽出する。

　このように、教師あり学習時では正解根拠Ｒの中から文＾ｒ^ｔを抽出する。また、ＥＯＥ文ｓ_ＥＯＥは正解根拠Ｒ中の全ての文が抽出された後に選択（抽出）する。

　なお、正解根拠Ｒに含まれる文同士には順序が存在しないため、上記のargmax操作によって未だ選ばれていない根拠Ｒの中で最もスコアが高い文を時刻ｔの正解データとみなしている。そのため、教師あり学習によって、根拠モデルは質問Ｑにとって重要な情報を含む順に文を抽出（選択）することが期待される。

　次に、パラメータ学習部１０３は、根拠モデルの損失Ｌ_Ｒとして、各時刻ｔで根拠となる文の抽出に関する負の対数尤度の平均を算出する（ステップＳ２０４）。すなわち、パラメータ学習部１０３は、以下により損失Ｌ_Ｒを算出する。

　ここで、Ｐｒ（ｉ；＾Ｒ^ｔ－１）は時刻ｔに文ｉが出力される確率、つまり、

である。

　次に、回答抽出処理部１０２の言語理解部１２１は、根拠＾Ｒと質問Ｑとを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習中の回答モデルパラメータを用いて、ベクトル系列Ｈを出力する（ステップＳ２０５）。なお、言語理解部１２１は、図２のステップＳ１０３と同様の処理を行ってベクトル系列Ｈを出力する。

　次に、回答抽出処理部１０２の回答抽出部１２２は、ベクトル系列Ｈを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習中の回答モデルパラメータを用いて、回答＾Ａを出力する（ステップＳ２０６）。なお、回答抽出部１２２は、図２のステップＳ１０４と同様の処理を行って回答＾Ａを出力する。

　次に、パラメータ学習部１０３は、回答モデルの損失Ｌ_Ａとして、回答＾Ａと正解回答ＡのCross-Entropy損失の和を算出する（ステップＳ２０７）。すなわち、パラメータ学習部１０３は、以下により損失Ｌ_Ａを算出する。

　ここで、ａ_ｓは各ａ_ｓ，ｉを要素とするベクトル、ａ_ｅは各ａ_ｅ，ｉを要素とするベクトルである。また、ｉ_ｓは正解回答Ａが示す回答範囲の始点、ｊ_ｅは当該回答範囲の終点である。

　次に、パラメータ学習部１０３は、上記のステップＳ２０４で算出した損失Ｌ_Ｒを用いて根拠モデルパラメータを学習すると共に、上記のステップＳ２０７で算出した損失Ｌ_Ａを用いて回答モデルパラメータを学習する（ステップＳ２０８）。すなわち、パラメータ学習部１０３は、損失Ｌ_Ｒの値及びその勾配を算出し、損失Ｌ_Ｒの値が最小となるように根拠モデルパラメータを更新する。同様に、パラメータ学習部１０３は、損失Ｌ_Ａの値及びその勾配を算出し、損失Ｌ_Ａの値が最小となるように回答モデルパラメータを更新する。

　なお、上記では損失Ｌ_Ｒと損失Ｌ_Ａとをそれぞれ最小化させたが、損失Ｌ_Ｒ＋Ｌ_Ａを最小化させることで、根拠モデルパラメータと回答モデルパラメータとを更新してもよい。

　次に、パラメータ学習部１０３は、訓練データセット中の全ての訓練データが処理対象として選択されたか否かを判定する（ステップＳ２０９）。未だ処理対象として選択されていない訓練データが存在する場合（ステップＳ２０９でＮＯ）、パラメータ学習部１０３は、ステップＳ２０１に戻る。これにより、訓練データセット中の全ての訓練データに対して上記のステップＳ２０１～ステップＳ２０８が実行される。

　一方で、訓練データセット中の全ての訓練データが処理対象として選択された場合（ステップＳ２０９でＹＥＳ）、パラメータ学習部１０３は、収束条件を満たすか否かを判定する（ステップＳ２１０）。収束条件を満たす場合（ステップＳ２１０でＹＥＳ）は、パラメータ学習部１０３は学習処理を終了する。一方で、収束条件を満たさない場合（ステップＳ２１０でＮＯ）は、パラメータ学習部１０３は、訓練データセット中の全ての訓練データが処理対象として選択されていないものとした上で、ステップＳ２０１に戻る。ここで、収束条件としては、例えば、上記のステップＳ２０１～ステップＳ２０８が処理された回数（反復回数）が所定の回数以上となったこと等が挙げられる。

　以上により、学習（教師あり学習）時における質問応答装置１０は、参照テキストＰと質問Ｑと正解回答Ａと正解根拠Ｒとが含まれる訓練データを入力として、根拠モデルパラメータ及び回答モデルパラメータを学習することができる。なお、図４では１つの学習処理の中で根拠モデルパラメータと回答モデルパラメータとを学習させたが、これに限られず、根拠モデルパラメータと回答モデルパラメータとを別々の学習処理の中で学習させてもよい。

　≪学習（教師なし学習）時≫
　次に、教師なし学習により機械読解モデルのパラメータを学習する場合について説明する。学習（教師なし学習）時における質問応答装置１０には、参照テキストＰと、この参照テキストＰに関連する質問Ｑと、この質問Ｑに対する真の回答の回答範囲を示す正解回答Ａとが含まれる訓練データの集合（訓練データセット）が入力される。このように、教師なし学習時には、正解回答Ａの真の根拠を示す正解根拠Ｒが与えられない（つまり、教師なしとは正解根拠Ｒが与えられないことを意味する。）。このため、正解根拠Ｒが入手できない又は存在しない場合であっても、機械読解モデルのパラメータを学習することができる。

　＜学習（教師なし学習）時における質問応答装置１０の全体構成＞
　学習（教師なし学習）時における質問応答装置１０の全体構成について、図５を参照しながら説明する。図５は、第一の実施形態の学習（教師なし学習）時における質問応答装置１０の全体構成の一例を示す図である。なお、図５では、主に、推論時との相違点について説明し、推論時と同様の構成要素についてはその説明を省略する。

　図５に示すように、学習（教師なし学習）時における質問応答装置１０は、機械読解モデルを実現する根拠抽出処理部１０１及び回答抽出処理部１０２と、根拠モデルパラメータ及び回答モデルパラメータを学習するパラメータ学習部１０３と、根拠モデルパラメータを記憶する根拠モデルパラメータ記憶部２０１と、回答モデルパラメータを記憶する回答モデルパラメータ記憶部２０２とを有する。なお、根拠モデルパラメータ記憶部２０１には学習中の根拠モデルパラメータが記憶されており、回答モデルパラメータ記憶部２０２にも学習中の回答モデルパラメータが記憶されている。

　パラメータ学習部１０３は、回答＾Ａの損失を用いて根拠モデルパラメータ及び回答モデルパラメータを学習する。

　＜教師なし学習処理＞
　次に、本実施形態に係る教師なし学習処理について、図６を参照しながら説明する。図６は、第一の実施形態に係る教師なし学習処理の一例を示すフローチャートである。以降では、オンライン学習により根拠モデルパラメータ及び回答モデルパラメータを学習する場合について説明するが、これは一例であって、バッチ学習やミニバッチ学習等も適用可能である。

　パラメータ学習部１０３は、訓練データセットから１件の訓練データ（つまり、参照テキストＰと質問Ｑと正解回答Ａとの組）を処理対象として選択する（ステップＳ３０１）。

　次に、根拠抽出処理部１０１の言語理解部１１１は、上記のステップＳ３０１で処理対象として選択された訓練データに含まれる参照テキストＰと質問Ｑとを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習中の根拠モデルパラメータを用いて、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを出力する（ステップＳ３０２）。なお、言語理解部１１１は、図２のステップＳ１０１と同様の処理を行って質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを出力する。

　次に、根拠抽出処理部１０１の根拠抽出部１１２は、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習中の根拠モデルパラメータを用いて、根拠＾Ｒを出力する（ステップＳ３０３）。根拠抽出部１１２は、ＥＯＥ文ｓ_ＥＯＥを文ベクトル集合｛ｓ_ｉ｝に追加した上で、図２のステップＳ１０２と同様に、時刻ｔ（ｔ＝０，１，・・・）毎に上記のＳｔｅｐ１～Ｓｔｅｐ４を繰り返し実行する。ただし、根拠となる文の抽出操作argmaxは微分不可であるため、上記のＳｔｅｐ２で文＾ｒ^ｔを抽出する際、根拠抽出部１１２は、gumbel-softmax trickによるサンプリングで根拠となる文＾ｒ^ｔを抽出する。

　具体的には、ｇ_ｉ（ｉ＝１，・・・，ｎ）を一様独立なgumbel分布からサンプリングした確率変数（すなわち、ｕ_ｉ～Uniform（０，１），ｇ_ｉ＝－ｌｏｇ（－ｌｏｇ（ｕ_ｉ））とする。）とする。このとき、根拠抽出部１１２は、時刻ｔに抽出する文＾ｒ^ｔを

に従って決定する。なお、この式は、所定の第１の分布からのサンプリングによってテキストを抽出することを意味する。より具体的には、根拠スコアと、所定の第２の分布（本実施形態では、一例としてgumbel分布）に従う確率変数との和からなるスコアに基づいてテキストを抽出することを意味する。ただし、根拠スコアとは上記の式中のｌｏｇ（Ｐｒ（ｉ；＾Ｒ^ｔ－１））のことであり、文ｉが回答の根拠となる尤もらしさを表すスコアのことである。

　ここで、上述したように、根拠の抽出操作argmaxは微分不可である。また、文集合の中から文を抽出するためのone-hotベクトルを作成する操作も微分不可である。そこで、後述する損失Ｌの勾配を計算する際（つまり、損失を逆伝播（誤差逆伝搬）する際）には、straight-through gumbel-softmax estimatorをone-hotベクトルの微分値の近似値として用いる。すなわち、one-hotベクトル

の連続緩和（つまり、離散空間から連続空間への緩和）はτを温度パラメータとして、

であるため、

とする。ここで、ｙはｙ_ｉを要素とするベクトルである。

　次に、回答抽出処理部１０２の言語理解部１２１は、根拠＾Ｒと質問Ｑとを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習中の回答モデルパラメータを用いて、ベクトル系列Ｈを出力する（ステップＳ３０４）。なお、言語理解部１２１は、図２のステップＳ１０３と同様の処理を行ってベクトル系列Ｈを出力する。

　次に、回答抽出処理部１０２の回答抽出部１２２は、ベクトル系列Ｈを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習中の回答モデルパラメータを用いて、回答＾Ａを出力する（ステップＳ３０５）。なお、回答抽出部１２２は、図２のステップＳ１０４と同様の処理を行って回答＾Ａを出力する。

　次に、パラメータ学習部１０３は、回答Ａの損失を含む損失Ｌを算出する（ステップＳ３０６）。回答Ａの損失としては、本来は確率分布

に対応する損失－ｌｏｇＰｒ（Ａ｜Ｐ，Ｑ）を用いることが望ましいが、教師なし学習では、この損失－ｌｏｇＰｒ（Ａ｜Ｐ，Ｑ）の近似である損失Ｌ_Ａを用いる。これは、損失Ｌ_Ａ＝－ｌｏｇＰｒ（Ａ｜＾Ｒ，Ｑ）は、－ｌｏｇＰｒ（Ａ｜Ｐ，Ｑ）の上限に相当することがJensenの不等式により示されるためである。すなわち、

となるためである。最後の近似はgumbel-softmax trickによる。

　そして、損失Ｌ_Ａと、学習を補助する目的の正則化項Ｌ_Ｃ、Ｌ_Ｎ及びＬ_Ｅとを用いて、損失Ｌを、Ｌ＝Ｌ_Ａ＋λ_ＣＬ_Ｃ＋λ_ＮＬ_Ｎ＋λ_ＥＬ_Ｅとする。ここで、λ_Ｃ、λ_Ｎ及びλ_Ｅはハイパーパラメータである。

　正則化項Ｌ_Ｃは根拠として抽出した情報が、質問が言及する情報を包含しないことへの罰則を表す。正則化項Ｌ_Ｃは、

をそれぞれ質問と根拠の単語埋め込みの系列であるとして、

により算出される。ここで、ｌ_Ｑは質問の長さ、ｌ_Ｒは根拠に含まれる全ての文を連結した文の長さである。この正則化項Ｌ_Ｃは質問中の各単語ｉについて、根拠として抽出された文の中に１単語以上の意味的に近い単語ｊが含まれることを意図している。

　正則化項Ｌ_Ｎは根拠中に回答が含まれないことへの罰則を表す。正則化項Ｌ_Ｎは、

により算出される。ここで、Ｓ_Ａ⊂Ｓは回答を含む文の集合、ａ^ｔは回答を含む文のうち時刻ｔに根拠として最も選ばれやすかった文である。この正則化項Ｌ_Ｎはスコア（文のスコア）の差に活性化関数としてＲｅＬＵ（Rectified Linear Unit）を与えた値

の時刻に関する最小値である。１回でも回答を含む文が他の文より選ばれやすかった場合、

となるため、Ｌ_Ｎ＝０となる。

　また、ＲｅＬＵの代わりに、ランキング問題で使われる損失関数が用いられてもよい。例えば、RankNetの損失関数を用いる場合、正則化項Ｌ_Ｎは、

により算出されてもよい。RankNetについては、例えば、参考文献２「C. Burges, T. Shaked, E. Renshaw, A. Lazier, M. Deeds, N. Hamilton, and G. N. Hullender. Learning to rank using gradient descent. In ICML, pp. 89-96, 2005.」等を参照されたい。

　なお、根拠中に回答が含まれない場合、Cross-Entropy損失によって損失Ｌ_Ａを計算することができない。このため、根拠中に回答が含まれない場合は、損失Ｌ_Ａを計算する前に、

が根拠＾Ｒに追加される。

　正則化項Ｌ_Ｅは強化学習等でよく用いられるエントロピー正則化であり、

により算出される。この正則化項Ｌ_Ｅは１時刻における根拠となる文の抽出に関する負のエントロピーに相当する。エントロピーを大きくすることで文の抽出の探索範囲を広げ、学習を安定させる効果がある。

　次に、パラメータ学習部１０３は、上記のステップＳ３０６で算出した損失Ｌを用いて根拠モデルパラメータ及び回答モデルパラメータを学習する（ステップＳ３０７）。すなわち、パラメータ学習部１０３は、損失Ｌの値及びその勾配を算出し、損失Ｌの値が最小となるように根拠モデルパラメータ及び回答モデルパラメータを更新する。

　次に、パラメータ学習部１０３は、訓練データセット中の全ての訓練データが処理対象として選択されたか否かを判定する（ステップＳ３０８）。未だ処理対象として選択されていない訓練データが存在する場合（ステップＳ３０８でＮＯ）、パラメータ学習部１０３は、ステップＳ３０１に戻る。これにより、訓練データセット中の全ての訓練データに対して上記のステップＳ３０１～ステップＳ３０７が実行される。

　一方で、訓練データセット中の全ての訓練データが処理対象として選択された場合（ステップＳ３０８でＹＥＳ）、パラメータ学習部１０３は、収束条件を満たすか否かを判定する（ステップＳ３０９）。収束条件を満たす場合（ステップＳ３０９でＹＥＳ）は、パラメータ学習部１０３は学習処理を終了する。一方で、収束条件を満たさない場合（ステップＳ３０９でＮＯ）は、パラメータ学習部１０３は、訓練データセット中の全ての訓練データが処理対象として選択されていないものとした上で、ステップＳ３０１に戻る。ここで、収束条件としては、例えば、上記のステップＳ３０１～ステップＳ３０７が処理された回数（反復回数）が所定の回数以上となったこと等が挙げられる。

　以上により、学習（教師なし学習）時における質問応答装置１０は、参照テキストＰと質問Ｑと正解回答Ａとが含まれる訓練データを入力として（つまり、正解根拠Ｒを入力しなくても）、根拠モデルパラメータ及び回答モデルパラメータを学習することができる。なお、教師なし学習では学習の安定のため、事前学習を行うことが好ましい。正解根拠Ｒが存在する場合には、上述した教師あり学習を事前学習とすればよい。一方で、正解根拠Ｒが存在しない場合には、疑似的な正解根拠を用いて半教師あり学習で事前学習を行えばよい。このような疑似的な正解根拠は、例えば、文の根拠らしさを表すラベルを各文に付与した上で、このラベルの値が所定の閾値以上となる文の集合とすればよい。このラベルの値は任意の式で決定すればよいが、例えば、文と質問のTF-IDF類似度等を用いることができる。また、回答を含む文集合Ｓ_Ａに含まれる文のうちの少なくとも１つ文が、疑似的な正解根拠に含まれるようにする。

　＜評価＞
　以下、本実施形態の評価について説明する。

　　（データセット）
　正解根拠（つまり、根拠の教師データ）を持つデータセットであるHotpotQAを用いて評価した。HotpotQAでは、質問ＱはWikipedia中の２段落に跨る内容を問うように作成される。参照テキストＰは当該２段落を繋げたテキストとした。出力は回答Ａと根拠Ｒである。回答Ａは回答ラベル｛ｙｅｓ，ｎｏ，ｓｐａｎ｝のいずれかと回答区間（回答範囲）である。回答区間は、回答ラベルが'ｓｐａｎ'のときのみ存在する。よって、回答モデルでは回答区間の分類に加えて回答ラベルの分類も行なった。質問Ｑが２段落に跨る内容を問う質問に限定されているため、根拠Ｒは２文以上となる。以降では、便宜上、根拠Ｒに含まれる文のうち、回答Ａを含む文を回答文、回答を含まないが回答するために必要な文を補助文と呼ぶ。なお、HotpotQAについては、例えば、参考文献３「Z. Yang, P. Qi, S. Zhang, Y. Bengio, W. W. Cohen, R. Salakhutdinov, and C. D. Manning. HotpotQA: A dataset for diverse, explainable multi-hop question answering. In EMNLP, pp. 2369-2380, 2018.」等を参照されたい。

　　（実験設定）
　本評価では、BERT_Baseを用いた３つの手法を比較した。ベースラインモデルは根拠モデルなしのモデルであり、回答モデルに直接参照テキストＰと質問Ｑとを入力する。本実施形態の手法としては、教師あり学習と、教師あり学習の後に教師なし学習を行った追加学習とを評価した。教師あり学習ではバッチサイズを６０、エポック数を３、最適化手法をAdam、学習率を５ｅ－５とし、教師なし学習ではエポック数を１、学習率を５ｅ－６、τを０．００１、λ_Ｃを０、λ_Ｎを１、λ_Ｅを０．００１として、ＧＰＵ（Graphics Processing Unit）を用いて学習を行った。

　　（評価と議論）
　以上のデータセットと実験設定で実験を行った場合における回答と根拠の評価結果を以下の表１に示す。

　上記の表１はＥＭ（Exact match）／Ｆ１の評価結果を表している。

　また、解釈可能な機械読解モデルと追加学習（教師あり学習＋教師なし学習）の有効性検証のため、以下の（ａ）～（ｃ）のリサーチクエスチョンについて議論する。

　（ａ）本実施形態の手法は回答精度の向上に貢献するか
　回答精度に関して、本実施形態の手法（教師あり学習、追加学習）はベースラインの性能を上回った。特にベースラインの性能を上回ったことで、回答モデルの前に根拠モデルを用いる解釈可能な機械読解モデルが、回答モデル単体に比べて精度よく回答できることを確認した。これは、根拠モデルが不要なテキストを取り除く効果があり、回答モデルでの推論が容易になるためであると考えられる。

　また、追加学習によって回答精度がさらに向上することを確認した。これは、追加学習によって回答モデルが正答しやすい根拠を根拠モデルが学習したためであると考えられる。

　（ｂ）追加学習で根拠モデルの挙動がどう変化したか
　教師あり学習と追加学習での根拠の出力の変化を以下の表２に示す。

　上記の表２に示されるように、教師あり学習ではPrecisionを重視して文を抽出しているが、追加学習ではRecall重視に傾向が変化している。また、抽出する文数の増加は平均で１．２５文である。

　Recall重視に変わった理由を調査するため、根拠文の種類（回答文、補助文）別でRecallを評価した。その評価結果を以下の表３に示す。

　教師あり学習では、回答文が補助文よりも抽出されやすかった。これは、質問文（質問Ｑ）が回答文の表現を流用することが多いためであると考えられる。

　追加学習でRecallが増大した理由は、回答の損失Ｌ_Ａと根拠に回答がないことの罰則を表す正則化項Ｌ_Ｎとに求めることができる。上記の表３において、追加学習では回答文より補助文の方が選ばれやすくなっている。正則化項Ｌ_Ｎには回答文を選びやすくする効果しかないため、損失Ｌ_Ａが根拠の抽出の変化に寄与していることがわかる。本結果は、回答モデルが回答するにあたって根拠が過剰であることよりも不足することの方が悪影響であることを、根拠モデルが回答の損失Ｌ_Ａから学習していることを示唆している。

　（ｃ）追加学習で回答モデルの挙動がどう変化したか
　回答モデル単体としての性能を評価するため、根拠の予測結果で開発データを４つのドメイン「全て」、「完全一致」、「過剰」、「不足」に分類して評価を行った。「全て」は全ての開発データのドメイン、「完全一致」は教師あり学習と追加学習とで根拠の抽出結果＾Ｒが真の根拠Ｒに対して完全一致（Ｒ＝＾Ｒ）したデータのドメイン、「過剰」は教師あり学習と追加学習とで根拠の抽出結果＾Ｒが真の根拠Ｒに対して過剰（Ｒは＾Ｒの真部分集合）となったデータのドメイン、「不足」は教師あり学習と追加学習とで根拠の抽出結果＾Ｒが真の根拠Ｒに対して不足（＾ＲはＲの真部分集合）なったデータのドメインである。回答ラベルが'ｓｐａｎ'かつ回答文を抽出していないサンプルでは回答が不可能であるため、分析に用いなかった。このときの評価結果を以下の表４に示す。

　上記の表４はＥＭ／Ｆ１の評価結果を表している。

　追加学習では、全てのドメインで性能が向上している。これは、根拠モデルがRecall重視になったこととは別に、回答モデル単体で見た場合も追加学習によって性能が向上したことを示している。追加学習では回答モデルの入力が予測した根拠になるため、推論時に近い状況でロバストに学習ができるため、精度よく回答ができると考えられる。

　　（本実施形態の手法の貢献）
　本実施形態では、解釈可能な機械読解モデルを定義し、教師なし学習での学習手法を初めて提案した。

　また、本実施形態では、解釈可能な機械読解モデルと追加学習での学習の性能を評価した。回答モデルのみを使う通常の機械読解モデルに比べて、解釈可能な機械読解モデルは前段で根拠の抽出を行うことで精度が向上することを確認した。更に、追加学習では、回答モデル及び根拠モデルそれぞれで回答精度が改善する学習が進んでいることが確認できた。

　機械読解モデルを解釈可能にすることで、例えば、ユーザに納得感を与えることができる、ソースを明示化でき事実検証が可能になる、のように従来の機械読解が抱える社会的問題を解決することができる。また、本実施形態で説明した追加学習をスクラッチからの教師なし学習に拡張することで、根拠の教師データを持たないデータセットでも根拠を抽出することが可能となる。

　なお、本実施形態では、根拠モデルで根拠を抽出した後、回答モデルで回答を抽出したが、より一般には、第１のモデルで第１の部分文字列を抽出（又は検索）した後、第２のモデルで第１の部分文字列から所定の条件に基づいて第２の部分文字列を抽出する処理で実現される任意のタスクに適用可能である。例えば、第１のモデルで文章から段落を検索し、第２のモデルで段落に対して読解（回答抽出等）を行う、等のタスクにも適用可能である。

　＜ハードウェア構成＞
　次に、本実施形態に係る質問応答装置１０のハードウェア構成について、図７を参照しながら説明する。図７は、第一の実施形態に係る質問応答装置１０のハードウェア構成の一例を示す図である。

　図７に示すように、本実施形態に係る質問応答装置１０は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置３０１と、表示装置３０２と、外部Ｉ／Ｆ３０３と、通信Ｉ／Ｆ３０４と、プロセッサ３０５と、メモリ装置３０６とを有する。これらの各ハードウェアは、それぞれがバス３０７を介して通信可能に接続されている。

　入力装置３０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置３０２は、例えば、ディスプレイ等である。なお、質問応答装置１０は、入力装置３０１及び表示装置３０２のうちの少なくとも一方を有していなくてもよい。

　外部Ｉ／Ｆ３０３は、外部装置とのインタフェースである。外部装置には、記録媒体３０３ａ等がある。質問応答装置１０は、外部Ｉ／Ｆ３０３を介して、記録媒体３０３ａの読み取りや書き込み等を行うことができる。記録媒体３０３ａには、質問応答装置１０が有する各機能部（根拠抽出処理部１０１、回答抽出処理部１０２及びパラメータ学習部１０３）を実現する１以上のプログラムが格納されていてもよい。

　なお、記録媒体３０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

　通信Ｉ／Ｆ３０４は、質問応答装置１０が通信ネットワークに接続するためのインタフェースである。なお、質問応答装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ３０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

　プロセッサ３０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ等の各種演算装置である。質問応答装置１０が有する各機能部は、例えば、メモリ装置３０６に格納されている１以上のプログラムがプロセッサ３０５に実行させる処理により実現される。

　メモリ装置３０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。質問応答装置１０が有する根拠モデルパラメータ記憶部２０１及び回答モデルパラメータ記憶部２０２は、例えば、メモリ装置３０６を用いて実現可能である。なお、根拠モデルパラメータ記憶部２０１及び回答モデルパラメータ記憶部２０２のうちの少なくとも一方の記憶部が、質問応答装置１０と通信ネットワークを介して接続される記憶装置（例えば、データベースサーバ等）を用いて実現されていてもよい。

　本実施形態に係る質問応答装置１０は、図７に示すハードウェア構成を有することにより、上述した推論処理や教師あり学習処理、教師なし学習処理を実現することができる。なお、図７に示すハードウェア構成は一例であって、質問応答装置１０は、他のハードウェア構成を有していてもよい。例えば、質問応答装置１０は、複数のプロセッサ３０５を有していてもよいし、複数のメモリ装置３０６を有していてもよい。

　［第二の実施形態］
　次に、第二の実施形態について説明する。第一の実施形態では、参照テキストとこの参照テキストに関連する質問が与えられたときに、機械読解モデルにより回答とその根拠とを提示する質問応答装置１０について説明した。しかしながら、第一の実施形態に係る質問応答装置１０では、与えられた質問に対して「わからない（回答不能；ＣＮＡ（Can Not Answer）」こと（つまり質問に回答するために必要な情報が参照テキストに含まれていないこと）を認識することができなかった。

　そこで、第二の実施形態では、質問に回答するために必要な情報が参照テキストに含まれていない場合には回答不能であることを出力する質問応答装置１０について説明する。第二の実施形態に係る質問応答装置１０によれば、回答不能な質問に対して無理やり回答してしまう事態を防止することが可能となる。なお、第二の実施形態では、主に、第一の実施形態との相違点について説明し、第一の実施形態と同一の構成要素についてはその説明を省略する。

　ここで、第一の実施形態では、主に、抽出型機械読解タスクと呼ばれるタスクを対象に説明を行った。抽出型機械読解タスクとは参照テキストの中から回答を抽出するタスクのことであり、その出力は回答範囲の始点及び終点である。一方で、抽出型機械読解タスクは、任意のラベルを利用した回答を出力する機械読解タスクと組み合わせることが可能である。例えば、第一の実施形態の評価でも記載したように、回答ラベルとして｛ｙｅｓ，ｎｏ，ｓｐａｎ｝を与えることで、回答ラベル'ｙｅｓ'が得られた場合は回答「はい」を出力し、回答ラベル'ｎｏ'が得られた場合は回答「いいえ」を出力し、回答ラベル'ｓｐａｎ'が得られた場合は回答範囲の始点及び終点を出力する、といった組み合わせが可能である。なお、回答ラベルとは回答の種別を表すラベルである。

　そこで、本実施形態では、抽出型機械読解タスクと回答ラベルを利用した回答を出力する機械読解タスクとを組み合わせたタスクを対象として、与えられた質問に対して回答不能であることを示す回答ラベル'ＣＮＡ'を追加し、質問に回答するために必要な情報が参照テキストに含まれていない場合は回答ラベル'ＣＮＡ'を出力するように機械読解モデルを構成する。なお、第一の実施形態と同様に、本実施形態は、機械読解モデルのパラメータを学習する学習時と、学習済みのパラメータを用いた機械読解モデルにより機械読解を行う推論時とがあるため、以降では、質問応答装置１０の「推論時」、「学習時」について説明する。

　＜推論時における質問応答装置１０の全体構成＞
　推論時における質問応答装置１０の全体構成について、図８を参照しながら説明する。図８は、第二の実施形態の推論時における質問応答装置１０の全体構成の一例を示す図である。

　図８に示すように、推論時における質問応答装置１０は、機械読解モデルを実現する根拠抽出処理部１０１及び回答抽出処理部１０２と、根拠モデルパラメータを記憶する根拠モデルパラメータ記憶部２０１と、回答モデルパラメータを記憶する回答モデルパラメータ記憶部２０２とを有する。なお、根拠モデルパラメータ記憶部２０１には学習済みの根拠モデルパラメータが記憶されており、回答モデルパラメータ記憶部２０２にも学習済みの回答モデルパラメータが記憶されている。

　回答抽出処理部１０２には、言語理解部１２１及び回答抽出部１２２に加えて、回答判断部１２３が含まれる。回答判断部１２３は、言語理解部１２１から出力されたベクトル系列Ｈを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習済み回答モデルパラメータを用いて、回答ラベルｃを算出（予測）する。そして、回答判断部１２３は、回答ラベルｃが'ｓｐａｎ'以外である場合は、その回答ラベルｃに対応する情報を回答＾Ａとして出力する。すなわち、回答判断部１２３は、例えば、回答ラベルｃが'ＣＮＡ'である場合は「回答不能」を回答＾Ａとして出力する。なお、回答判断部１２３は、回答ラベルｃが'ｓｐａｎ'以外である場合は、その回答ラベルｃをそのまま回答＾Ａとして出力してもよい。

　また、回答抽出部１２２は、回答判断部１２３で算出された回答ラベルｃが'ｓｐａｎ'である場合、第一の実施形態と同様に、ベクトル系列Ｈを入力として、根拠＾Ｒ中で回答範囲の始点及び終点となるスコアを算出することで、回答＾Ａを出力する。このように、第二の実施形態では、回答判断部１２３で回答ラベル'ｓｐａｎ'が算出された場合にのみ回答抽出部１２２で根拠＾Ｒの中から回答範囲を抽出し、それ以外の場合は回答ラベルに対応する情報（例えば、'ＣＮＡ'の場合は「回答不能」等）を回答とする。

　なお、上記の回答抽出部１２２及び回答判断部１２３の組み合わせ方は一例であって、回答ラベルを予測した上で、その回答ラベルが'ＣＮＡ'の場合は「回答不能」を出力し、'ｓｐａｎ'の場合は根拠＾Ｒの中から回答範囲を抽出するものであれば、任意の組み合わせが可能である。

　＜推論処理＞
　次に、本実施形態に係る推論処理について、図９を参照しながら説明する。図９は、第二の実施形態に係る推論処理の一例を示すフローチャートである。図９のステップＳ４０１～ステップＳ４０３は、図２のステップＳ１０１～ステップＳ１０３とそれぞれ同様であるため、その説明を省略する。ただし、ステップＳ４０２において、根拠抽出処理部１０１の根拠抽出部１１２は、線形変換層により根拠＾Ｒを抽出及び出力してもよい。すなわち、例えば、根拠抽出部１１２は、ｒ^ｉ＝sigmoid（Ｗ_ｓｓ_ｉ＋ｂ_ｓ）によりｒ^ｉを計算した上で、ｒ^ｉ＞λ^０を満たすものを根拠＾Ｒ＝｛ｒ^ｉ｝として抽出してもよい。ここで、Ｗ_ｓ∈Ｒ^１×ｄ及びｂ_ｓ∈Ｒ^１は学習済み根拠モデルパラメータに含まれる学習済みパラメータである（つまり、Ｗ_ｓ及びｂ_ｓは、後述する学習処理で学習対象となるパラメータである。）。また、sigmoid（・）はシグモイド関数、λ^０はハイパーパラメータである。

　ステップＳ４０３に続いて、回答抽出処理部１０２の回答判断部１２３は、ベクトル系列Ｈを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習済み回答モデルパラメータを用いて、回答ラベルｃを算出する（ステップＳ４０４）。

　具体的には、回答判断部１２３は、以下により回答ラベルｃを算出する。

　　ｃ＝Ｗ_ｃｈ_１＋ｂ_ｃ∈Ｒ^Ｍ
　ここで、Ｗ_ｃ及びｂ_ｃは学習済み回答モデルパラメータに含まれる学習済みパラメータである（つまり、Ｗ_ｃ及びｂ_ｃは、後述する学習処理で学習対象となるパラメータである。）。また、Ｍは回答ラベル数である。なお、本実施形態では回答ラベルには少なくとも'ｓｐａｎ'と'ＣＮＡ'とが含まれるため、Ｍ≧２である。

　次に、回答抽出処理部１０２の回答判断部１２３は、上記のステップＳ４０４で算出された回答ラベルｃが、'ｓｐａｎ'を示すものであるか否かを判定する（ステップＳ４０５）。

　上記のステップＳ４０５で回答ラベルｃが'ｓｐａｎ'を示すものであると判定された場合、回答抽出処理部１０２の回答抽出部１２２は、図２のステップＳ１０４と同様に、回答＾Ａを出力する（ステップＳ４０６）。すなわち、回答抽出部１２２は、ベクトル系列Ｈを入力として、根拠＾Ｒ中で回答範囲の始点及び終点となるスコアを算出することで、回答＾Ａを出力する。

　一方で、上記のステップＳ４０５で回答ラベルｃが'ｓｐａｎ'を示すものであると判定されなかった場合（つまり、回答ラベルｃが'ｓｐａｎ'以外を示すものである場合）、回答抽出処理部１０２の回答判断部１２３は、当該回答ラベルｃに対応する情報を回答＾Ａとして出力する（ステップＳ４０７）。すなわち、回答判断部１２３は、例えば、回答ラベルｃが'ＣＮＡ'である場合は「回答不能」を回答＾Ａとして出力する。なお、例えば、'ｓｐａｎ'以外の回答ラベルとして'ｙｅｓ'や'ｎｏ'が存在し、当該回答ラベルｃが'ｙｅｓ'である場合、回答判断部１２３は、「はい」を回答＾Ａとして出力してもよい。同様に、当該回答ラベルｃが'ｎｏ'である場合、回答判断部１２３は、「いいえ」を回答＾Ａとして出力してもよい。

　以上により、推論時における質問応答装置１０は、参照テキストＰと質問Ｑとを入力として、回答＾Ａと根拠＾Ｒとを得ることができる。しかも、このとき、質問応答装置１０は、質問Ｑに回答するために必要な情報が参照テキストＰに含まれていない場合には回答＾Ａとして「回答不能」を出力する。このため、本実施形態に係る質問応答装置１０では、回答不能な質問に対して無理やり回答してしまう事態を防止することが可能となる。なお、回答＾Ａが「回答不能」である場合は、根拠＾Ｒが出力されなくてもよい。

　≪学習時≫
　次に、機械読解モデルのパラメータは学習済みでないものとして、このパラメータを学習する場合について説明する。学習時における質問応答装置１０には、質問Ｑに回答するために必要な情報が含まれる参照テキストＰと、当該質問Ｑと、正解回答ラベルを示す回答ラベル'ｓｐａｎ'と、当該質問Ｑに対する真の回答の回答範囲を示す正解回答Ａと、この正解回答Ａの真の根拠を示す正解根拠Ｒとが含まれる訓練データの集合（第１の訓練データセット）が入力される。正解根拠Ｒは、例えば、参照テキストＰに対してアノテーションが付与される形で与えられていてもよい。なお、参照テキストＰが長文である場合、参照テキストＰ中の適切な区切り（例えば、段落等）に対してスコアを付与することで、当該参照テキストＰを適切な長さに絞り込んでもよい。例えば、既知のparagraph ranker又はそれに基づく手法等により各段落に対してスコアを付与し、そのスコアが高い順に数段落程度に絞り込んでもよい。

　また、上記の第１の訓練データセットに加えて、質問Ｑに回答するために必要な情報が十分に含まれていない参照テキストＰ'と、当該質問Ｑと、正解根拠Ｒ'と、正解回答ラベルを示す回答ラベル'ＣＮＡ'とが含まれる訓練データの集合（第２の訓練データセット）も入力される。

　ここで、質問Ｑに回答するために必要な情報が十分に含まれていない参照テキストＰ'は任意の方法で作成することが可能であるが、例えば、質問Ｑに回答するために必要な情報が含まれる参照テキストＰ中の各段落に対してスコアを付与した上で、そのスコアが高い数段落を、スコアが低く、かつ、質問Ｑに類似する文が含まれる段落で置き換えることで作成することが可能である。このとき、質問Ｑと文の類似度としては、例えば、TF-IDF類似度等を用いればよい。具体的には、例えば、参照テキストＰ'中でスコアが高い上位２段落を、スコアが所定の閾値以下で、かつ、質問ＱとのTF-IDF類似度が最も高い文が含まれる段落に置き換えること等で参照テキストＰ'を作成すればよい。

　また、正解根拠Ｒ'は、例えば、正解根拠Ｒに含まれる文のうち、参照テキストＰ'にも含まれる文とすればよい。具体的には、例えば、参照テキストＰが第１段落～第２段落で構成されており、正解根拠Ｒが第１の段落に含まれる文ｒ_１と第２段落に含まれる文ｒ_２であるとする。このとき、例えば、別の文書に含まれる段落ひとつで第１段落を置き換えて参照テキストＰ'が作成された場合、正解根拠Ｒ'＝｛ｒ_２｝となる。また、例えば、別の文書に含まれる段落ふたつで第１段落及び第２段落をそれぞれ置き換えて参照テキストＰ'が作成された場合、正解根拠Ｒ'＝φとなる。正解根拠Ｒ'＝φの場合は、参照テキストＰ'には根拠がないことを意味する。

　なお、このような参照テキストＰ'及び正解根拠Ｒ'は質問応答装置１０で作成されてもよいし、質問応答装置１０とは異なる他の装置又は端末等で作成されてもよい。以降では、第２の訓練データセット中の各訓練データに含まれる参照テキストＰ'も「参照テキストＰ」と表記すると共に、正解根拠Ｒ'も「正解根拠Ｒ」と表記する。

　＜学習時における質問応答装置１０の全体構成＞
　学習時における質問応答装置１０の全体構成について、図１０を参照しながら説明する。図１０は、第二の実施形態の学習時における質問応答装置１０の全体構成の一例を示す図である。なお、図１０では、主に、推論時との相違点について説明し、推論時と同様の構成要素についてはその説明を省略する。

　図１０に示すように、学習時における質問応答装置１０は、機械読解モデルを実現する根拠抽出処理部１０１及び回答抽出処理部１０２と、根拠モデルパラメータ及び回答モデルパラメータを学習するパラメータ学習部１０３と、根拠モデルパラメータを記憶する根拠モデルパラメータ記憶部２０１と、回答モデルパラメータを記憶する回答モデルパラメータ記憶部２０２とを有する。なお、根拠モデルパラメータ記憶部２０１には学習中の根拠モデルパラメータが記憶されており、回答モデルパラメータ記憶部２０２にも学習中の回答モデルパラメータが記憶されている。

　パラメータ学習部１０３は、各種誤差（損失）を計算すると共に、これらの誤差を用いて根拠モデルパラメータ及び回答モデルパラメータを学習する。

　＜学習処理＞
　次に、本実施形態に係る学習処理について、図１１を参照しながら説明する。図１１は、第二の実施形態に係る学習処理の一例を示すフローチャートである。以降では、オンライン学習により根拠モデルパラメータ及び回答モデルパラメータを学習する場合について説明するが、これは一例であって、バッチ学習やミニバッチ学習等も適用可能である。また、以降では第１の訓練データセットと第２の訓練データセットをまとめたデータセットを単に「訓練データセット」と表記する。

　パラメータ学習部１０３は、訓練データセットから１件の訓練データを処理対象として選択する（ステップＳ５０１）。

　次に、根拠抽出処理部１０１の言語理解部１１１は、上記のステップＳ５０１で処理対象として選択された訓練データに含まれる参照テキストＰと質問Ｑとを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習中の根拠モデルパラメータを用いて、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを出力する（ステップＳ５０２）。なお、言語理解部１１１は、図９のステップＳ４０１と同様の処理を行って質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを出力する。

　次に、根拠抽出処理部１０１の根拠抽出部１１２は、質問ベクトルｑと文ベクトル集合｛ｓ_ｉ｝とを入力として、根拠モデルパラメータ記憶部２０１に記憶されている学習中の根拠モデルパラメータを用いて、根拠＾Ｒを出力する（ステップＳ５０３）。なお、根拠抽出部１１２は、図９のステップＳ４０２と同様の処理を行って根拠＾Ｒを出力する。ただし、図４のステップＳ２０３と同様に、Teacher-Forcingを用いて文＾ｒ^ｔを抽出してもよい。また、図６のステップＳ３０３と同様に、gumbel-softmax trickによるサンプリングで文＾ｒ^ｔを抽出してもよい。

　次に、パラメータ学習部１０３は、上記のステップＳ５０１で処理対象として選択された訓練データが第１の訓練データセット中の訓練データであるか否かを判定する（ステップＳ５０４）。

　上記のステップＳ５０４で第１の訓練データセット中の訓練データが処理対象であると判定された場合、パラメータ学習部１０３は、上記のステップＳ５０３で出力された根拠＾Ｒが、処理対象の訓練データに含まれる正解根拠Ｒを包含するか否かを判定する（ステップＳ５０５）。

　上記のステップＳ５０５で根拠＾Ｒが正解根拠Ｒを包含すると判定されなかった場合、パラメータ学習部１０３は、処理対象の訓練データに含まれる回答ラベルを'ＣＮＡ'に変更する（ステップＳ５０６）。これは、根拠＾Ｒが正解根拠Ｒを包含していない場合、当該根拠＾Ｒには回答に必要な情報が十分に含まれていないためである。

　一方で、上記のステップＳ５０４で第１の訓練データセット中の訓練データが処理対象であると判定されなかった場合（つまり、第２の訓練データセット中の訓練データが処理対象である場合）、上記のステップＳ５０６で根拠＾Ｒが正解根拠Ｒを包含すると判定された場合、又はステップＳ５０６に続いて、回答抽出処理部１０２の言語理解部１２１は、根拠＾Ｒと質問Ｑとを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習中の回答モデルパラメータを用いて、ベクトル系列Ｈを出力する（ステップＳ５０７）。なお、言語理解部１２１は、図９のステップＳ４０３と同様の処理を行ってベクトル系列Ｈを出力する。

　次に、回答抽出処理部１０２の回答判断部１２３は、ベクトル系列Ｈを入力として、回答モデルパラメータ記憶部２０２に記憶されている学習中の回答モデルパラメータを用いて、回答ラベルｃを算出する（ステップＳ５０８）。なお、回答判断部１２３は、図９のステップＳ４０４と同様の処理を行って回答ラベルｃを算出する。

　次に、回答抽出処理部１０２の回答判断部１２３は、上記のステップＳ５０８で算出された回答ラベルｃが、'ｓｐａｎ'を示すものであるか否かを判定する（ステップＳ５０９）。なお、この判定を行った後（又は、この判定を行う前でもよい）、回答判断部１２３は、上記のステップＳ５０８で算出された回答ラベルｃを出力する。

　上記のステップＳ５０９で回答ラベルｃが'ｓｐａｎ'を示すものであると判定された場合、回答抽出処理部１０２の回答抽出部１２２は、図９のステップＳ４０６と同様に、回答＾Ａを出力する（ステップＳ５１０）。すなわち、回答抽出部１２２は、ベクトル系列Ｈを入力として、根拠＾Ｒ中で回答範囲の始点及び終点となるスコアを算出することで、回答＾Ａを出力する。

　ステップＳ５１０に続いて、又は、上記のステップＳ５０９で回答ラベルｃが'ｓｐａｎ'を示すものであると判定されなかった場合、パラメータ学習部１０３は、各種損失を計算する（ステップＳ５１１）。例えば、パラメータ学習部１０３は、第一の実施形態における教師あり学習と同様に、損失Ｌ_Ｒ及びＬ_Ａを算出する。ただし、損失Ｌ_Ａとして、回答ラベルｃに関する損失を更に加えたものを算出する（つまり、第一の実施形態における損失Ｌ_Ａに対して回答ラベルｃに関する損失を加えたものを、本実施形態における損失Ｌ_Ａとする。）。なお、回答ラベルｃに関する損失は、例えば、回答ラベルｃと正解回答ラベルのCross-Entropy損失とすればよい。

　次に、パラメータ学習部１０３は、上記のステップＳ５１１で算出した損失を用いて根拠モデルパラメータ及び回答モデルパラメータを学習する（ステップＳ５１２）。すなわち、パラメータ学習部１０３は、損失の値及びその勾配を算出し、損失の値が最小となるように根拠モデルパラメータ及び回答モデルパラメータを更新する。

　次に、パラメータ学習部１０３は、訓練データセット中の全ての訓練データが処理対象として選択されたか否かを判定する（ステップＳ５１３）。未だ処理対象として選択されていない訓練データが存在する場合（ステップＳ５１３でＮＯ）、パラメータ学習部１０３は、ステップＳ５０１に戻る。これにより、訓練データセット中の全ての訓練データに対して上記のステップＳ５０１～ステップＳ５１２が実行される。

　一方で、訓練データセット中の全ての訓練データが処理対象として選択された場合（ステップＳ５１３でＹＥＳ）、パラメータ学習部１０３は、収束条件を満たすか否かを判定する（ステップＳ５１４）。収束条件を満たす場合（ステップＳ５１４でＹＥＳ）は、パラメータ学習部１０３は学習処理を終了する。一方で、収束条件を満たさない場合（ステップＳ５１４でＮＯ）は、パラメータ学習部１０３は、訓練データセット中の全ての訓練データが処理対象として選択されていないものとした上で、ステップＳ５０１に戻る。ここで、収束条件としては、例えば、上記のステップＳ５０１～ステップＳ５１３が処理された回数（反復回数）が所定の回数以上となったこと等が挙げられる。

　以上により、学習時における質問応答装置１０は、第１の訓練データセット及び第２の訓練データセットに含まれる訓練データを入力として、根拠モデルパラメータ及び回答モデルパラメータを学習することができる。なお、第一の実施形態で説明した教師なし学習を行う場合はその安定のため、根拠モデルパラメータと回答モデルパラメータとをそれぞれ事前学習させておくことが好ましい。例えば、第１の訓練データセットが存在する場合は、この第１の訓練データセット（及び、この第１の訓練データセットから作成した第２の訓練データセット）を用いて教師あり学習で事前学習を行えばよい。又は、例えば、第１の訓練データセットが未だ存在しない場合は、例えば、疑似的な正解根拠を用いて半教師あり学習で事前学習を行えばよい。

　なお、本実施形態（及び第一の実施形態）の機械読解モデルは根拠モデルと回答モデルで構成されており、根拠モデルで出力された根拠が回答モデルに入力されるパイプライン型のモデルである。本実施形態では、回答不能な質問に対して無理やり回答してしまう事態を防止するために、この機械読解モデルの学習時に様々な工夫を行ったが、これらの工夫の多くは、パイプライン型ではない一般的な機械読解モデルに対して適用することも可能である。例えば、回答ラベルとして'ＣＮＡ'を追加することや、第２の訓練データセットの作成方法等は一般的な機械読解モデルに対しても同様に適用することが可能である。

　＜評価＞
　以下、本実施形態の評価について説明する。

　　（データセット）
　第一の実施形態と同様に、HotpotQAを用いた。ただし、回答に必要な情報が参照テキストＰに十分に含まれない場合は回答ラベルを'ＣＮＡ'に変更し、回答不能性の認識も含めた機械読解タスクの性能を評価できるように評価実験を行った。

　　（実験設定）
　本評価では、ベースラインモデルとして、One-Stageと称するモデルを用いた。One-StageはBERTを利用し、回答とその根拠とを同時に出力するモデルである（つまり、One-Stageはパイプライン型ではない一般的な機械読解モデルである。）。一方で、本実施形態の機械読解モデルをOur modelとし、本実施形態と同じパイプライン型のモデルを一般的な学習手法で学習したものを-End2End Trainingとした。ここで、一般的な学習手法とは、根拠抽出処理部１０１を損失Ｌ_Ｒで、回答抽出処理部１０２を損失Ｌ_Ａでそれぞれ独自に学習する手法のことである。

　　（評価と議論）
　以上のデータセットと実験設定で実験を行った場合における評価結果を以下の表５及び表６に示す。

　上記の表５は回答に必要な情報が参照テキストＰに十分に含まれない場合に回答ラベルを'ＣＮＡ'に変更したときの回答性能の比較結果である。一方で、上記の表６は回答に必要な情報が参照テキストＰに十分に含まれない場合に回答ラベル'ＣＮＡ'とそれ以外の回答ラベルを正しく分類できているかの比較結果である。

　上記の表５及び表６に示されるように、ベースラインモデル（One-Stage）と比較して、本実施形態の機械読解モデル（Our model）の方が精度良く回答不能性を認識できていることがわかる。また、本実施形態の学習手法が、一般的な学習手法よりも精度良く回答不能性を認識するモデルを学習できていることがわかる。

　また、参照テキストＰの各段落にスコアを付与し、当該参照テキストＰの絞り込みを行うことで完全一致率を向上させることができる。その結果を以下の表７に示す。

　上記の表７において、SAEは、例えば、参考文献４「Ming Tu, Kevin Huang, Guangtao Wang, Jing Huang, Xiaodong He, and Bowen Zhou. 2020. Select, answer and explain: Interpretable multi-hop reading comprehension over multiple documents. In AAAI.」等に記載されている手法によりスコアの付与及び絞り込みを行った結果である。

　また、Our Reranking(SAE+CNA)は以下の式によりスコアの付与及び絞り込みを行った結果、Our Reranking(CNA)は以下の式の右辺によりスコアの付与及び絞り込みを行った結果である。

　ここで、上記の式の左辺におけるＳ_ｉ ^ＳＡＥはparagraph rankerが出力するスコアであり、段落ｉが回答に真に必要な情報であることを表すスコアである。同様に、Ｓ_ｊ ^ＳＡＥは段落ｊが回答に真に必要な情報であることを表すスコアである。また、ｃ_ｋは回答ラベルｃのｋ番目の要素であり、ｃ_'ＣＮＡ'は回答ラベルｃの'ＣＮＡ'に対応する要素である。

　以上の実施形態に関し、更に以下の付記を開示する。

　（付記１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　テキストと質問とを入力として、第１のニューラルネットワークのモデルパラメータを用いて、前記質問に対する回答の根拠となる文字列の集合を前記テキストから抽出し、
　前記質問と前記集合とを入力として、第２のニューラルネットワークのモデルパラメータを用いて、前記回答の種別を表すラベルを予測し、
　予測されたラベルが回答不能を表すラベルでない場合、前記第２のニューラルネットワークのモデルパラメータを用いて、前記集合から前記回答を抽出し、
　予測されたラベルと、前記ラベルに対する正解ラベルとの間の第１の損失を少なくとも用いて、前記第１のニューラルネットワークのモデルパラメータと前記第２のニューラルネットワークのモデルパラメータとを学習する、学習装置。

　（付記２）
　前記プロセッサは、
　抽出された集合が、前記質問の回答に対して真の根拠となる文字列の集合を包含しない場合、前記正解ラベルの代わりに前記回答不能を表すラベルを用いて、予測されたラベルと、前記回答不能を表すラベルとの間の損失を前記第１の損失として計算する、付記１に記載の学習装置。

　（付記３）
　前記プロセッサは、
　前記質問に回答するために必要な情報が十分に含まれている第１のテキストと前記質問、又は、前記質問に回答するために必要な情報が十分に含まれていない第２のテキストと前記質問、のいずれかを入力とし、
　前記第２のテキストを入力とした場合、予測されたラベルと、回答不能を表す正解ラベルとの間の前記第１の損失を計算する、付記１又は２に記載の学習装置。

　（付記４）
　前記第２のテキストは、前記第１のテキストに含まれる段落の中で、所定の方法で定めた段落を、別途用意したテキストの段落で置き換えたテキストである、付記３に記載の学習装置。

　（付記５）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　テキストと質問とを入力として、予め学習済みの第１のニューラルネットワークのモデルパラメータを用いて、前記質問に対する回答の根拠となる文字列の集合を前記テキストから抽出し、
　前記質問と前記集合とを入力として、予め学習済みの第２のニューラルネットワークのモデルパラメータを用いて、前記回答の種別を表すラベルを予測し、
　予測されたラベルが回答不能を表すラベルである場合、前記質問に対して回答不能であることを示す情報を、前記回答として出力し、
　予測されたラベルが回答不能を表すラベルでない場合、前記第２のニューラルネットワークのモデルパラメータを用いて、前記集合から前記回答を抽出する、情報処理装置。

　（付記６）
　学習処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記学習処理は、
　テキストと質問とを入力として、第１のニューラルネットワークのモデルパラメータを用いて、前記質問に対する回答の根拠となる文字列の集合を前記テキストから抽出し、
　前記質問と前記集合とを入力として、第２のニューラルネットワークのモデルパラメータを用いて、前記回答の種別を表すラベルを予測し、
　予測されたラベルが回答不能を表すラベルでない場合、前記第２のニューラルネットワークのモデルパラメータを用いて、前記集合から前記回答を抽出し、
　予測されたラベルと、前記ラベルに対する正解ラベルとの間の第１の損失を少なくとも用いて、前記第１のニューラルネットワークのモデルパラメータと前記第２のニューラルネットワークのモデルパラメータとを学習する、非一時的記憶媒体。

　（付記７）
　情報処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記情報処理は、
　テキストと質問とを入力として、予め学習済みの第１のニューラルネットワークのモデルパラメータを用いて、前記質問に対する回答の根拠となる文字列の集合を前記テキストから抽出し、
　前記質問と前記集合とを入力として、予め学習済みの第２のニューラルネットワークのモデルパラメータを用いて、前記回答の種別を表すラベルを予測し、
　予測されたラベルが回答不能を表すラベルである場合、前記質問に対して回答不能であることを示す情報を、前記回答として出力し、
　予測されたラベルが回答不能を表すラベルでない場合、前記第２のニューラルネットワークのモデルパラメータを用いて、前記集合から前記回答を抽出する、非一時的記憶媒体。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

　１０　　　　質問応答装置
　１０１　　　根拠抽出処理部
　１０２　　　回答抽出処理部
　１０３　　　パラメータ学習部
　１１１　　　言語理解部
　１１２　　　根拠抽出部
　１２１　　　言語理解部
　１２２　　　回答抽出部
　２０１　　　根拠モデルパラメータ記憶部
　２０２　　　回答モデルパラメータ記憶部

Claims

　テキストと質問とを入力として、第１のニューラルネットワークのモデルパラメータを用いて、前記質問に対する回答の根拠となる文字列の集合を前記テキストから抽出する根拠抽出部と、
　前記質問と前記集合とを入力として、第２のニューラルネットワークのモデルパラメータを用いて、前記回答の種別を表すラベルを予測するラベル予測部と、
　前記ラベル予測部で予測されたラベルが回答不能を表すラベルでない場合、前記第２のニューラルネットワークのモデルパラメータを用いて、前記集合から前記回答を抽出する回答抽出部と、
　前記ラベル予測部で予測されたラベルと、前記ラベルに対する正解ラベルとの間の第１の損失を少なくとも用いて、前記第１のニューラルネットワークのモデルパラメータと前記第２のニューラルネットワークのモデルパラメータとを学習する学習部と、
　を有する学習装置。
　前記学習部は、
　前記根拠抽出部で抽出された集合が、前記質問の回答に対して真の根拠となる文字列の集合を包含しない場合、前記正解ラベルの代わりに前記回答不能を表すラベルを用いて、前記ラベル予測部で予測されたラベルと、前記回答不能を表すラベルとの間の損失を前記第１の損失として計算する、請求項１に記載の学習装置。
　前記根拠抽出部は、
　前記質問に回答するために必要な情報が十分に含まれている第１のテキストと前記質問、又は、前記質問に回答するために必要な情報が十分に含まれていない第２のテキストと前記質問、のいずれかを入力とし、
　前記学習部は、
　前記根拠抽出部が第２のテキストを入力とした場合、前記ラベル予測部で予測されたラベルと、回答不能を表す正解ラベルとの間の前記第１の損失を計算する、請求項１又は２に記載の学習装置。
　前記第２のテキストは、前記第１のテキストに含まれる段落の中で、所定の方法で定めた段落を、別途用意したテキストの段落で置き換えたテキストである、請求項３に記載の学習装置。
　テキストと質問とを入力として、予め学習済みの第１のニューラルネットワークのモデルパラメータを用いて、前記質問に対する回答の根拠となる文字列の集合を前記テキストから抽出する根拠抽出部と、
　前記質問と前記集合とを入力として、予め学習済みの第２のニューラルネットワークのモデルパラメータを用いて、前記回答の種別を表すラベルを予測するラベル予測部と、
　前記ラベル予測部で予測されたラベルが回答不能を表すラベルである場合、前記質問に対して回答不能であることを示す情報を、前記回答として出力する回答不能出力部と、
　前記ラベル予測部で予測されたラベルが回答不能を表すラベルでない場合、前記第２のニューラルネットワークのモデルパラメータを用いて、前記集合から前記回答を抽出する回答抽出部と、
　を有する情報処理装置。
　テキストと質問とを入力として、第１のニューラルネットワークのモデルパラメータを用いて、前記質問に対する回答の根拠となる文字列の集合を前記テキストから抽出する根拠抽出手順と、
　前記質問と前記集合とを入力として、第２のニューラルネットワークのモデルパラメータを用いて、前記回答の種別を表すラベルを予測するラベル予測手順と、
　前記ラベル予測手順で予測されたラベルが回答不能を表すラベルでない場合、前記第２のニューラルネットワークのモデルパラメータを用いて、前記集合から前記回答を抽出する回答抽出手順と、
　前記ラベル予測手順で予測されたラベルと、前記ラベルに対する正解ラベルとの間の第１の損失を少なくとも用いて、前記第１のニューラルネットワークのモデルパラメータと前記第２のニューラルネットワークのモデルパラメータとを学習する学習手順と、
　をコンピュータが実行する学習方法。
　テキストと質問とを入力として、予め学習済みの第１のニューラルネットワークのモデルパラメータを用いて、前記質問に対する回答の根拠となる文字列の集合を前記テキストから抽出する根拠抽出手順と、
　前記質問と前記集合とを入力として、予め学習済みの第２のニューラルネットワークのモデルパラメータを用いて、前記回答の種別を表すラベルを予測するラベル予測手順と、
　前記ラベル予測手順で予測されたラベルが回答不能を表すラベルである場合、前記質問に対して回答不能であることを示す情報を、前記回答として出力する回答不能出力手順と、
　前記ラベル予測手順で予測されたラベルが回答不能を表すラベルでない場合、前記第２のニューラルネットワークのモデルパラメータを用いて、前記集合から前記回答を抽出する回答抽出手順と、
　をコンピュータが実行する情報処理方法。
　コンピュータを、請求項１乃至４の何れか一項に記載の学習装置、又は、請求項５に記載の情報処理装置、として機能させるプログラム。