WO2022085533A1

WO2022085533A1 - 回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム

Info

Publication number: WO2022085533A1
Application number: PCT/JP2021/037881
Authority: WO
Inventors: 鍾勲呉; 健太郎鳥澤; ジュリアンクロエツェー; 龍飯田
Original assignee: 国立研究開発法人情報通信研究機構
Priority date: 2020-10-20
Filing date: 2021-10-13
Publication date: 2022-04-28
Also published as: US20230385558A1; JP2022067234A

Abstract

質問に対する回答候補を抽出するために、質問に関する背景知識を有効に利用して、高い精度で質問に対する回答候補を特定できるようにする回答特定用テキスト分類器９０は、質問と回答候補とを入力として受けるＢＥＲＴと、ＢＥＲＴの出力を入力として受ける知識統合トランスフォーマと、質問と回答を入力として受け、当該質問に対する背景知識表現のベクトル群を出力する背景知識表現ジェネレータと、質問と回答候補とをそれぞれ埋め込みベクトル化し背景知識表現ジェネレータへ入力するベクトル変換部とを含み、知識統合トランスフォーマは、背景知識表現のベクトル群をアテンションとして受け、回答候補が、質問に対する正しい回答を含んでいるか否かを示すラベルを出力する。

Description

回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム

　この発明は質問応答システムに関し、特に、自然言語で入力された質問に対し、回答を含むパッセージをテキストアーカイブから抽出して回答を生成する質問応答システムに用いられ、正しい回答を含むパッセージとそうでないパッセージとに分類する回答特定用テキスト分類器、その回答特定用テキスト分類器で使用される背景知識表現ジェネレータ、その訓練装置、並びにその背景知識表現ジェネレータを訓練するためのコンピュータプログラムに関する。この出願は2020年10月20日出願の日本出願第2020-175841号に基づく優先権を主張し、前記日本出願に記載された全ての記載内容を援用するものである。

　自然言語処理を用いたなぜ型質問応答システムとして、後掲の特許文献１に開示されたものがある。なぜ型質問応答システムの場合、なに型質問応答システムと異なり、回答となる可能性が高い文の集合からなる複数のパッセージ（以下「パッセージ群」という。各パッセージに含まれる文は５から７個である。）をテキストアーカイブから抽出し、その中から質問に対する回答として最もふさわしいものを選択するものが多い。ここでパッセージとは、テキスト中の連続する複数の文からなるものをいう。特許文献１に記載のなぜ型質問応答システムもそのようなシステムだが、その前提として、質問が与えられるとその質問に対する正しい回答を含む可能性が高い複数のパッセージをテキストアーカイブから抽出して出力する回答候補検索システムを利用する。

　特許文献１に記載のシステムは、ウェブ上に存在する大量のテキストを予め収集し記憶する。このウェブアーカイブから、因果関係を表していると考えられる表現を抽出する。特許文献１に開示されたシステムでは、「なぜなら」のような手掛かり語又は「Ａが原因でＢが起こる」のような特定の因果関係パターンを用いて回答パッセージ中の因果関係を認識するものが挙げられている。

　特許文献１に開示されたなぜ型質問応答システムはさらに、回答パッセージの各々と、抽出された因果関係に関する知識と、質問とから、そのパッセージがその質問に対する回答としてふさわしいか否かを判定するための特徴量を抽出する。そして、予め訓練されたコンボリューショナル・ニューラル・ネットワーク（以下「ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）」という。）に、回答パッセージと、抽出された特徴量とを入力する。ＣＮＮは、その回答パッセージが質問に対する回答としてふさわしいか否かを示す尤度（その質問が、その回答パッセージに対する質問である確率）をスコアとして出力する。なぜ型質問応答システムは、このようにして各回答パッセージに対して算出されたスコアに基づいて回答パッセージをランキングし、最上位のスコアを持つ回答パッセージを質問に対する回答として出力する。

特開２０１７－４９６８１号公報特表２０２０－５０６４６６号公報

　なぜ型質問の場合、その回答としては、その質問を結果部分に持つような因果関係表現の原因部分がふさわしい。特許文献１では、回答候補である回答パッセージ群の中から、因果関係表現に基づいて回答として最も適切なパッセージを抽出できる。したがって特許文献１によれば、従来と比較してなぜ型質問に対する回答としてよりふさわしいものを選択できるとされている。

　しかし、特許文献１に開示された発明に限らず、多くの場合、依然として各パッセージが質問に対する回答かどうかを高い確率で正しく判定するのは難しいという問題がある。人間の場合には、質問応答において、同じように抽出されたパッセージから質問に対する回答を抽出する場合には、その人間の持っている背景知識を活用し、正しい回答を含むパッセージか否かと、正しい回答となる箇所とを正確に抽出できる。自然言語処理を用いた質問応答システムでも、そのような背景知識を効率よく利用できれば、質問応答システムがより高い精度で質問に対する回答を与えることができると考えられる。

　今までは、このような背景知識とは、単に質問との関連が高いと思われるパッセージのことを指すと考えられており、実際に回答を特定する際に背景知識を有効に活用しているとは言い難かった。質問応答システムの回答精度を高めるためには、背景知識を用いて、パッセージが正しい回答を含むか否かを高い精度で判定でき、さらに質問と特に関連あると考えられる部分を的確に特定できるようにすることが望ましい。そのためには、背景知識をどのように表現し、それを回答の特定にどのように利用すればよいかという点も問題となる。

　したがってこの発明は、質問に対する回答候補を抽出するために、質問に関する背景知識を有効に利用して、高い精度で質問に対する回答候補を特定できる回答特定用テキスト分類器及びそのための背景知識表現ジェネレータ、その訓練装置、並びにコンピュータプログラムを提供することを目的とする。

　本発明の第１の局面に係る回答特定用テキスト分類器は、質問テキストと、回答候補テキストとを入力として受ける、言語表現モデルと、言語表現モデルの出力を入力として受ける知識統合トランスフォーマと、質問テキストと前記回答候補テキストを入力として受け、当該質問テキストに対する背景知識の表現ベクトルを出力する、背景知識表現ジェネレータとを含み、知識統合トランスフォーマは、前記背景知識の表現ベクトルをアテンションとして受けるように構成され、回答候補テキストが、質問テキストに対する回答を含むか否かを示すラベルを出力する。

　好ましくは、知識統合トランスフォーマは複数の知識統合トランスフォーマ層を含み、背景知識表現ジェネレータは複数の知識統合トランスフォーマ層にそれぞれ対応する複数の背景知識の表現ベクトルを出力し、複数の知識統合トランスフォーマ層は、各知識統合トランスフォーマ層に対応する表現ベクトルをアテンションのための情報源として受ける。

　さらに好ましくは、背景知識表現ジェネレータは、質問と回答候補とを表す入力ベクトルに応答して背景知識の表現ベクトルを出力する背景知識表現ジェネレータ層と、背景知識表現ジェネレータ層への入力ベクトルを背景知識表現ジェネレータ層の出力する背景知識の表現ベクトルを用いて更新して背景知識表現ジェネレータ層への次の入力ベクトルとする更新部とを含み、更新部は、背景知識表現ジェネレータへの先行する入力ベクトルを、先行する入力ベクトルに応答して背景知識表現ジェネレータが出力する背景知識表現ベクトルと先行する入力ベクトルとの関連度を利用して更新する。

　本発明の第２の局面に係るコンピュータプログラムは、コンピュータを、上記したいずれかの回答特定用テキスト分類器として機能させる。

　本発明の第３の局面に係る訓練装置は、質問テキストの表す質問に対する背景知識のベクトル表現を出力する背景知識表現ジェネレータを、複数の訓練用データ項目を用いて訓練する訓練装置であって、複数の訓練用データ項目は、質問テキストと、当該質問テキストに関する背景知識テキストとを含み、質問テキストと、背景知識テキストとが与えられると、背景知識テキストが表す背景知識のベクトル表現と同じ形式の本物表現ベクトルを生成する、ニューラルネットワークからなる本物表現ジェネレータと、質問テキストと、任意のテキストに対するベクトル表現を表すランダムなノイズベクトルとが与えられると、ノイズベクトルから生成した上記背景知識に関するベクトル表現と同じ形式の偽物表現ベクトルを出力する、ニューラルネットワークからなる偽物表現ジェネレータと、本物表現ベクトルと、偽物表現ベクトルとを分別するための、ニューラルネットワークからなる分別器と、分別器による分別の誤りを最小化するように本物表現ジェネレータ及び分別器を、かつ、偽物表現に対する分別器による分別の誤りを最大化するように偽物表現ジェネレータを、それぞれ敵対的学習により訓練する敵対的訓練装置とを含み、敵対的訓練装置による訓練が完了したときの偽物表現ジェネレータが訓練後の背景知識表現ジェネレータであり、実際の質問テキストと任意のテキストが入力されたときの偽物表現ジェネレータの出力が、実際の質問テキストと任意のテキストに関する背景知識の表現ベクトルとなる。

　本発明の第４の局面に係るコンピュータプログラムは、コンピュータを、上記した訓練装置として機能させる。

　この出願に係る発明の目的、構成及び効果は、以下の図面とともに発明を実施するための形態の説明を参照することにより、より明確になるであろう。

図１は、質問応答システムで利用される回答パッセージの例を示す図である。図２は、背景知識の例を示す図である。図３は、背景知識と回答パッセージとの関係を示す図である。図４は、この出願の第１実施形態に係る回答特定用テキスト分類器の構成の概略を示すブロック図である。図５は、敵対的学習を使用して質問から背景知識の表現ベクトルを作成する偽物表現ジェネレータの訓練をすることで背景知識表現ジェネレータ（Ｂａｃｋｇｒｏｕｎｄ　Ｋｎｏｗｌｅｄｇｅ　Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　Ｇｅｎｅｒａｔｏｒ：ＢＫＲＧ））を得るシステムの仕組みを説明するための模式図である。図６は、図５に示す偽物表現ジェネレータを構成するエンコーダの基本的構成を示すブロック図である。図７は、図５に示す偽物表現ジェネレータを訓練して因果関係ＢＫＲＧと道具・目的関係ＢＫＲＧを生成するＢＫＲＧ訓練システムの概略構成を示すブロック図である。図８は、図５に示すシステムによる敵対的学習を実現するプログラムのメインルーチンの制御構造を示すフローチャートである。図９は、図８に示すプログラムの中で、偽物表現ジェネレータのパラメータ学習を行うためのルーチンの制御構造を示すフローチャートである。図１０は、図４に示すＢＥＲＴの概略構成を示すブロック図である。図１１は、ＢＥＲＴトランスフォーマ層の概略構成を示すブロック図である。図１２は、知識統合トランスフォーマ層の概略構成を示すブロック図である。図１３は、図１０に示すＢＥＲＴトランスフォーマ層のうち、マルチヘッドアテンション部の概略構成を示すブロック図である。図１４は、図１３に示すヘッドの一つの構成を示すブロック図である。図１５は、なぜ型質問応答用データの統計を示す表形式の図である。図１６は、どうやって型質問応答用データの統計を示す表形式の図である。図１７は、第１の実施形態に係る回答特定用テキスト分類器の効果を示す実験結果を示す表形式の図である。図１８は、この出願の第２の実施形態に係る質問応答システムの処理過程を示す模式図である。図１９は、第２の実施形態に係る質問応答システムのテストを行うための実験データの統計を示す表形式の図である。図２０は、第２の実施形態に係る質問応答システムの効果を示す実験結果を示す表形式の図である。図２１は、この発明の各実施形態を実現するコンピュータシステムの外観を示す図である。図２２は、図２１に外観を示すコンピュータシステムのハードウェア構成を示すブロック図である。

　以下の説明及び図面では、同一の部品には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。

　［第１の実施形態］
　〔回答パッセージと背景知識〕
　図１に質問５０と回答パッセージ５２との例を示す。図１を参照して、質問５０に対して、回答パッセージ５２には例えば”The　best　way　to　prevent　seasonal　flu　is　to　get　vaccinated　every　year.”という文と、”good　health　habits　like　wearing　face　masks　and　washing　your　hands　often　can　help　stop　the　spread　of　germs.”のように、回答としてふさわしい部分が存在する。人間の場合には、予め背景知識があるため、これらの部分が質問５０に対する回答としてふさわしい記載であることが容易に分かる。しかし、そのような背景知識に基づく処理をコンピュータにさせるのは容易ではない。

　〔背景知識表現ジェネレータ〕
　なぜ型質問に対しては、因果関係が背景知識となり得る。なぜ型質問と同様になに型質問と異なる質問として、どうやって型質問がある。どうやって型質問については、道具・目的関係が背景知識となり得る。そこで、以下の実施形態では、因果関係及び道具・目的関係のような意味的関係を訓練データとして背景知識表現ジェネレータを訓練する。因果関係はなぜ型質問に対する回答を、道具・目的関係はどうやって型質問に対する回答を、それぞれ与えるための重要な背景知識となる。このような意味的関係を用いて背景知識表現ジェネレータを訓練することで、質問が与えられると、その質問に関連する部分を回答パッセージ中で特定できるようになり、質問に対する正しい回答を含むパッセージとそうでないパッセージとを高い精度で分類できる。

　背景知識表現生成器の訓練には、因果関係及び道具・目的関係の背景知識を多数収集する必要がある。これらの収集は人手でおこなってもよいが、背景知識表現ジェネレータを機械学習により訓練するためには、多数の背景知識をウェブから自動的に収集することが現実的である。その方法については後述する。

　図２は、別々のウェブ文書からそれぞれ抽出した、いずれも道具・目的関係を示す２つの文を背景知識６０の例として示す。道具・目的関係を示すこのような文と、同様に因果関係を示す文を多数準備する。これらの文を用いて、背景知識表現ジェネレータを訓練することで、なぜ型質問又はどうやって型質問が質問応答システムに入力されたときに、パッセージ群から質問応答システムが回答を含むパッセージとその注目すべき部分とを容易に見つけ出すことができるようにする。

　図３にその概念を説明する。図３を参照して、質問５０と回答パッセージ５２とが与えられたときに、質問５０を背景知識表現ジェネレータに与えると、その質問５０のための背景知識を何らかの手法で表現した背景知識表現ベクトルが得られる。その背景知識表現ベクトルと回答パッセージ５２の各文言との間の関係の大小を見ることにより、矢印７０、７２及び矢印７４により示すように、回答パッセージ５２中で注目すべき文言が特定され、これらが回答へのヒントとなる。その結果、回答特定が容易になる。しかしそのためには、背景知識表現ベクトルをどのように得るかが問題となる。そのための構成について以下に説明する。

　〔全体構成〕
　図４に、第１の実施形態に係る回答特定用テキスト分類器９０の構成をブロック図として示す。図４を参照して、回答特定用テキスト分類器９０は、質問と、その質問と対比されるパッセージとを連結した入力１００を受けるように設けられた言語表現モデルであるＢＥＲＴ（Ｂｉｄｉｒｅｃｔｉｏｎａｌ　Ｅｎｃｏｄｅｒ　Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　ｆｒｏｍ　Ｔｒａｎｓｆｏｒｍｅｒｓ）１０２を含む。ＢＥＲＴ１０２は後掲の参考文献１に記載された言語表現モデルであり、事前学習が容易でかつ性能が高いことでよく知られている。ＢＥＲＴ１０２の構成については簡単に後述する。

　ＢＥＲＴ１０２への入力は、先頭に配置された、クラス分類を表すクラストークン［ＣＬＳ］と、質問を表す単語列と、その次に配置された分離トークン［ＳＥＰ］と、分離トークンの後に配置されたパッセージを表す単語列とからなる。入力１００の長さは入力文によって変化する。そのため、この実施形態では入力１００の長さを５１２に固定し、足りない部分には所定の文字列を代入することにした。

　回答特定用テキスト分類器９０はさらに、ＢＥＲＴ１０２と並列に入力１００の入力を受け、入力１００内の質問とパッセージに対する各単語を学習済の単語埋め込みベクトルに変換し出力するためのベクトル変換部１１２と、ベクトル変換部１１２により変換された質問テキストの単語埋め込みベクトル列ｑとパッセージテキストの単語埋め込みベクトル列ｐを受け、各層から、質問に関する背景知識表現のベクトル群１１６を出力する複数層のＢＫＲＧ層を含むＢＫＲＧ１１４と、ＢＥＲＴ１０２の出力の後に設けられ、ＢＥＲＴ１０２の出力に対し背景知識表現のベクトル群１１６をアテンションとして用いた言語処理を行って、最終的に入力１００のパッセージが質問に対する回答を含むか否かを示すラベル１０８、及びパッセージ中でその回答となる部分の開始／終了位置１１０を含む出力１０６を出力する、ＢＫＲＧ１１４と同じ層数の複数のＫＩ（ＫｎｏｗｌｅｄｇｅＩｎｔｅｇｒａｔｉｏｎ：知識統合）トランスフォーマ層を含むＫＩトランスフォーマ１０４とを含む。ＫＩトランスフォーマ層は、特許文献２に記載されたトランスフォーマと呼ばれる言語モデルのエンコーダブロックに基づくものであり、背景知識に基づいて回答を抽出するために、図１１を参照して後述するように改造したものである。

　〔ＢＫＲＧ１１４〕
　ＢＫＲＧ１１４は、図４の例では、Ｎ層のＢＫＲＧ層１５０、１５４、…、１５８と、これらＮ層のＢＫＲＧ層１５０等のうち、最上層のＢＫＲＧ層１５８以外の各層に対応して設けられ、対応するＢＫＲＧ層１５０等への入力に対する更新処理を行って次の層のＢＫＲＧ層１５４等に与えるためのＮ－１個の更新部１５２、１５６、…とを含む。第１層の更新部１５２には、ベクトル変換部１１２の出力する質問とパッセージとの単語埋め込みベクトル列（ｑ^１，ｐ^１）が入力される。更新部１５２はこのベクトル列（ｑ^１，ｐ^１）に対し所定の更新処理を行い更新後のベクトル列（ｑ^２，ｐ^２）を出力する。以下同様で、最終段のＢＫＲＧ層１５８にはベクトル列（ｑ^Ｎ，ｐ^Ｎ）が与えられる。ＢＫＲＧ層１５０、１５４、…、１５８の出力は、背景知識表現のベクトル群１１６を構成するベクトルｒ^１、ｒ^２、…、ｒ^Ｎである。ＢＫＲＧ層１５０、１５４、…、１５８等は後述するように予め訓練されている。回答特定用テキスト分類器９０も全体として訓練されるが、その際にはＢＫＲＧ層１５０、１５４、…、１５８等のパラメータはいずれも固定され、互いに同一である。したがってＢＫＲＧ層１５４、…、１５８は訓練済のＢＫＲＧ層１５０をコピーして作成してもよいし、ＢＫＲＧ層１５０をＢＫＲＧ層１５４、…、１５８として繰り返し用いてもよい。

　なお、ＢＫＲＧ層１５０、１５４、…、１５８の出力する背景知識表現のベクトル群１１６は、これらＢＫＲＧ層から出力されるベクトルｒ^１、ｒ^２、…、ｒ^Ｎを含む。

　〔ＫＩトランスフォーマ１０４〕
　ＫＩトランスフォーマ１０４は、ＢＫＲＧ１１４と同様、Ｎ個のＫＩトランスフォーマ層１３０、１３２、…、１３４を含む。具体的には、ＫＩトランスフォーマ１０４は、ＢＥＲＴ１０２の出力と、ＢＫＲＧ１１４で同じ層のＢＫＲＧ層１５０からのベクトルｒ^１とを受けるＫＩトランスフォーマ層１３０と、ＫＩトランスフォーマ層１３０の出力とＢＫＲＧ層１５４からのベクトルｒ^２とを受けるＫＩトランスフォーマ層１３２と、以下同様に、それぞれ直下の層のＫＩトランスフォーマ層の出力とＢＫＲＧ１１４で同じ層のＢＫＲＧ層からのベクトルｒを受けるように接続された１または複数の図示しないＫＩトランスフォーマ層とを含む。最上層の第Ｎ層のＫＩトランスフォーマ層は、下層の第Ｎ－１層のＫＩトランスフォーマ層（図示せず）からの出力と、第Ｎ層のＢＫＲＧ層１５８の出力するベクトルｒ^Ｎとを受け、出力１０６を出力するＫＩトランスフォーマ層１３４である。

　以下、回答特定用テキスト分類器９０の各部について説明する。

　〔ＢＫＲＧ〕
　ＢＫＲＧ層１５０、１５４、…、１５８はいずれも同一の構成を持ち、そのパラメータも同一である。実際上、ＢＫＲＧ層１５０の訓練をした後、ＢＫＲＧ層１５４、…、１５８についてはＢＫＲＧ層１５０をコピーするか、又はＢＫＲＧ層１５０を繰り返し用いて計算すればよい。したがってＢＫＲＧ層１５０のみについて、以下でその構成及び訓練方法について説明する。ＫＩトランスフォーマ層１３０への入力とすべきことから考えると、背景知識は何らかのベクトル形式であることが望ましいことは分かる。しかし、背景知識をベクトルで表現するとして、いったいどのような内容をどのような形式で表現すればよいか特定するための手がかりはないに等しい。

　ここで、コンピュータによる自動処理で背景知識表現をベクトル形式で作成できる可能性がある技術として、参考文献２に記載された敵対的学習（Ｇｅｎｅｒａｔｉｖｅ　Ａｄｖｅｒｓａｒｉａｌ　Ｎｅｔｗｏｒｋ：ＧＡＮ）という機械学習技術がある。ＧＡＮは特に画像の生成に適用されることが多く、例えば写真とほとんど区別できないような偽の画像（偽物）を生成したりできる。この実施形態のような質問応答処理においても、背景知識の生成に威力を発揮する可能性がある。本実施形態でも、ＧＡＮを利用してＢＫＲＧ層１５０を訓練することを試みる。

　《ＢＫＲＧ層１５０の訓練》
　図５に、ＧＡＮによりＢＫＲＧ層１５０の訓練を行うための基本的構成を示す。図５を参照して、このＧＡＮ１８０は、予め準備された、各々が質問１９０とその質問に関する背景知識１９２とを含む訓練データ項目を用い、質問１９０と背景知識１９２とから、本物表現１９６と呼ばれるベクトル表現を生成する本物表現ジェネレータ１９４と、任意のテキストを表すノイズ１９８をサンプリングし、サンプリングしたノイズから偽物表現と呼ばれる偽物表現２０２を生成する偽物表現ジェネレータ２００と、本物表現１９６又は偽物表現２０２の入力を受けて、それらが本物か偽物かを分別し分別結果２０６を出力するための分別器２０４とを含む。本物表現ジェネレータ１９４、偽物表現ジェネレータ２００及び分別器２０４は、いずれもニューラルネットワークである。

　本物表現ジェネレータ１９４及び偽物表現ジェネレータ２００はいずれもエンコーダと呼ばれる同様の構造を持つ。したがって偽物表現ジェネレータ２００の構造のみについて以下に説明する。図６を参照して、偽物表現ジェネレータ２００は、ノイズ１９８を受けてノイズの単語埋め込みベクトル列２２６に変換する単語埋め込みベクトル変換部２２４と、質問１９０を受け、質問１９０を構成する各単語を単語ベクトルに変換して質問の単語埋め込みベクトル列２２２を出力する単語埋め込みベクトル変換部２２０とを含む。

　偽物表現ジェネレータ２００はさらに、ノイズの単語埋め込みベクトル列２２６の各ベクトルに対して、質問の単語埋め込みベクトル列２２２からのアテンションを加算しアテンションにより修飾されたアテンション付き単語埋め込みベクトル列２３０を出力するアテンション加算部２２８と、アテンション付き単語埋め込みベクトル列２３０を受ける入力を持ち、質問１９０のベクトル表現である偽物表現２０２を出力するよう訓練されるＣＮＮ２３２とを含む。

　図５に示す本物表現ジェネレータ１９４も、ＣＮＮ２３２を含めて偽物表現ジェネレータ２００と同様の構成を持つ。エンコードの対象となるものがノイズ１９８ではなく背景知識１９２であるという点で本物表現ジェネレータ１９４は偽物表現ジェネレータ２００と異なっている。

　図５に示す分別器２０４は、最終層にシグモイド関数を活性化関数とするロジスティック回帰層を持つフィードフォワードネットワークである。分別器２０４へは本物表現１９６又は偽物表現２０２が入力される。分別器２０４の出力は２つであり、例えば、入力が本物表現１９６であると判定したときには一方が真で他方が偽、入力が偽物表現２０２であると判定したときには一方が偽で他方が真となるように訓練される。

　本物表現ジェネレータ１９４及び分別器２０４は本物表現１９６が偽物表現２０２と区別できるように（分別の誤りを最小化するように）、偽物表現ジェネレータ２００は偽物表現２０２が本物表現１９６と区別できなくなるように（偽物表現２０２に対する分別器２０４の分別の誤りを最大化するように）、これら３つのネットワークが敵対的学習により訓練される。すなわち、これら３つのネットワークが、以下の式にしたがって訓練される。

ただし、ｂは背景知識、ｑは質問、ｚはノイズ、Ｄは分別器２０４、Ｆは偽物表現ジェネレータ２００、Ｒは本物表現ジェネレータ１９４、Ｒ（ｂ；ｑ）は背景知識ｂと質問ｑが与えられたときの本物表現ジェネレータ１９４の出力（本物表現１９６）、Ｆ（ｚ；ｑ）はノイズｚと質問ｑが与えられたときの偽物表現ジェネレータ２００の出力（偽物表現２０２）、ｄ_ｂは背景知識ｂがしたがう分布、ｄ_ｚはノイズｚがしたがう分布、Ｅは期待値、をそれぞれ表す。

　最終的に分別器２０４の判定が５０％となった時点、又は、指定の繰返し回数の学習が終了した時点で偽物表現ジェネレータ２００の訓練を終了する。これはゲーム理論に基づくものであって、最終的にはナッシュ均衡に達し、分別器２０４が分別を正しく行う確率は５０％となる。こうして訓練された偽物表現ジェネレータ２００を用いて質問１９０とノイズとから偽物表現２０２を生成すれば、その偽物表現２０２は質問１９０と背景知識１９２とから本物表現ジェネレータ１９４が生成した本物表現１９６と区別ができないようなものとなる。

　すなわち、質問と任意のテキストが偽物表現ジェネレータ２００に与えられたとして、偽物表現ジェネレータ２００の出力は、あたかも質問とともに背景知識も偽物表現ジェネレータ２００に与えられたかのような表現を出力する。この出力はもはや偽物表現と呼ぶのはふさわしくないので、以下では背景知識表現ベクトルとよぶ。また訓練が終了した後の偽物表現ジェネレータ２００についても背景知識表現生成器（ＢＫＲＧ）と呼ぶ。なお、背景知識表現ベクトルの要素数は、訓練データから得られるこれらベクトルの要素数の最大数となるように予め決定する。

　後述するようにこのような工夫をして得た背景知識表現生成器を用いてパッセージが質問に対する正しい回答を与えるものか否かを判定したところ、従来と比較して明らかに高い精度が得られることがわかった。

　ＧＡＮ１８０による訓練は、コンピュータハードウェアとそのコンピュータハードウェアにより実行されるコンピュータプログラム（以下「プログラム」という。）とにより実現される。その訓練のためには訓練用データを準備する必要がある。この実施形態では、なぜ型質問とどうやって型質問との双方のタイプの質問に対して回答可能な質問応答システムを提供する。そのためには、因果関係ＢＫＲＧと道具・目的関係ＢＫＲＧの２つのＢＫＲＧを用意する必要がある。この実施形態では、これらの出力を連結して一つのＢＫＲＧの出力とする。

　因果関係ＢＫＲＧを訓練するためには因果関係を、道具・目的関係ＢＫＲＧを訓練するためには道具・目的関係を、それぞれ収集する必要がある。訓練用データの収集及びＢＫＲＧの訓練を行うための訓練システムの概略構成を図７に示す。

　図７を参照して、このＢＫＲＧ訓練システム２４０は、インターネット２５０から因果関係を表すテキストを大量に収集し、それらを用いて因果関係ＢＫＲＧ２５６の訓練を行う因果関係ＢＫＲＧ訓練部２５２と、インターネット２５０から道具・目的関係を表すテキストを大量に収集し、それらを用いて道具・目的関係ＢＫＲＧ２５８の訓練を行う道具・目的関係ＢＫＲＧ訓練部２５４とを含む。

　因果関係ＢＫＲＧ訓練部２５２は、インターネット２５０から因果関係を表すテキストを抽出する因果関係抽出部２７０と、因果関係抽出部２７０により抽出されたテキストを記憶する因果関係記憶装置２７２と、因果関係記憶装置２７２に記憶された因果関係の各々から質問部と背景知識部とを抽出して組み合わせることにより因果関係ＢＫＲＧ２５６の学習データを生成するための因果関係学習データ生成部２７４と、このようにして生成された学習データを記憶するための因果関係学習データ記憶装置２７６と、因果関係学習データ記憶装置２７６に記憶された因果関係から得られた学習データを用いた敵対的学習により因果関係ＢＫＲＧ２５６の訓練を行うための因果関係ＢＫＲＧ訓練部２７８とを含む。

　因果関係学習データ生成部２７４は因果関係から以下のようにして学習データを生成する。因果関係は、原因部と結果を表す帰結部とからなる。その帰結部を質問部とし、原因部を背景知識部とする。例えば因果関係として「大部分の人は新型インフルエンザウィルスに対する抗体を持っていないので（原因部）、グローバルなパンデミックとそれに伴う社会的インパクトが生じ得る（帰結部）」を考える。この場合、帰結部から得られる「グローバルなパンデミックとそれに伴う社会的インパクトが生じ得るのはなぜ？」という問いが質問部となり、原因部の「大部分の人は新型インフルエンザウィルスに対する抗体を持っていないので」が背景知識部となる。

　道具・目的関係ＢＫＲＧ訓練部２５４は、インターネット２５０から道具・目的関係を表すテキストを抽出する道具・目的関係抽出部２８０と、道具・目的関係抽出部２８０により抽出されたテキストを記憶する道具・目的関係記憶装置２８２と、道具・目的関係記憶装置２８２に記憶された関係の各々から質問部と背景知識部とを抽出して組み合わせることにより道具・目的関係ＢＫＲＧ２５８の学習データを生成するための道具・目的関係学習データ生成部２８４と、このようにして生成された学習データを記憶するための道具・目的関係学習データ記憶装置２８６と、道具・目的関係学習データ記憶装置２８６に記憶された道具・目的関係から得られた学習データを用いた敵対的学習により道具・目的関係ＢＫＲＧ２５８の訓練を行うための道具・目的関係ＢＫＲＧ訓練部２８８とを含む。

　道具・目的関係学習データ生成部２８４は道具・目的関係から以下のようにして学習データを生成する。道具・目的関係は、道具部と目的部とからなる。その目的部を質問部とし、道具部を背景知識部とする。例えば道具・目的関係として「混んだ場所に行くときには、インフルエンザの感染を防ぐために（目的部）、マスクを着用（道具部）しなければならない」を考える。この場合、目的部から得られる「混んだ場所にいくときには、インフルエンザの感染を防ぐためにどうする？」という問いが質問部となり、道具部の「マスクを着用」が背景知識部となる。

　この実施形態では、このように因果関係ＢＫＲＧ２５６と道具・目的関係ＢＫＲＧ２５８とを別々に訓練する。テスト時には同じ質問から因果関係ＢＫＲＧ２５６と道具・目的関係ＢＫＲＧ２５８の双方に同じ質問を与え、これらから得られたベクトルを連結して背景知識表現ベクトルとする。すなわち、因果関係ＢＫＲＧ２５６と道具・目的関係ＢＫＲＧ２５８とを並べたものを一つのＢＫＲＧとする。

　図８は、ＧＡＮ１８０による訓練を実現するプログラムの制御構造を示すフローチャートである。図７に示す因果関係ＢＫＲＧ２５６及び道具・目的関係ＢＫＲＧ２５８は別々に訓練できる。ここでは因果関係ＢＫＲＧ２５６についてその訓練を実現するプログラムを説明するが、道具・目的関係ＢＫＲＧ２５８を訓練する場合も同様のプログラムを用いればよい。

　図８を参照して、このプログラムは、コンピュータを図７に示す因果関係学習データ記憶装置２７６と通信可能に接続するステップ３００と、図５に示す偽物表現ジェネレータ２００、本物表現ジェネレータ１９４、及び分別器２０４の訓練を、本物表現ジェネレータ１９４及び分別器２０４、並びに偽物表現ジェネレータ２００の間の敵対的学習により行うステップ３０４と、ステップ３０４の結果、訓練の終了条件が充足されたか否かを判定し、判定結果に応じて制御の流れを分岐させるステップ３０６と、ステップ３０６において終了条件が成立していると判定されたことに応答して、そのときの偽物表現ジェネレータ２００のパラメータを所定の記憶装置に保存しこのプログラムの実行を終了するステップ３０８とを含む。ステップ３０６の判定が否定のときには制御はステップ３０４に戻る。したがって、終了条件が充足されるまでステップ３０４が繰返される。ステップ３０８ではユーザがパラメータのファイル名及び保存箇所を指定できるようにしてもよい。

　図９を参照して、図８のステップ３０４における敵対的学習を実現するプログラムは、質問と、その質問に対応する背景知識との組み合わせからなる複数のサンプルを訓練データからサンプリングするステップ３２０、偽物表現ジェネレータ２００のパラメータを固定するステップ３２２、３２０でサンプリングされたサンプルの質問及び背景知識を用いて、本物表現ジェネレータ１９４により生成される本物表現１９６を偽物と、偽物表現ジェネレータ２００により生成される偽物表現２０２を本物と、それぞれ分別器２０４が誤って分別する確率を最小化するように本物表現ジェネレータ１９４及び分別器２０４の訓練を行うステップ３２４に続き、分別器２０４及び本物表現ジェネレータ１９４のパラメータを固定するステップ３２６、及び、質問１９０及びノイズから偽物表現ジェネレータ２００により偽物表現２０２を生成し、これら偽物表現２０２を分別器２０４が誤って本物表現と判定する確率を最大化するよう偽物表現ジェネレータ２００のパラメータの学習を行うステップ３２８を含む。

　《ＢＥＲＴ１０２》
　図１０に、ＢＥＲＴ１０２の概略構成を示す。ＢＥＲＴは、事前学習が容易に行え、さらにファインチューニングを行うことによって非常に高い精度で例えば翻訳を行ったり、質問応答のための関連部分の抽出を行ったりする言語表現モデルとして機能することが知られている。

　ＢＥＲＴ１０２は、互いに同じ構成で直列に配列された複数のＢＥＲＴトランスフォーマ層６０２、６０４、…、６０６を含む。これらはいずれもＫＩトランスフォーマ層１３０等と同様、トランスフォーマのエンコーダブロックと同様の構成を持ち、ＫＩトランスフォーマ層１３０等とはごく一部の構成が異なるだけである。ここではＫＩトランスフォーマ層と区別する意味でＢＥＲＴトランスフォーマ層と呼ぶ。

　ＢＥＲＴトランスフォーマ層６０２は入力単語埋め込みベクトル列６００を入力とし、ＢＥＲＴトランスフォーマ層６０４はＢＥＲＴトランスフォーマ層６０２の出力を入力とし、以下同様である。最終のＢＥＲＴトランスフォーマ層６０６の出力する単語列６０８はＫＩトランスフォーマ１０４への入力となる。なお、図１０では入力単語埋め込みベクトル列６００が一括してＢＥＲＴ１０２に与えられるように記載されている。しかし実際には、入力単語埋め込みベクトル列６００を構成する入力単語埋め込みベクトルが順番にＢＥＲＴ１０２に入力され、単語列６０８も順番に出力される。

　これら複数のＢＥＲＴトランスフォーマ層６０２、６０４、…、６０６は同じ構成だが、ＢＥＲＴ１０２の事前学習及びファインチューニングによりパラメータの値は互いに異なる。各サブネットワークへの入力及びその出力は一定長のベクトル、例えば５１２次元のベクトルである。このベクトルの長さは、処理対象となる最長の入力文の単語数より多くなるように選ばれる。

　以下の説明では、ＢＥＲＴ１０２は既に日本語での事前学習がされているものとする。また図４に示す回答特定用テキスト分類器９０は全体として一つのニューラルネットワークを構成している。回答特定用テキスト分類器９０の全体のファインチューニングは、予め人手等で作成した、質問と回答候補パッセージとの対と、その回答候補パッセージが質問に対する回答を含むか否かを示すラベル、及びその回答部分の開始位置と終了位置とを示すラベルを一組とした訓練データを用い、通常の誤差逆伝播法によりＢＥＲＴ１０２、ＫＩトランスフォーマ１０４、ＢＫＲＧ１１４の更新部の学習を行う。なおこのファインチューニングに先立ってＢＫＲＧ層１５０、１５４、…、１５８等の訓練は済ませておき、ファインチューニングの間はＢＫＲＧ層１５０、１５４、…、１５８のパラメータの値は固定する。

　《トランスフォーマの構成》
　図４に示すＢＥＲＴ１０２及びＫＩトランスフォーマ１０４は、前述したとおり、トランスフォーマと呼ばれる自然言語の言語モデルとしてよく使用される高性能なニューラルネットワークモデルのエンコーダブロックを基本ブロックとして用いている（図４のＫＩトランスフォーマ層１３０、１３２、…、１３４及び図１０のＢＥＲＴトランスフォーマ層６０２、６０４、…、６０６）。図１１にＢＥＲＴトランスフォーマ層の構成の概略を示し、図１２にＫＩトランスフォーマ層の構成の概略を示す。

　図１１と図１２を参照して、ＢＥＲＴトランスフォーマ層とＫＩトランスフォーマ層とは互いにほとんど同一であり、一部が異なるだけである。

　図示されてはいないが、例えばＢＥＲＴ１０２の入力段には、入力文中の各単語を、数値を要素とする単語埋め込みベクトルに変換することで入力文を単語埋め込みベクトル列に変換する単語変換部と、単語変換部の出力する単語埋め込みベクトル列内の各単語埋め込みベクトルに対して、対応する単語の入力文内の位置を示す位置情報をエンコードする位置エンコーダとが設けられる。このように位置情報をエンコードすることで、トランスフォーマでは、入力される単語列の順番を、ＲＮＮ（Ｒｅｃｕｒｒｅｎｔ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）又はＣＮＮを使用せずに利用して単語列をエンコードできる。

　ＢＥＲＴトランスフォーマ層６０２の出力は、ＢＥＲＴトランスフォーマ層６０４への入力となり、以下同様である。ＢＥＲＴ１０２の最終のＢＥＲＴトランスフォーマ層６０６の出力が、ＫＩトランスフォーマ１０４のＫＩトランスフォーマ層１３０の入力となるようにＢＥＲＴ１０２とＫＩトランスフォーマ１０４とが接続されている。また、図４には、示されていないが、ＫＩトランスフォーマ１０４の出力段には、線形変換サブネットワークとＳｏｆｔＭａｘ層とがこの順に設けられる。ＳｏｆｔＭａｘ層が各出力単語の確率を与える。

　ＢＥＲＴトランスフォーマ層６０２は、単語埋め込みベクトル列である入力３４０を受けて入力３４０をセルフアテンション付きのベクトル表現にエンコードする。単語埋め込みベクトル列は、同じ構成の単語埋め込みベクトルが複数個連なったものであり、見方によっては単語埋め込みベクトル行列と考えることもできる。トランスフォーマでは、複数の単語について得られるベクトル列からなる行列間の演算が重要な機能を果たす。なお、セルフアテンションとは、入力３４０に対する同じ入力３４０によるアテンションを意味し、例えば、入力３４０の特定の単語に対するセルフアテンションは、入力３４０の他の全ての単語らからのアテンションを用いて算出する。

　図１１に示されるように、ＢＥＲＴトランスフォーマ層６０２は二層構造からなるエンコーダサブネットワーク４３６を含む。エンコーダサブネットワーク４３６は、入力３４０を受ける第１層サブネットワーク４４０と、第１層サブネットワーク４４０の出力を受け、ＢＥＲＴトランスフォーマ層６０２の出力を生成する第２層サブネットワーク４４２とを含む。

　第１層サブネットワーク４４０は、単語埋め込みベクトル列３４０を受け、これらの単語埋め込みベクトル列３４０を用いて、入力される各単語埋め込みベクトルについて、その対応する単語に関するセルフアテンションを算出し、それらアテンションからなるアテンションベクトル列を出力するマルチヘッドアテンションサブネットワーク４５０と、マルチヘッドアテンションサブネットワーク４５０の出力するアテンションベクトル列内の各アテンションベクトルに、マルチヘッドアテンションサブネットワーク４５０の入力である単語埋め込みベクトル列内の対応する単語埋め込みベクトルを加算した後、レイヤノーマライゼーションを行うＡＤＤ　＆　Ｎｏｒｍサブネットワーク４５２とを含む。マルチヘッドアテンションサブネットワーク４５０は、ＢＥＲＴトランスフォーマ層６０２への入力である単語埋め込みベクトル列からなる行列を３つに分岐させて用いる。これら３つの入力は、図１１において、左から順番にＶ（ｖａｌｕｅ）、Ｋ（Ｋｅｙ）、及びＱ（Ｑｕｅｒｙ）と呼ばれる。マルチヘッドアテンションサブネットワーク４５０の詳細については図１３を参照して後述する。

　第２層サブネットワーク４４２は、ＡＤＤ　＆　Ｎｏｒｍサブネットワーク４５２の出力する、各単語位置に対応して設けられた全結合フィードフォワードネットワークを含む全結合サブネットワーク４６０と、全結合サブネットワーク４６０の出力に対しＡＤＤ　＆　Ｎｏｒｍサブネットワーク４５２と同様の処理を行うＡＤＤ　＆　Ｎｏｒｍサブネットワーク４６２とを含む。ＡＤＤ　＆　Ｎｏｒｍサブネットワーク４６２の出力はＢＥＲＴトランスフォーマ層６０２への入力と同じ長さの単語埋め込みベクトル列である。

　前記したように単語埋め込みベクトル列は単語埋め込みベクトルを各行とする行列と考えることができる。したがって、実際には、ＢＥＲＴトランスフォーマ層６０２における各演算は行列演算として実行される。

　図１２に示す、ＫＩトランスフォーマ層１３０は、ＢＥＲＴトランスフォーマ層６０２等と同じ構成を持つ。しかし、ＢＥＲＴトランスフォーマ層６０２等では前段の入力を分岐して得た行列Ｑを用いるのに代えて、ＫＩトランスフォーマ層１３０と対応する（同じ）層のＢＫＲＧ層（例えば図１に示すＢＫＲＧ層１５０）から出力される背景知識表現ベクトルｒを用いる点でＢＥＲＴトランスフォーマ層６０２と異なる。Ｖ及びＫについては、ＢＥＲＴトランスフォーマ層６０２と同様、前段の出力を分岐して用いる。

　具体的には、図１２を参照して、ＫＩトランスフォーマ層１３０は、二層構造からなるエンコーダサブネットワーク４７６を含む。エンコーダサブネットワーク４７６は、ＢＥＲＴトランスフォーマ層６０２のエンコーダサブネットワーク４３６と同様、第１層サブネットワーク４９２と第２層サブネットワーク４９４とを含む。

　第１層サブネットワーク４９２は、前段（ＫＩトランスフォーマ層１３０の場合は、ＢＥＲＴ１０２の出力）から受ける単語埋め込みベクトル列を順に受け、これらの単語埋め込みベクトル列を用いて、入力される各単語埋め込みベクトルについて、その対応する単語に関する背景知識表現ベクトルを用いてアテンションを算出し、それらアテンションからなるアテンションベクトル列を出力するマルチヘッドアテンションサブネットワーク５１０と、マルチヘッドアテンションサブネットワーク５１０の出力するアテンションベクトル列内の各アテンションベクトルに、マルチヘッドアテンションサブネットワーク５１０の入力である単語埋め込みベクトル列内の対応する単語埋め込みベクトルを加算した後、レイヤノーマライゼーションを行うＡＤＤ　＆　Ｎｏｒｍサブネットワーク５１２とを含む。ＢＥＲＴトランスフォーマ層６０２の場合と異なり、マルチヘッドアテンションサブネットワーク５１０は、前段からの入力である行列をＶ及びＫの２つに分岐させて用いる。一方、マルチヘッドアテンションサブネットワーク５１０に入力されるＱは、同じ層のＢＫＲＧ層１５０（図４）から与えられるｒ^１である。ただし、Ｑは行列（ベクトル列）であるのに対し、ｒ^１はベクトルである。そのためこのままでは構成で所望の演算を行うことができない。したがって、この実施形態では後述するようにベクトルｒ^１等をＱと同形式の行列に変換する。

　第２層サブネットワーク４９４は、ＡＤＤ　＆　Ｎｏｒｍサブネットワーク５１２の出力する、各単語位置に対応して設けられた全結合フィードフォワードネットワークを含む全結合サブネットワーク５２０と、全結合サブネットワーク５２０の出力に対しＡＤＤ　＆　Ｎｏｒｍサブネットワーク４６２と同様の処理を行うＡＤＤ　＆　Ｎｏｒｍサブネットワーク５２２とを含む。ＡＤＤ　＆　Ｎｏｒｍサブネットワーク５２２の出力はＢＥＲＴトランスフォーマ層６０２への入力と同じ長さの単語埋め込みベクトル列であって、ＫＩトランスフォーマ層１３２（図４を参照）への入力となる。

　図１３は、図１１に示すマルチヘッドアテンションサブネットワーク４５０の、一般的なトランスフォーマでの概略構成を示す。図１２に示すマルチヘッドアテンションサブネットワーク５１０も行列Ｑに代えてベクトルｒを使用する点、下記の数２及び数３で示す計算処理の違いはあるが、類似の構成である。

　図１３を参照して、マルチヘッドアテンションサブネットワーク４５０は、複数のヘッダと呼ばれる部分を含むヘッダ部５４０と、ヘッダ部５４０の複数のヘッダからそれぞれ出力されるベクトルを連結するベクトル連結部５４２と、ベクトル連結部５４２の出力に対して線形変換を行う線形変換サブネットワーク５４４とを含む。

　ヘッダ部５４０は、複数（ｈ個）のヘッダ５５０と、各ヘッダ５５０に対して、下層からの入力であるベクトル列を分岐した３つの入力を受け、それらに対して予め各要素の値を学習した行列による線形変換を行って３個の行列Ｖ、Ｋ及びＱを生成しヘッダ５５０のｈ個のヘッダの各々に与えるための３つの線形変換サブネットワーク５５２とを含む。なお、図１２に示すＫＩトランスフォーマ層１３０等ではＱに代えて背景知識表現ベクトルｒを後述するように行列化したものを用いる。

　図１４を参照して、ヘッダ５５０は、行列Ｑとの行列Ｋとの間で乗算を行う行列積サブネットワーク５６０と、行列積サブネットワーク５６０により得られる行列を、所定の定数で除算する除算回路５６２とを含む。ヘッダ５５０はさらに、除算回路５６２によりスケーリングされた行列に対しＳｏｆｔＭａｘ変換を行うＳｏｆｔＭａｘ層５６６と、ＳｏｆｔＭａｘ層５６６によるＳｏｆｔＭａｘ後の行列と線形変換後の行列Ｖとの間で乗算を行う行列積サブネットワーク５６８とを含む。

　以上の変換は、上記したとおりベクトル及び行列演算の形式で行われる。これを式で表すと以下のとおりである。ただしｄ_ｋは線形変換後の行列Ｋの行数の平方根である。行列Ｋの行数が６４であればｄ_ｋ＝８である。

　ｈ個のヘッダ５５０の行列積サブネットワーク５６８から得られる行列はベクトル連結部５４２により連結される。ｈ個のヘッダ５５０の構成は同じだが、これらは学習時にそれぞれランダムに初期化される。その結果、学習後のこれらのパラメータは互いに異なっており、ｈ個のヘッダ５５０からはそれぞれ異なる結果が得られる。

　なお、図１２に示すＫＩトランスフォーマ層１３０等のマルチヘッドアテンションサブネットワーク５１０では、以下の式により、ベクトルｒをＱと同形式の行列に変換して上記した演算を行う。

ただしＪ_１，ｄｋは、全要素が１のｄ_ｋ次元のベクトルであり、右辺のＶの直前の記号は行列の要素ごとの乗算（アダマール積）を表す。ＳｏｆｔＭａｘ演算は対応するトークンにどの程度注意すべきかを示す値を全体の合計が１となるように変換する。ｒはｄ_ｋ次元のベクトルである必要があるが、実際のＢＫＲＧの出力ベクトルｒ_ＢＫＲＧがｄ_ｋ次元に満たない場合もある。その場合には以下の式にしたがった演算によりベクトルｒＢＫＲＧをｄｋ次元のベクトルｒに変換する。

　なお、ＢＥＲＴには、ＢＥＲＴ_ＢＡＳＥと呼ばれる基本的な構成と、ＢＥＲ_{ＴＬＡＲＧＥ}と呼ばれるより大規模な構成との２種類がある。層数をＬ、ヘッダ数をＡ、フィードフォワードネットワークの隠れユニット数をＨとすると、ＢＥＲＴ_{ＬＡＲＧＥ}ではＬ＝２４、Ｈ＝１０２４、Ａ＝１６、ＢＥＲＴ_ＢＡＳＥではＬ＝１２、Ｈ＝７６８、Ａ＝１２である。この実施形態及び後述する実験でのＢＥＲＴ１０２としては、ＢＥＲＴ_{ＬＡＲＧＥ}を用いている。

　《更新部》
　図４に示す更新部１５２、１５６、…は全体のニューラルネットワークの一部であり、互いに同じ構成を持つ。例えば更新部１５２は、入力された質問とパッセージの単語埋め込みベクトル列（ｑ^１、ｐ^１）を受ける。この単語埋め込みベクトル列は、質問とパッセージの各単語について予め学習した埋め込みベクトル化を行って、それぞれ得られたベクトルを連結することで得られる。ＢＫＲＧ層１５０はこのベクトル列（ｑ^１、ｐ^１）に応答し、これを処理して質問ｑ^１に関する背景知識ベクトルｒ^１を生成してＫＩトランスフォーマ層１３０への入力とする。更新部１５２は、このとき、この背景知識ベクトルｒ^１とＢＫＲＧ層１５０への入力であったベクトル列（ｑ^１、ｐ^１）との関連度を用いてベクトル列（ｑ^１、ｐ^１）を更新してベクトル列（ｑ^２，ｐ^２）を生成し、次のＢＫＲＧ層であるＢＫＲＧ層１５４及び更新部１５６に与える。ＢＫＲＧ層１５４はこのベクトル列（ｑ^２，ｐ^２）に応答しこれを処理して新たな背景知識ベクトルｒ^２を生成し、ＫＩトランスフォーマ層１３２への入力とする。更新部１５６は背景知識ベクトルｒ^２とベクトル列（ｑ^２，ｐ^２）との関連度を用いてベクトル列（ｑ^２，ｐ^２）を更新してベクトル列（ｑ^３，ｐ^３）を生成し、次のＢＫＲＧ層への入力とする。以下同様である。

　一般的にベクトル列ｑ^ｉ又はｐ^ｉのｊ番目の単語の単語埋め込みベクトルをｘ^ｉ _ｊ（ｘ＝ｑ又はｐ）とすると、以下の式により示すように、ｉ番目のＢＫＲＧ層で算出された背景知識ベクトルｒ^ｉに対するその単語の関連度を計算することで、この関連度で重み付けされた単語埋め込みベクトル￣ｘ^ｉ _ｊが得られる。

　この結果、背景知識ベクトルｒ^ｉとの関連度により各ベクトルが重み付けされたベクトル列￣ｘ^ｉ（重み付けされたベクトル列ｑ^ｉ又はｐ^ｉ）が得られる。

　ｘ^ｉ＋１（ｘ^ｉ＋１はｑ^ｉ＋１又はｐ^ｉ＋１のいずれか）は以下のように￣ｘ^ｉ及びｘ^ｉを用いてハイウェイネットワーク形式（参考文献３）で計算される。

　こうして更新された後のベクトル列（ｑ^ｉ＋１，ｐ^ｉ＋１）がｉ＋１番目のＢＫＲＧ層への入力となる。

　〔動作〕
　以上、構成について説明した回答特定用テキスト分類器９０は以下のように動作する。　以下の説明では、ＢＥＲＴ１０２は既に日本語での事前学習がされているものとする。また図４に示す回答特定用テキスト分類器９０の全体のファインチューニングは、前述したとおり、予め人手等で作成した、質問とパッセージとの対と、そのパッセージが質問に対する回答を含むか否かを示すラベル、並びにその回答部分の開始位置と終了位置とを示すラベルを一組とした訓練データを用い、通常の誤差逆伝播法により行う。なおこのファインチューニングに先立ってＢＫＲＧ層１５０、１５４、…、１５８等の訓練を済ませておき、ファインチューニングの間はＢＫＲＧ層１５０、１５４、…、１５８のパラメータの値は固定する。

　《偽物表現ジェネレータ２００の学習》
　最初に、図８にしたがい、図５に示す偽物表現ジェネレータ２００の学習について説明する。偽物表現ジェネレータ２００は、図５に示す本物表現ジェネレータ１９４及び分別器２０４と併せて敵対的学習により訓練される。この訓練に先立ち、図７に示す因果関係抽出部２７０及び道具・目的関係抽出部２８０により、インターネット２５０から因果関係及び道具・目的関係を示すテキストが収集され、それぞれ因果関係記憶装置２７２及び道具・目的関係記憶装置２８２に記憶される。因果関係学習データ生成部２７４及び道具・目的関係学習データ生成部２８４が、それぞれ因果関係記憶装置２７２及び道具・目的関係記憶装置２８２に記憶された因果関係のテキストと道具・目的関係のテキストとから、それぞれ因果関係学習データと道具・目的関係学習データとを生成し、それぞれ因果関係学習データ記憶装置２７６及び道具・目的関係学習データ記憶装置２８６に格納する。

　因果関係ＢＫＲＧ訓練部２７８が、因果関係学習データ記憶装置２７６に記憶された因果関係学習データを用いて因果関係ＢＫＲＧ２５６の訓練を行い、道具・目的関係ＢＫＲＧ訓練部２８８が道具・目的関係学習データ記憶装置２８６に記憶された道具・目的学習データを用いて道具・目的関係ＢＫＲＧ２５８の訓練をする。

　因果関係ＢＫＲＧ２５６と道具・目的関係ＢＫＲＧ２５８の訓練は、学習データが異なるだけで手順自体は同様である。したがって、ここでは因果関係ＢＫＲＧ２５６の訓練についてのみ、ＧＡＮ１８０の動作を説明する。

　図８を参照して、この学習では、因果関係学習データ記憶装置２７６にコンピュータを接続する。具体的には、コンピュータが、外部記憶装置により実現される因果関係学習データ記憶装置２７６に存在する、因果関係学習データを含むファイルをオープンし、それらの内容を読み出してメモリに格納する。又はこれらを記憶したデータベースから因果関係学習データを読み出し、メモリに格納する（ステップ３００）。

　続いて、本物表現ジェネレータ１９４及び分別器２０４と、偽物表現ジェネレータ２００との間で敵対的学習を行う（ステップ３０４）。

　図９を参照して、ステップ３０４で行われる敵対的学習では、質問１９０と、その質問に対する背景知識１９２との複数の組を学習データからサンプリングする（ステップ３２０）。続いて偽物表現ジェネレータ２００のパラメータを固定する（ステップ３２２）。サンプリングした質問１９０と、その質問１９０に対する背景知識１９２を用いて本物表現ジェネレータ１９４が本物表現１９６を生成し分別器２０４に与える。一方、偽物表現ジェネレータ２００が同じ質問１９０とランダムに発生させたノイズとを用いて偽物表現２０２を生成し分別器２０４に与える。分別器２０４はこの本物表現１９６及び偽物表現２０２がそれぞれ本物か否かを判定する。サンプリングされた学習データの全体に対するこの判定結果を用い、ステップ３２４において、このデータに対する分別器２０４の誤判定が最小化されるように、すなわち本物表現１９６を偽物と、偽物表現２０２を本物と誤判定する確率が小さくなるように、偽物表現ジェネレータ２００のパラメータを固定した状態で、誤差逆伝播法により分別器２０４及び本物表現ジェネレータ１９４のパラメータの訓練を行う。

　続いて、分別器２０４及び本物表現ジェネレータ１９４のパラメータを固定する（ステップ３２６）。分別器２０４のパラメータを固定したまま、質問１９０とランダムに発生させたノイズ１９８とを用い、偽物表現ジェネレータ２００の学習を行う（ステップ３２８）。具体的には、偽物表現ジェネレータ２００が偽物表現２０２を生成する。分別器２０４はこの偽物表現２０２が本物表現か否かを判定する。この判定を複数の質問１９０に対して行い、偽物表現ジェネレータ２００のパラメータを分別器２０４による誤判定が最大化するように、すなわち分別器２０４が偽物表現２０２を本物表現と判定する確率が大きくなるように、分別器２０４及び本物表現ジェネレータ１９４のパラメータを固定して偽物表現ジェネレータ２００のパラメータを調整する。

　こうした処理を繰り返すことにより、いずれは本物表現ジェネレータ１９４及び分別器２０４と偽物表現ジェネレータ２００とによる本物表現・偽物表現はゲーム理論におけるナッシュ均衡に達し、分別器２０４による判定結果は、正解が５０％、誤判定が５０％という状態に達する。又はナッシュ均衡に近い一定の状態に達する。

　図８を参照して、ステップ３０６では分別器２０４の判定の精度がこのナッシュ均衡の状態、又はナッシュ均衡に近い一定の状態に達したか否かを判定する。判定結果が否定であれば制御はステップ３０４に戻り、本物表現ジェネレータ１９４、偽物表現ジェネレータ２００及び分別器２０４の敵対的学習を続行する。ステップ３０６の判定結果が肯定であればステップ３０８で偽物表現ジェネレータ２００のパラメータを記憶装置に保存し、処理を終了する。この偽物表現ジェネレータ２００のパラメータと、偽物表現ジェネレータ２００のネットワーク構造を実現するプログラムとにより、この実施形態の因果関係ＢＫＲＧ２５６が得られる。

　図７に示す道具・目的関係学習データ記憶装置２８６を用いた敵対的学習を、別の本物表現ジェネレータ１９４、偽物表現ジェネレータ２００及び分別器２０４のセットに実行することにより、道具・目的関係ＢＫＲＧ２５８も同様にして得られる。図４に示すＢＫＲＧ層１５０、１５４、及び１５８等は、いずれも因果関係ＢＫＲＧ２５６と道具・目的関係ＢＫＲＧ２５８とを連結して得られたもので、両者の出力が連結されてＢＫＲＧ層１５０等からベクトルｒ^１等として出力する。

　《ＢＥＲＴ１０２の訓練》
　ＢＥＲＴ１０２の事前学習についてはよく知られた手法であり、ここではその詳細は繰り返さない。簡単にいえば、予め事前学習のための文を多数準備しておき、それらの文のうち任意の一つの単語を削除したものを入力として、その単語を予測するようにしてＢＥＲＴ１０２の事前学習が行われる。この方法では、いわゆる訓練データの作成のためにデータを加工する必要がない。

　ＢＥＲＴ１０２の事前学習及び回答特定用テキスト分類器９０のファインチューニングは前述したように行われる。したがってここではその詳細は繰り返さない。このファインチューニングでは、ＢＫＲＧ層１５０、１５４、…、１５８のパラメータを固定しておく点に注意して、通常の誤差逆伝播法を用いればよい。

　《テスト時の回答特定用テキスト分類器９０の動作》
　図４を参照して、回答特定用テキスト分類器９０のテスト時には、質問と、その質問に対する回答を含むか否かの判定対象となるパッセージとが入力１００としてＢＥＲＴ１０２及びベクトル変換部１１２に与えられる。

　ＢＥＲＴ１０２は、訓練後のパラメータにしたがって入力１００を処理しＫＩトランスフォーマ層１３０に出力を与える。

　一方、ベクトル変換部１１２は入力１００に含まれる質問及びパッセージをそれぞれ単語埋め込みベクトル列に変換して連結し、ＢＫＲＧ層１５０と更新部１５２とに与える。ＢＫＲＧ層１５０はこの単語埋め込みベクトル列のうち、質問の単語埋め込みベクトル列ｑ^１を質問とし、パッセージの単語埋め込みベクトル列ｐ^１を図５のノイズ１９８として処理し、質問に対するベクトルｒ^１を生成しＫＩトランスフォーマ層１３０に与える。

　ＫＩトランスフォーマ層１３０は、ＢＥＲＴ１０２の出力に対し、ＢＫＲＧ層１５０から与えられるベクトルｒ^１をアテンション（行列Ｑ）として演算を行い、結果をＫＩトランスフォーマ層１３２に与える。このとき、ベクトルｒ^１は、ＫＩトランスフォーマ層１３０に、対象となるパッセージを解析する際に回答になりそうな部分を注意深く読ませるために使用される。

　一方、ＢＫＲＧ１１４では、更新部１５２がＢＫＲＧ層１５０の出力するベクトルｒ^１を用い、既に述べた変換式を用いてベクトル変換部１１２の出力した単語埋め込みベクトル列（ｑ^１，ｐ^１）を単語埋め込みベクトル列（ｑ^２、ｐ^２）に更新し、ＢＫＲＧ層１５４と更新部１５６に与える。

　ＢＫＲＧ層１５４は、単語埋め込みベクトル列（ｑ^２、ｐ^２）のｑ^２を質問、ｐ^２を図５のノイズ１９８として処理し、質問に対するベクトルｒ^２を生成しＫＩトランスフォーマ層１３２に与える。

　ＫＩトランスフォーマ層１３２は、ＫＩトランスフォーマ層１３０と同様、ＫＩトランスフォーマ層１３０の出力に対し、ＢＫＲＧ層１５４から与えられるベクトルｒ^２をアテンション（行列Ｖ及びＫ）として演算を行い、結果をさらに後段のＫＩトランスフォーマ層に与える。このとき、ベクトルｒ^２は、ＫＩトランスフォーマ層１３２に、対象となるパッセージを解析する際に回答になりそうな部分を注意深く読ませるために使用される。

　以下、同様の処理が行われ、ＢＫＲＧ層１５８からはベクトルｒ^ＮがＫＩトランスフォーマ層１３４に与えられる。ＫＩトランスフォーマ層１３４は、前段のＫＩトランスフォーマ層の出力に対し、ベクトルｒ^Ｎをアテンションとした処理を行い、結果を出力１０６として出力する。出力１０６の先頭のトークン「ＣＬＳ」に対応する部分には、入力１００を構成するパッセージが、入力１００を構成する質問に対する回答を含むか否かを示すラベルが出力され、出力１０６のパッセージの各単語に相当する部分のうち、回答となる単語列の開始位置と終了位置とが、それぞれ確率として示される。

　なお、図４に示す例では、ラベルと、回答の開始位置及び終了位置とを求めるための回答特定用テキスト分類器９０を一つのものとして記載した。しかしこの発明はそうした実施形態には限定されず、これらを別々のものとして訓練し使用してもよい。

　〔実験結果〕
　上記した回答特定用テキスト分類器９０により、日本語の質問に対して与えられたパッセージが正しい回答を含むものか否かを分別する実験（回答特定実験）を行った。実験はなぜ型質問応答とどうやって型質問応答の双方のタスクである。

　図５の偽物表現ジェネレータ２００（図４のＢＫＲＧ層１５０、１５４、…、１５８の敵対的学習用の学習データとしては、因果関係データ（後掲の参考文献４に記載の手法で獲得）及び道具・目的関係データ（参考文献５に記載の手法で獲得）を用いた。この因果関係データは、４０億のウェブテキストから自動獲得した約１億件の因果関係データを含んでいる。実験では、これらのうち１００万件をランダムサンプリングしたものを用いた。道具・目的データとしては、同じく４億件のウェブテキストから自動獲得した約１．２億件の道具・目的関係データを含んでいる。実験では、これらのうちから１００万件をランダムサンプリングしたものを用いた。

　こうして得られたなぜ型質問応答容データとどうやって型質問応答データの各々について、実験のために、学習データ、開発データ、及び評価（テスト）データに分類した。分類されたデータの統計を図１５及び図１６にそれぞれ示す。

　ＢＥＲＴ１０２には前述のようにＢＥＲＴ_{ＬＡＲＧＥ}を用いた。その層数Ｌ＝２４、トランスフォーマエンコーダのヘッダ数Ａ＝１６、フィードフォワードネットワークの隠れユニット数Ｈ＝１、０２４である。その学習には２２億文を用いた。学習時のバッチサイズ＝４，０９６、学習のステップ数は１１０万であった。

　実験では、上記した実施形態に記載の方法で訓練した因果関係ＢＫＲＧ及び道具・目的関係ＢＫＲＧを使用した。

　図１７にこの実験の結果を表形式で示す。図１７のうち、結果欄の４行目の「Ｐｒｏｐｏｓｅｄ」と記載されている結果６３６が上記実施形態に係るシステムによる結果である。図１７において、「Ｐ＠１（Ｐｒｅｃｉｓｉｏｎ　ａｔ　ｔｏｐ　ａｎｓｗｅｒ）」は、質問ごとにランク付けした結果における、最上位の精度を示す。「ＭＡＰ（Ｍｅａｎ　Ａｖｅｒａｇｅ　Ｐｒｅｃｉｓｉｏｎ）」は、質問ごとにランク付けした結果における平均精度の平均を示す。

　結果欄の結果６３０は、後掲の参考文献６に記載の手法（ＣＮＮとＡｎｓｗｅｒ　Ｒｅｐｒｅｓｅｎｔａｔｉｏｎ　Ｇｅｎｅｒａｔｏｒ（ＡＲＧ））によるものを示す。結果欄の結果６３２はＢＥＲＴのみを用いたときの結果を示す結果欄の結果６３４は、結果６３２のＢＥＲＴを用いた手法に、上記実施形態のＢＫＲＧの出力するＲｅｐｒｅｓｅｎｔａｔｉｏｎを最後のＳｏｆｔＭａｘ層の入力として加算したものを用いた結果である。

　これに対し、結果欄の結果６３８以下は、結果６３６に示す上記実施形態にしたがった手法から何らかの要素を取り除いたものである。結果６３８は、図４に示す更新部１５２、１５６等による質問とパッセージ対の更新を取り除いたものである。結果６４０は、上記実施形態にしたがった手法から、因果関係ＢＫＲＧを取り除いた場合の結果である。結果６４２は道具・目的関係ＢＲＫＧを取り除いた場合の結果である。

　図１７の結果欄の１行目から３行目と４行目とを比較すると，４行目が最も高い精度を与えていることが分かる。すなわち、ＢＫＲＧによる背景知識表現ベクトルを利用し、この背景知識表現ベクトルをＫＩトランスフォーマでＢＥＲＴによる結果と統合することで、１行目の基本手法はもとより、ＢＥＲＴのみ（２行目）と比較しても、またＢＥＲＴ＋ＢＫＲＧの手法に対しても、高い精度が得られていることが分かる。

　さらに、結果６３８、６４０及び結果６４２のいずれと比較しても結果６３６の性能が高い。したがって、図４に示す更新部１５２及びＢＫＲＧ層１５４のように入力される質問とパッセージとを更新する手法、ＢＫＲＧ層１５０、１５４、…、１５８等において因果関係又は道具・目的関係を用いない手法のいずれも、結果６３６により示される、上記実施形態の性能向上に寄与していることが分かる。

　［第２の実施形態］
　〔構成〕
　上記第１の実施形態に係る回答特定用テキスト分類器９０は、この発明を日本語のなぜ型質問及びどうやって型質問に適用したものである。しかしこの発明は、日本語だけではなく他の言語、例えば英語に対しても適用可能であり、また特定のドメインではなくオープンドメインの質問応答システムに対しても適用可能である。この第２の実施形態に係る質問応答システムは英語のオープンドメインの質問応答タスクを行う質問応答システムに関する。

　このタスクは、質問を受け、質問に対する回答を含む可能性が高いパッセージを選択し、さらにそのパッセージから回答を抽出するというタスクである。主な質問タイプはなに型質問である。回答は、単語・名詞句からなる場合が多い。なに型質問の回答は、なぜ型質問及びどうやって型質問の回答より短い傾向がある。

　英語に関する質問応答システムに、後掲の参考文献７に記載されたＤｉｓｔａｎｔｌｙ　ｓｕｐｅｒｖｉｓｅｄ　ｏｐｅｎ－ｄｏｍａｉｎ　ＱＡ　（ＤＳ－ＱＡ）と呼ばれるタスクがある。図１８を参照して、このタスク７５０は、質問７６０を受け、複数のパッセージ７６４を検索７６２し、そのパッセージ７６４から回答７７４を抽出する、というタスクである。より具体的には、このタスク７５０のための質問応答システムは、パッセージから回答を含む確率が高いパラグラフの集合７６８を選択するパラグラフ選択器７６６と、パラグラフ選択器７６６が選択したパラグラフの集合７６８と質問７６０とが与えられたとき、質問７６０に対する回答となる確率が最も高い単語列からなる回答候補の集合７７２を算出するパラグラフリーダ７７０とを含む。この回答候補の集合７７２から回答７７４が抽出される。

　参考文献７に記載された、タスク７５０を実行する例示的な質問応答システムは、質問７６０を受けて、テキストアーカイブから回答候補を含む可能性があるパッセージ７６４を検索し取り出す検索７６２を含む。パッセージ７６４をＰで表すと、Ｐ＝｛ｐ_１，…，ｐ_Ｎ｝、ただしｐ_１，…，ｐ_Ｎはいずれもパラグラフを表す（Ｎ＝正の整数）。タスク７５０はさらに、パッセージ７６４に含まれるパラグラフｐ_１，…，ｐ_Ｎの各々から、正しい回答を含む能性が高いパラグラフを選択し、パラグラフの集合７６８を生成するためのパラグラフ選択器７６６と、パラグラフの集合７６８に含まれるパラグラフの各々から回答と思われる部分を抽出し回答候補の集合７７２を生成するパラグラフリーダ７７０と、回答候補の集合７７２から質問７６０に対する正しい回答である確率が最も高い回答候補を回答７７４として出力する回答候補の集合７７２を含む。

　この実施形態では、質問ｑに対し、パッセージ７６４としてＰ＝｛ｐ_ｉ｝が与えられたとき、回答候補の集合７７２の各回答ａのスコアＳｃｏｒｅ（ａ｜ｑ，Ｐ）は以下のように定義される。ただしａｐは回答を含むパラグラフを表す。

この式のシグマ記号内の、第２項はパラグラフ選択器７６６に対応し、パラグラフｐ_ｉが質問ｑの回答を含む確率を表す。第１項はパラグラフリーダ７７０に対応し、パラグラフｐ_ｉから質問ｑの回答ａを抽出する確率を示す。

　この実施形態では、パラグラフ選択器７６６及びパラグラフリーダ７７０として、上記第１実施形態に記載のものを利用できる。ただし、パラグラフ選択器７６６としては、上記第１実施形態に記載のものと同じ構成で、質問と各パラグラフとの組み合わせに対し、ラベルとしてそのパラグラムが質問に対する回答を含むか否かを示す値を付した訓練データで訓練したものを用いる。またパラグラフリーダ７７０としては、質問と、その質問に対する正しい回答を含むパラグラムとの組み合わせに対し、回答の開始部分をラベルとして持つ訓練データと、回答の終了部分をラベルとして持つ訓練データとをそれぞれ使用して訓練した２つの回答特定用テキスト分類器９０を用いることができる。

　〔効果〕
　上記第２の実施形態に係るタスク７５０の性能を調べるために、以下のような実験を行った。図１９に、この実験で使用した訓練・評価データの統計を示す。

　実験では、比較のために公知の３つのデータセット　（Ｑｕａｓａｒ－Ｔ　（参考文献８）、ＳｅａｒｃｈＱＡ（参考文献９）、及びＴｒｉｖｉａＱＡ（参考文献１０）を用い、３つの公知手法であるＯｐｅｎＱＡ（参考文献１１）、ＴｒｉｖｉａＱＡ（参考文献１０）、及びＭＢＥＲＴ（Ｍｕｌｔｉ－ｐａｓｓａｇｅ　ＢＥＲＴ）（参考文献１２）と、上記第２の実施形態による提案法（Ｐｒｏｐｏｓｅｄ）を比較した。実験の結果を図２０に示す。

　図２０を参照して、結果８００、８０２及び結果８０４は従来のシステムによる結果を示す。結果８００は、上記参考文献１１による、ＬＳＴＭ（Ｌｏｎｇ　Ｓｈｏｒｔ－Ｔｅｒｍ　Ｍｅｍｏｒｙ）をベースとしたシステムによる結果を示す。結果８０２は、同じく参考文献１１のシステムと、参考文献６により紹介されたＡＲＧとを組み合わせたもので、これもＬＳＴＭをベースとしたものである。結果８０４はＭＢＥＲＴによるものであり、従来技術でもっとも性能が高いとされているシステムである。

　これに対し結果８０６は上記第２の実施形態のパラグラフ選択器７６６及びパラグラフリーダ７７０による結果を示す。結果８０８は、第２の実施形態においてＢＫＲＧを用いなかった場合の結果である。結果８１０はＢＫＲＧを用いたが質問・パッセージ対の更新を行わなかった場合の結果を示す。結果８１２は参考文献１３に記載のＳＱｕＡＤデータを学習データに加えて図１８のパラグラフ選択器７６６及びパラグラフリーダ７７０の学習を行った場合の結果を示す。ただし結果８１２ではＢＫＲＧは使用していない。

　評価には全てＥＭスコア及びＦ１スコアを用いた。ＥＭは真の回答（ｇｒｏｕｎｄ　ｔｒｕｔｈ）のいずれかと正確に一致した予測結果の率を示す。Ｆ１は予測結果と真の回答との間の平均的な重なりを大まかに示す。

　この結果から、上記第２の実施形態に係るパラグラフ選択器７６６及びパラグラフリーダ７７０を用いた場合、全てのデータセットに対し、従来の他の手法をいずれも上回る性能を示すことが分かる。特に、第２の実施形態によれば、従来技術で最も性能の高いＭＢＥＲＴに対してもかなりの性能向上が得られていることが分かる。また結果８０８及び結果８１０のいずれも結果８０６より性能が落ちてはいるが従来技術のいずれと比較しても高い性能を示していることから、ＢＫＲＧを用いること、及びさらにＢＫＲＧを経の入力となる質問・パッセージ対の更新を用いることの双方とも第２の実施形態の性能向上に貢献していることが分かる。

　以上、第１及び第２の実施形態における実験結果から、この発明に係る背景知識表現ジェネレータは、異なる言語の異なるタスクに対して、従来技術と比較して高い性能を示し、質問応答システムにおいて有効であることが分かる。

　なお、以上の実施形態の説明では、回答特定用テキスト分類器に用いる言語表現モデルとしてＢＥＲＴを用いているが、ＢＥＲＴに限定されるわけではない。例えばＸＬＮｅｔ（参考文献１４）、ＲｏＢＥＲＴａ（参考文献１５）、ＡＬＢＥＲＴ（参考文献１６）、ＳｔｒｕｃｔＢＥＲＴ（参考文献１７）等、トランスフォーマのエンコーダブロック又は同種のネットワークを基本として構成されている言語表現モデルを用いてもよい。

　［コンピュータによる実現］
　図２１は、上記各実施形態を実現するコンピュータシステムの外観図である。図２２は、図２１に示すコンピュータシステムのハードウェアブロック図である。

　図２１を参照して、このコンピュータシステム９５０は、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｃ）ドライブ１００２を有するコンピュータ９７０と、いずれもコンピュータ９７０に接続された、ユーザと対話するためのキーボード９７４、マウス９７６、及びモニタ９７２とを含む。もちろんこれはユーザ対話のための構成の一例であって、ユーザ対話に利用できる一般のハードウェア及びソフトウェア（例えばタッチパネル、音声入力、ポインティングデバイス一般）であればどのようなものも利用できる。

　図２２を参照して、コンピュータ９７０は、ＤＶＤドライブ１００２に加えて、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９９０と、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）９９２と、ＣＰＵ９９０、ＧＰＵ９９２、ＤＶＤドライブ１００２に接続されたバス１０１０と、バス１０１０に接続され、コンピュータ９７０のブートアッププログラム等を記憶するＲＯＭ（Ｒｅａｄ－Ｏｎｌｙ　Ｍｅｍｏｒｙ）９９６と、バス１０１０に接続され、プログラムを構成する命令、システムプログラム、及び作業データ等を記憶するＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９９８と、バス１０１０に接続された不揮発性メモリであるＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）１０００とを含む。ＨＤＤ１０００は、ＣＰＵ９９０及びＧＰＵ９９２が実行するプログラム、並びにＣＰＵ９９０及びＧＰＵ９９２が実行するプログラムが使用するデータ等を記憶するためのものである。コンピュータ９７０はさらに、他端末との通信を可能とするネットワーク９８６への接続を提供するネットワークＩ／Ｆ１００８と、ＵＳＢメモリ９８４が着脱可能で、ＵＳＢメモリ９８４とコンピュータ９７０内の各部との通信を提供するＵＳＢポート１００６とを含む。

　コンピュータ９７０はさらに、マイク９８２及びスピーカ９８０とバス１０１０とに接続され、ＣＰＵ９９０により生成されＲＡＭ９９８又はＨＤＤ１０００に保存された音声信号をＣＰＵ９９０の指示にしたがって読み出し、アナログ変換及び増幅処理をしてスピーカ９８０を駆動したり、マイク９８２からのアナログの音声信号をデジタル化し、ＲＡＭ９９８又はＨＤＤ１０００の、ＣＰＵ９９０により指定される任意のアドレスに保存したりするための音声Ｉ／Ｆ１００４を含む。

　上記実施形態では、図４に示す偽物表現ジェネレータ２００、本物表現１９６、分別器２０４、質問１９０、背景知識１９２等のデータ及びパラメータ等は、いずれも例えば図２２に示すＨＤＤ１０００、ＲＡＭ９９８、ＤＶＤ９７８又はＵＳＢメモリ９８４、若しくはネットワークＩ／Ｆ１００８及びネットワーク９８６を介して接続された図示しない外部装置の記憶媒体等に格納される。典型的には、これらのデータ及びパラメータ等は、例えば外部からＨＤＤ１０００に書込まれコンピュータ９７０の実行時にはＲＡＭ９９８にロードされる。

　このコンピュータシステムを図８に示すＧＡＮ１８０及びその各部、そのための敵対的学習による訓練装置、及びその各構成要素の機能を実現するよう動作させるためのコンピュータプログラムは、ＤＶＤドライブ１００２に装着されるＤＶＤ９７８に記憶され、ＤＶＤドライブ１００２からＨＤＤ１０００に転送される。又は、このプログラムはＵＳＢメモリ９８４に記憶され、ＵＳＢメモリ９８４をＵＳＢポート１００６に装着し、プログラムをハードディスク１０００に転送する。又は、このプログラムはネットワーク９８６を通じてコンピュータ９７０に送信されＨＤＤ１０００に記憶されてもよい。プログラムは実行のときにＲＡＭ９９８にロードされる。もちろん、キーボード９７４、モニタ９７２及びマウス９７６を用いてソースプログラムを入力し、コンパイルした後のオブジェクトプログラムをＨＤＤ１０００に格納してもよい。スクリプト言語の場合には、キーボード９７４等を用いて入力したスクリプトをＨＤＤ１０００に格納してもよい。仮想マシン上で動作するプログラムの場合には、仮想マシンとして機能するプログラムを予めコンピュータ９７０にインストールしておく必要がある。

　ＣＰＵ９９０は、その内部のプログラムカウンタと呼ばれるレジスタ（図示せず）により示されるアドレスにしたがってＲＡＭ９９８からプログラムを読み出して命令を解釈し、命令の実行に必要なデータを命令により指定されるアドレスにしたがってＲＡＭ９９８、ハードディスク１０００又はそれ以外の機器から読み出して命令により指定される処理を実行する。ＣＰＵ９９０は、実行結果のデータを、ＲＡＭ９９８、ハードディスク１０００、ＣＰＵ９９０内のレジスタ等、プログラムにより指定されるアドレスに格納する。このとき、プログラムカウンタの値もプログラムによって更新される。コンピュータプログラムは、ＤＶＤ９７８から、ＵＳＢメモリ９８４から、又はネットワークを介して、ＲＡＭ９９８に直接にロードしてもよい。なお、ＣＰＵ９９０が実行するプログラムの中で、一部のタスク（主として数値計算）については、プログラムに含まれる命令により、又はＣＰＵ９９０による命令実行時の解析結果にしたがって、ＧＰＵ９９２にディスパッチされる。

　コンピュータ９７０により上記した各実施形態に係る各部の機能を実現するプログラムは、それら機能を実現するようコンピュータ９７０を動作させるように記述され配列された複数の命令を含む。この命令を実行するのに必要な基本的機能のいくつかはコンピュータ９７０上で動作するオペレーティングシステム（ＯＳ）若しくはサードパーティのプログラム、又はコンピュータ９７０にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施形態のシステム及び方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令の中で、所望の結果が得られるように制御されたやり方で適切な機能又は「プログラミング・ツール・キット」の機能を呼出すことにより、上記した各装置及びその構成要素としての動作を実行する命令のみを含んでいればよい。そのためのコンピュータ９７０の動作方法は周知であるので、ここでは繰返さない。なお、ＧＰＵ９９２は並列処理を行うことが可能であり、機械学習に伴う多量の計算を同時並列的又はパイプライン的に実行できる。例えばプログラムのコンパイル時にプログラム中で発見された並列的計算要素、又はプログラムの実行時に発見された並列的計算要素は、随時、ＣＰＵ９９０からＧＰＵ９９２にディスパッチされ、実行され、その結果が直接に、又はＲＡＭ９９８の所定アドレスを介してＣＰＵ９９０に返され、プログラム中の所定の変数に代入される。

　〔参考文献１〕
　Jacob　Devlin,　Ming-Wei　Chang,　Kenton　Lee,　and　Kristina　Toutanova.　2018.　BERT:　pre-training　of　deep　bidirectional　transformers　for　language　understanding.　CoRR,　abs/1810.04805.
　〔参考文献２〕
　Ian　J.　Goodfellow,　Jean　Pouget-Abadie,　Mehdi　Mirza,　Bing　Xu,　David　Warde-Farley,　Sherjil　Ozair,　Aaron　Courville,　and　Yoshua　Bengio.　2014.　Generative　adversarial　nets.　In　Proceedings　of　the　27th　International　Conference　on　Neural　Information　Processing　Systems　-　Volume　2,　NIPS’14,　pages　2672-2680,　Cambridge,　MA,　USA.　MIT　Press.
　〔参考文献３〕
　Rupesh　K　Srivastava,　Klaus　Greff,　and　Jurgen　Schmidhuber.　2015.　Training　very　deep　networks.　In　Advances　in　Neural　Information　Processing　Systems　28,　pages　2377-2385.
　〔参考文献４〕
　Jong-Hoon　Oh,　Kentaro　Torisawa,　Chikara　Hashimoto,　Motoki　Sano,　Stijn　De　Saeger,　and　Kiyonori　Ohtake.　2013.　Why-question　answering　using　intra-　and　inter-sentential　causal　relations.　In　Proceedings　of　the　51st　Annual　Meeting　of　the　Association　for　Computational　Linguistics　(Volume　1:　Long　Papers),　pages　1733-1743.
　〔参考文献５〕
　Kazuma　Kadowaki,　Ryu　Iida,　Kentaro　Torisawa,　Jong-Hoon　Oh,　and　Julien　Kloetzer.　2019.　Event　causality　recognition　exploiting　multiple　annotators’　judgments　and　background　knowledge.　In　Proceedings　of　the　2019　Conference　on　Empirical　Methods　in　Natural　Language　Processing　and　the　9th　International　Joint　Conference　on　Natural　Language　Processing　(EMNLP-IJCNLP),　pages　5816-5822.
　〔参考文献６〕
　Jong-Hoon　Oh,　Kazuma　Kadowaki,　Julien　Kloetzer,　Ryu　Iida,　and　Kentaro　Torisawa.　2019.　Open-domain　why-question　answering　with　adversarial　learning　to　encode　answer　texts.　In　Proceedings　of　the　57th　Annual　Meeting　of　the　Association　for　Computational　Linguistics,　pages　4227-4237.
　〔参考文献７〕
　Danqi　Chen,　Adam　Fisch,　Jason　Weston,　and　Antoine　Bordes.　2017.　Reading　Wikipedia　to　answer　open-domain　questions.　In　Proceedings　of　the　55th　Annual　Meeting　of　the　Association　for　Computational　Linguistics　(Volume　1:　Long　Papers),　pages　1870-1879.
　〔参考文献８〕
　Bhuwan　Dhingra,　Kathryn　Mazaitis,　and　William　W　Cohen.　2017.　Quasar:　Datasets　for　question　answering　by　search　and　reading.　arXiv　preprint　arXiv:1707.03904.
　〔参考文献９〕
　Matthew　Dunn,　Levent　Sagun,　Mike　Higgins,　V.　Ugur　Gueney,　Volkan　Cirik,　and　Kyunghyun　Cho.　2017.　Searchqa:　A　new　q&a　dataset　augmented　with　context　from　a　search　engine.　CoRR,　abs/1704.05179.
　〔参考文献１０〕
　Mandar　Joshi,　Eunsol　Choi,　Daniel　Weld,　and　Luke　Zettlemoyer.　2017.　Triviaqa:　A　large　scale　distantly　supervised　challenge　dataset　for　reading　comprehension.　In　Proceedings　of　the　55th　Annual　Meeting　of　the　Association　for　Computational　Linguistics,　pages　1601-1611.
　〔参考文献１１〕
　Yankai　Lin,　Haozhe　Ji,　Zhiyuan　Liu,　and　Maosong　Sun.　2018.　Denoising　distantly　supervised　open-domain　question　answering.　In　Proceedings　of　the　56th　Annual　Meeting　of　the　Association　for　Computational　Linguistics,　ACL　2018,　pages　1736-1745.
　〔参考文献１２〕
　Zhiguo　Wang,　Patrick　Ng,　Xiaofei　Ma,　Ramesh　Nallapati,　and　Bing　Xiang.　2019.　Multi-passage　BERT:　A　globally　normalized　BERT　model　for　open-domain　question　answering.　In　Proceedings　of　the　2019　Conference　on　Empirical　Methods　in　Natural　Language　Processing　and　the　9th　International　Joint　Conference　on　Natural　Language　Processing　(EMNLP-IJCNLP),　pages　5878-5882.　Association　for　Computational　Linguistics.
　〔参考文献１３〕
　Pranav　Rajpurkar,　Jian　Zhang,　Konstantin　Lopyrev,　and　Percy　Liang.　2016.　Squad:　100,000+　questions　for　machine　comprehension　of　text.　In　Proceedings　of　the　2016　Conference　on　Empirical　Methods　in　Natural　Language　Processing,　pages　2383-2392.
　〔参考文献１４〕
　Zhilin　Yang,　Zihang　Dai,　Yiming　Yang,　Jaime　Carbonell,　Ruslan　Salakhutdinov,　Quoc　V.　Le,　“XLNet:　Generalized　Autoregressive　Pretraining　for　Language　Understanding”,　[ONLINE],　https://arxiv.org/abs/1906.08237
　〔参考文献１５〕
　Yinhan　Liu,　Myle　Ott,　Naman　Goyal,　Jingfei　Du,　Mandar　Joshi,　Danqi　Chen,　Omer　Levy,　Mike　Lewis,　Luke　Zettlemoyer,　Veselin　Stoyanov、”RoBERTa:　A　Robustly　Optimized　BERT　Pretraining　Approach”,　[ONLINE],　https://arxiv.org/abs/1907.11692
　〔参考文献１６〕
　Zhenzhong　Lan,　Mingda　Chen,　Sebastian　Goodman,　Kevin　Gimpel,　Piyush　Sharma,　Radu　Soricut,”ALBERT:　A　Lite　BERT　for　Self-supervised　Learning　of　Language　Representations”,[ONLINE],　https://arxiv.org/abs/1909.11942
　〔参考文献１７〕
　Wei　Wang,　Bin　Bi,　Ming　Yan,　Chen　Wu,　Zuyi　Bao,　Jiangnan　Xia,　Liwei　Peng,　Luo　Si、”StructBERT:　Incorporating　Language　Structures　into　Pre-training　for　Deep　Language　Understanding”,　[ONLINE],　https://arxiv.org/abs/1908.04577
　今回開示された実施形態は単に例示であって、この発明が上記した実施形態のみに制限されるわけではない。この発明の範囲は、発明の詳細な説明の記載を参酌した上で、請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

５０、１９０、７６０　質問
５２　回答パッセージ
６０、１９２　背景知識
７０、７２、７４　矢印
９０　回答特定用テキスト分類器
１００、３４０　入力
１０２　ＢＥＲＴ
１０４　ＫＩトランスフォーマ
１０６　出力
１０８　ラベル
１１０　開始／終了位置
１１２　ベクトル変換部
１１４　ＢＫＲＧ
１１６　背景知識表現のベクトル群
１３０、１３２、１３４　ＫＩトランスフォーマ層
１５０、１５４、１５８　ＢＫＲＧ層
１５２、１５６　更新部
１８０　ＧＡＮ
１９４　本物表現ジェネレータ
１９６　本物表現
１９８　ノイズ
２００　偽物表現ジェネレータ
２０２　偽物表現
２０４　分別器
２２０、２２４　単語埋め込みベクトル変換部
２２２　質問の単語埋め込みベクトル列
２２６　ノイズの単語埋め込みベクトル列
２２８　アテンション加算部
２３０　アテンション付き単語埋め込みベクトル
２３２　ＣＮＮ
２４０　ＢＫＲＧ訓練システム
２５０　インターネット
２５２　因果関係ＢＫＲＧ訓練部
２５４　道具・目的関係ＢＫＲＧ訓練部
２５６　因果関係ＢＫＲＧ
２５８　道具・目的関係ＢＫＲＧ
２７０　因果関係抽出部
２７２　因果関係記憶装置
２７４　因果関係学習データ生成部
２７６　因果関係学習データ記憶装置
２７８　因果関係ＢＫＲＧ訓練部
２８０　道具・目的関係抽出部
２８２　道具・目的関係記憶装置
２８４　道具・目的関係学習データ生成部
２８６　道具・目的関係学習データ記憶装置
２８８　道具・目的関係ＢＫＲＧ訓練部
４３６、４７６　エンコーダサブネットワーク
４４０、４９２　第１層サブネットワーク
４４２、４９４　第２層サブネットワーク
４５０、５１０　マルチヘッドアテンションサブネットワーク
４５２、４６２、５１２、５２２　ＡＤＤ＆Ｎｏｒｍサブネットワーク
４６０　全結合サブネットワーク
５４４、５５２　線形変換サブネットワーク
５６６　ＳｏｆｔＭａｘ層
５２０　フィードフォワードサブネットワーク
５４０　ヘッダ部
５４２　ベクトル連結部
５５０　ヘッダ
５６０、５６８　行列積サブネットワーク
５６２　除算回路
６００　入力単語埋め込みベクトル列
６０２、６０４、６０６　ＢＥＲＴトランスフォーマ層
６０８　単語列
７５０　タスク
７６２　検索
７６４　パッセージ
７６６　パラグラフ選択器
７６８　パラグラフの集合
７７０　パラグラフリーダ
７７２　回答候補の集合
７７４　回答

Claims

質問テキストと、回答候補テキストとを入力として受ける、言語表現モデルと、
　前記言語表現モデルの出力を入力として受ける知識統合トランスフォーマと、
　前記質問テキストと前記回答候補テキストを入力として受け、当該質問テキストに対する背景知識の表現ベクトルを出力する、背景知識表現ジェネレータとを含み、
　前記知識統合トランスフォーマは、前記背景知識の表現ベクトルをアテンションとして受けるように構成され、前記回答候補テキストが、前記質問テキストに対する回答を含むか否かを示すラベルを出力する、回答特定用テキスト分類器。
前記知識統合トランスフォーマは複数の知識総合トランスフォーマ層を含み、
　前記背景知識表現ジェネレータは前記複数の知識統合トランスフォーマ層にそれぞれ対応する複数の前記背景知識の表現ベクトルを出力し、
　前記複数の知識総合トランスフォーマ層は、前記複数の背景知識の表現ベクトルのうち、各知識総合トランスフォーマ層に対応する表現ベクトルを前記アテンションのための情報源として受ける、請求項１に記載の回答特定用テキスト分類器。
前記背景知識表現ジェネレータは、
　質問と回答候補とを表す入力ベクトルに応答して前記背景知識の表現ベクトルを出力する背景知識表現ジェネレータ層と、
　前記背景知識表現ジェネレータ層への入力ベクトルを当該背景知識表現ジェネレータ層の出力する前記背景知識の表現ベクトルを用いて更新して前記背景知識表現ジェネレータ層への次の入力ベクトルとする更新部とを含み、
　前記更新部は、前記背景知識表現ジェネレータへの先行する入力ベクトルを、当該先行する入力ベクトルに応答して前記背景知識表現ジェネレータが出力する前記背景知識表現ベクトルと前記先行する入力ベクトルとの関連度を利用して更新する、請求項１又は請求項２に記載の回答特定用テキスト分類器。
コンピュータを、請求項１から請求項３のいずれか１項に記載の回答特定用テキスト分類器として機能させる、コンピュータプログラム。
質問テキストの表す質問に対する背景知識のベクトル表現を出力する背景知識表現ジェネレータを、複数の訓練用データ項目を用いて訓練する訓練装置であって、前記複数の訓練用データ項目は、質問テキストと、当該質問テキストに関する背景知識テキストとを含み、
　前記質問テキストと、前記背景知識テキストとが与えられると、前記背景知識テキストが表す背景知識のベクトル表現と同じ形式の本物表現ベクトルを生成する、ニューラルネットワークからなる本物表現ジェネレータと、
　前記質問テキストと、任意のテキストに対するベクトル表現を表すランダムなノイズベクトルとが与えられると、前記ノイズベクトルから生成した前記背景知識に関する前記ベクトル表現と同じ形式の偽物表現ベクトルを出力する、ニューラルネットワークからなる偽物表現ジェネレータと、
　前記本物表現ベクトルと、前記偽物表現ベクトルとを分別するための、ニューラルネットワークからなる分別器と、
　前記分別器による分別の誤りを最小化するように前記本物表現ジェネレータ及び前記分別器を、かつ、前記偽物表現に対する前記分別器による分別の誤りを最大化するように前記偽物表現ジェネレータを、それぞれ敵対的学習により訓練する敵対的訓練装置とを含み、
　前記敵対的訓練装置による訓練が完了したときの前記偽物表現ジェネレータが訓練後の前記背景知識表現ジェネレータであり、実際の質問テキストとノイズが入力されたときの前記偽物表現ジェネレータの出力が、前記実際の質問テキストに関する背景知識の表現ベクトルとなる、訓練装置。
コンピュータを、請求項５に記載の訓練装置として機能させる、コンピュータプログラム。