WO2021117180A1

WO2021117180A1 - 対話処理装置、学習装置、対話処理方法、学習方法及びプログラム

Info

Publication number: WO2021117180A1
Application number: PCT/JP2019/048632
Authority: WO
Inventors: 康仁大杉; いつみ斉藤; 京介西田; 久子浅野; 準二富田
Original assignee: 日本電信電話株式会社
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2021-06-17
Also published as: US20230034414A1; JPWO2021117180A1; JP7342971B2

Abstract

一実施形態に係る対話処理装置は、対話型機械読解タスクにおける現在の質問を表す単語列である質問Ｑ_ｉと、過去の質問を表す単語列の集合である質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝と、前記過去の質問に対する過去の回答を表す単語列の集合である回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝とを入力として、予め学習済みの第１モデルパラメータを用いて、前記過去の質問及び前記過去の回答それぞれの属性及び重要度の少なくとも一方を反映した文脈符号化ベクトルｕを生成する文脈符号化手段と、前記質問Ｑ_ｉに対する回答Ａ_ｉの生成に用いられる文書Ｐと、前記文脈符号化ベクトルｕとを入力として、予め学習済みの第２モデルパラメータを用いて、前記文書Ｐと前記過去の質問及び前記過去の回答とのマッチングを行い、前記質問Ｑ_ｉに対する回答Ａ_ｉを生成する回答生成手段と、を有することを特徴とする。

Description

対話処理装置、学習装置、対話処理方法、学習方法及びプログラム

　本発明は、対話処理装置、学習装置、対話処理方法、学習方法及びプログラムに関する。

　機械読解に関する研究が従来から盛んに行われている。機械読解とは、質問と文書とを入力として、文書から質問に対する回答を生成する技術のことである。

　ここで、従来から盛んに研究されている機械読解は一問一答形式である。すなわち、機械読解では、仮に複数の質問が入力されたとしても、これらの質問は独立に扱われ、それぞれの質問に対して独立に回答が生成される。これに対して、近年では、質問と回答とが交互に繰り返されるような対話型の機械読解も研究されている。

　対話型の機械読解とは、文書と現在の質問と質問履歴と回答履歴とを入力として、現在の質問に対する回答を生成する技術のことである。このため、対話型の機械読解では、質問と回答とが繰り返される中で、これまでの対話の内容（つまり、質問履歴と回答履歴）を踏まえた回答を生成することができる。例えば、非特許文献１には、現在の質問に対する回答を生成する対話型の機械読解として、文書内で回答となる範囲の開始位置と終了位置とを出力する技術が記載されている。なお、質問履歴とは過去の質問の履歴のことであり、回答履歴とは過去の回答の履歴のことである。

Hsin-Yuan Huang, Eunsol Choi, and Wen-tau Yih. FlowQA: Grasping flow in history for conversational machine comprehension. arXiv preprint arXiv:1810.06683, 2018.

　ところで、対話型の機械読解では、全ての質問履歴及び回答履歴が現在の質問にとって重要であるとは限らない。しかしながら、例えば、非特許文献１に記載されている技術では直前のいくつかの質問履歴及び回答履歴を考慮しており、現在の質問に対する回答に必要な質問履歴及び回答履歴を取捨選択することができなかった。

　例えば、１つの質問とこの質問に対する１つの回答との組を１ターンと表記した場合、１ターン目～２ターン目は話題Ａ、３ターン目～４ターン目は話題Ｂ、５ターン目は話題Ａといったように対話の中で話題が変化することが有り得る。このとき、引用文献１に記載されている技術では直前のＮターンの質問履歴及び回答履歴を考慮している。

　したがって、例えば、Ｎ＝２、かつ、現在の質問が話題Ａに関する質問である場合、５ターン目の話題Ａに関する対話中の質問及び回答と、４ターン目の話題Ｂに関する対話中の質問及び回答とが履歴として考慮され、１ターン目～２ターン目の話題Ａに関する対話中の質問及び回答は履歴として利用することができなかった。また、例えば、Ｎ＝５、かつ、現在の質問が話題Ａに関する質問である場合、１ターン目～５ターン目の対話中の質問及び回答が履歴として考慮されるが、現在の質問の話題Ａとは関連の薄い話題Ｂの対話中の質問及び回答も履歴として考慮されてしまっていた。

　本発明の一実施形態は、上記の点に鑑みてなされたもので、現在の質問に対する回答に必要な履歴を考慮した回答を生成することを目的とする。

　上記目的を達成するため、一実施形態に係る対話処理装置は、対話型機械読解タスクにおける現在の質問を表す単語列である質問Ｑ_ｉと、過去の質問を表す単語列の集合である質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝と、前記過去の質問に対する過去の回答を表す単語列の集合である回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝とを入力として、予め学習済みの第１モデルパラメータを用いて、前記過去の質問及び前記過去の回答それぞれの属性及び重要度の少なくとも一方を反映した文脈符号化ベクトルｕを生成する文脈符号化手段と、前記質問Ｑ_ｉに対する回答Ａ_ｉの生成に用いられる文書Ｐと、前記文脈符号化ベクトルｕとを入力として、予め学習済みの第２モデルパラメータを用いて、前記文書Ｐと前記過去の質問及び前記過去の回答とのマッチングを行い、前記質問Ｑ_ｉに対する回答Ａ_ｉを生成する回答生成手段と、を有することを特徴とする。

　現在の質問に対する回答に必要な履歴を考慮した回答を生成することができる。

実施例１における対話処理装置の全体構成の一例を示す図である。実施例１における対話処理の一例を示すフローチャートである。実施例２における対話処理装置の全体構成の一例を示す図である。実施例２における学習処理の一例を示すフローチャートである。対話型機械読解タスクの学習処理の一例を示すフローチャートである。クラス分類タスクの学習処理の一例を示すフローチャートである。一実施形態に係る対話処理装置のハードウェア構成の一例を示す図である。

　以下、本発明の一実施形態について説明する。本実施形態では、対話型の機械読解において、現在の質問に対する回答に必要な履歴（質問履歴及び回答履歴）を考慮した回答を生成することが可能な対話処理装置１０について説明する。なお、以降では、質問履歴中の過去の質問の「過去質問」、回答履歴中の過去の回答を「過去回答」とも表す。

　ここで、対話型の機械読解では、ニューラルネットワークにより実現されるモデルを用いて現在の質問に対する回答を生成する。このため、本実施形態に係る対話処理装置１０には、このモデルのパラメータ（以降、「モデルパラメータ」とも表す。）を学習する「学習時」と、学習済みモデルパラメータを用いて現在の質問に対する回答を生成する「推論時」とが存在する。

　本実施形態における学習時では、履歴（質問履歴及び回答履歴）を利用しながら現在の質問に回答する対話型の機械読解タスクと、与えられた文書内の各文の属性や重要度に基づいて各文を分類するクラス分類タスクとの両方を用いてモデルパラメータを学習する。言い換えれば、対話型機械読解タスク及びクラス分類タスクのマルチタスク学習によりモデルパラメータを学習する。これにより、学習済みのモデルは、履歴を参照しながら現在の質問に対する回答を生成する能力と、与えられた文書の各文の属性や重要度に基づいて各文を分類する能力とを獲得することができる。すなわち、この学習済みのモデルは、現在の質問の回答に対する各過去質問及び各過去回答の有効性を判断し、その有効性に基づいて現在の質問に回答することが可能となる。

　以降では、対話型機械読解タスク及びクラス分類タスクのマルチタスク学習によりモデルパラメータが学習済みであるものとして、この学習済みモデルパラメータを用いて現在の質問に対する回答を生成する推論時について実施例１で説明し、対話型機械読解タスク及びクラス分類タスクのマルチタスク学習によりモデルパラメータを学習する学習時について実施例２で説明する。

　［実施例１］
　実施例１では、モデルパラメータは学習済みであるものとして、現在の質問に対する回答を生成する対話処理装置１０について説明する。

　＜全体構成＞
　まず、実施例１における対話処理装置１０の全体構成について、図１を参照しながら説明する。図１は、実施例１における対話処理装置１０の全体構成の一例を示す図である。

　図１に示すように、実施例１における対話処理装置１０は、対話処理部１１０と、モデルパラメータ記憶部２１０とを有する。

　対話処理部１１０は、現在の質問Ｑ_ｉと質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝と回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝と文書Ｐとを入力として、モデルパラメータ記憶部２１０に記憶されている学習済みモデルパラメータを用いて、現在の質問Ｑ_ｉに対する回答Ａ_ｉを生成及び出力する。ここで、ｉはターンを表す。ターンとは、上述したように、１つの質問とこの質問に対する１つの回答との組（つまり、１回の対話）のことである。また、文書は、例えば、「パッセージ」や「検索対象テキスト」等と称されてもよい。

　なお、現在の質問Ｑ_ｉ、質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝中の各過去質問Ｑ_１，・・・，Ｑ_ｉ－１、回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝中の各過去回答Ａ_１，・・・，Ａ_ｉ－１、及び文書Ｐはそれぞれ単語列で表される。

　対話処理部１１０には、文脈符号化部１１１と、マッチング部１１２と、回答予測部１１３とが含まれる。これら各部は、それぞれニューラルネットワークで実現される。以降では、モデルパラメータのうち、文脈符号化部１１１が用いるモデルパラメータ（つまり、文脈符号化部１１１を実現するニューラルネットワークのパラメータ）を「第１モデルパラメータ」と表す。同様に、モデルパラメータのうち、マッチング部１１２が用いるモデルパラメータを「第２モデルパラメータ」、回答予測部１１３が用いるモデルパラメータを「第３モデルパラメータ」と表す。

　文脈符号化部１１１は、現在の質問Ｑ_ｉと質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝と回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝とを入力として、学習済み第１モデルパラメータを用いて、質問履歴及び回答履歴中の過去質問及び過去回答の属性や重要度を反映した文脈の符号化を行って、文脈符号化ベクトルｕを生成及び出力する。ここで、このような文脈符号化ベクトルｕを得るためには、現在の質問と質問履歴中の各過去質問と回答履歴中の各過去回答とを区別することと、それぞれの属性や重要性を考慮することが必要である。

　現在の質問と質問履歴中の各過去質問と回答履歴中の各過去回答との区別については、例えば、現在の質問や各過去質問、各過去回答のそれぞれを１つの文として、各文の間に特殊文字を挿入することで区別できる。一方で、各文の属性や重要性の考慮については、或る文書中の各文の属性や重要度に基づいて各文を分類するクラス分類タスクの学習により獲得することができる。なお、文は、１つ以上の単語の列（単語列）で表される。

　文脈符号化部１１１によって生成及び出力される文脈符号化ベクトルｕは、

である。ここで、ｄ_１は特徴量の次元数である。また、Ｌ_１はＱ_ｉ、｛Ｑ_１，・・・，Ｑ_ｉ－１｝及び｛Ａ_１，・・・，Ａ_ｉ－１｝の合計単語数と、文頭や文末、文の区切り等を表す特殊文字の単語数とを足した単語数である。

　文脈符号化部１１１を実現するニューラルネットワークとしては、例えば、以下の参考文献１に記載されているＢＥＲＴ（Bidirectional Encoder Representations from Transformers）と呼ばれるモデルを用いることができる。この場合、先頭にクラストークン［ＣＬＳ］を付加すると共に、Ｑ_ｉ、Ｑ_１，・・・，Ｑ_ｉ－１，Ａ_１，・・・，Ａ_ｉ－１の各々を区別するため、各文をセパレータトークン［ＳＥＰ］で接続した単語列をＢＥＲＴに入力し、出力として文脈符号化ベクトルｕを得る。このとき、ＢＥＲＴに入力される単語列の単語数が所定の単語数に満たない場合には、末尾にパディングトークン［ＰＡＤ］を必要な数だけ付加する。

　参考文献１：J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova. Bert:Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805,2018.
　マッチング部１１２は、文書Ｐ内の各単語に対して現在の質問Ｑ_ｉと履歴（質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝及び回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝）の情報を考慮した特徴量を生成及び出力する。すなわち、マッチング部１１２は、文書Ｐと文脈符号化ベクトルｕとを入力として、学習済み第２モデルパラメータを用いて、現在の質問Ｑ_ｉと履歴の情報を考慮した特徴量

を生成及び出力する。ここで、ｄ_２は特徴量の次元数である。また、Ｌ_２は文書Ｐの単語数と特殊文字の単語数とを足した単語数である。

　マッチング部１１２を実現するニューラルネットワークの要件としては、文書Ｐと現在の質問Ｑ_ｉ並びに質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝及び回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝とを単語単位でマッチングすることが必要である。この要件を満たすニューラルネットワークのモデルは複数考えられるが、例えば、以下の参考文献２に記載されているBiDirectional Attention Flow Modelに含まれるCharacter Embed LayerとWord Embed LayerとContextual Embed LayerとAttention Layerとで構成されるモデルを用いることができる。この場合、文書ＰをCharacter Embed Layer及びWord Embed Layerに入力し、Contextual Embed Layerを経てAttention Layerに入力する。また、文脈符号化ベクトルｕもAttention Layerに入力する。そして、Attention Layerの出力を特徴量ｖとして用いればよい。

　参考文献２：Min Joon Seo, Aniruddha Kembhavi, Ali Farhadi, and Hannaneh Hajishirzi. Bidirectional attention flow for machine comprehension. In ICLR 2017.
　なお、上記の参考文献１に記載されているＢＥＲＴは文脈符号化部１１１及びマッチング部１１２の両方の要件を満たすため、文脈符号化部１１１及びマッチング部１１２をＢＥＲＴ単体で実現することも可能である。この場合、Ｑ_ｉ，Ｑ_１，・・・，Ｑ_ｉ－１，Ａ_１，・・・，Ａ_ｉ－１，Ｐをセパレータトークン［ＳＥＰ］で接続した単語列をＢＥＲＴに入力する。このとき、Segment Embeddingを用いて、文脈符号化部１１１とマッチング部１１２の役割を区別する。すなわち、Ｑ_ｉ，Ｑ_１，・・・，Ｑ_ｉ－１，Ａ_１，・・・，Ａ_ｉ－１のSegment Embeddingと、ＰのSegment Embeddingとを異ならせることで、文脈符号化部１１１とマッチング部１１２の役割を区別する。特徴量ｖとしては、ＢＥＲＴの出力のうち、文書Ｐに対応する特徴量を用いればよい。

　回答予測部１１３は、現在の質問Ｑ_ｉ並びに質問履歴及び回答履歴と単語単位でマッチングした文書Ｐの特徴量ｖを入力として、学習済み第３モデルパラメータを用いて、現在の質問Ｑ_ｉに対する回答Ａ_ｉを生成及び出力する。ここで、回答Ａ_ｉは単語列で表され、その生成方法には２種類ある。

　１つ目の生成方法は文書Ｐ内の単語列を抜き出して回答とする抽出形式であり、２つ目の方法は文書Ｐ内の単語だけでなく予め定められた所定の語彙集合内の単語も用いて回答を生成する生成形式である。抽出形式では、文書Ｐ内の各単語が回答範囲の開始位置である確率と終了位置である確率とをそれぞれ予測し、これらの予測結果に基づいて動的計画法で回答範囲を導出した上で、この回答範囲内の単語列を回答Ａ_ｉとすることが必要である。一方で、生成形式では、回答Ａ_ｉを単語毎に生成することが必要である。

　抽出形式で利用可能なニューラルネットワークとしては、例えば、上記の参考文献２に記載されているModeling LayerとOutput Layerとで構成されるモデルが挙げられる。この場合、Modeling Layer及びOutput Layerに特徴量ｖを入力し、文書Ｐ内の各単語が開始位置である確率と終了位置である確率とを出力する。

　一方で、生成形式で利用可能ニューラルネットワークとしては、例えば、以下の参考文献３に記載されているPointer-Generator Modelが挙げられる。この場合、Pointer-Generator Modelの符号化器に特徴量ｖを入力し、文書Ｐ内の単語の重要度を示す確率を出力する。この確率と、予め定められた外部の所定の語彙集合の重要度を示す確率とをPointer- Generator Modelの復号器に入力し、回答Ａ_ｉを生成する。

　参考文献３：Abigail See, Peter J. Liu, and Christopher D. Manning. Get to the point: Summarization with pointer-generator networks. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 1073-1083, July 2017.
　なお、マッチング部１１２と回答予測部１１３とが２つの機能部に分かれている必要はなく、例えば、マッチング部１１２と回答予測部１１３とで１つの機能部が構成されていてもよい。

　モデルパラメータ記憶部２１０は、学習済みモデルパラメータ（つまり、学習済み第１モデルパラメータ、学習済み第２モデルパラメータ及び学習済み第３モデルパラメータ）を記憶する。

　＜対話処理＞
　以降では、現在の質問Ｑ_ｉと質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝と回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝とを入力として、学習済みモデルパラメータを用いて、現在の回答Ｑ_ｉに対する回答Ａ_ｉを生成及び出力する処理（対話処理）について、図２を参照しながら説明する。図２は、実施例１における対話処理の一例を示すフローチャートである。

　まず、対話処理部１１０の文脈符号化部１１１は、現在の質問Ｑ_ｉと質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝と回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝とを入力として、学習済み第１モデルパラメータを用いて、文脈符号化ベクトルｕを生成及び出力する（ステップＳ１０１）。

　次に、対話処理部１１０のマッチング部１１２は、文書Ｐと、上記のステップＳ１０１で出力された文脈符号化ベクトルｕとを入力として、学習済み第２モデルパラメータを用いて、特徴量ｖを生成及び出力する（ステップＳ１０２）。

　そして、対話処理部１１０の回答予測部１１３は、上記のステップＳ１０２で出力された特徴量ｖを入力として、学習済み第３モデルパラメータを用いて、回答Ａ_ｉを生成及び出力する（ステップＳ１０３）。これにより、現在の質問Ｑ_ｉに対する回答として、履歴中の過去質問及び過去回答の属性や重要度を考慮した回答Ａ_ｉ（言い換えれば、現在の質問Ｑ_ｉに関連する過去質問や過去回答を重点的に考慮した回答Ａ_ｉ）を生成及び出力することができる。

　［実施例２］
　実施例２では、モデルパラメータは学習済みでないものとして、これらのモデルパラメータを学習する対話処理装置１０について説明する。

　＜全体構成＞
　まず、実施例２における対話処理装置１０の全体構成について、図３を参照しながら説明する。図３は、実施例２における対話処理装置１０の全体構成の一例を示す図である。

　図３に示すように、実施例２における対話処理装置１０は、対話処理部１１０と、バッチ集合作成部１２０と、更新部１３０と、モデルパラメータ記憶部２１０と、学習用データセット記憶部２２０とを有する。

　モデルパラメータ記憶部２１０は、学習済みでないモデルパラメータを記憶する。なお、以降では、学習済みでないモデルパラメータを単に「モデルパラメータ」と表す。

　学習用データセット記憶部２２０は、モデルパラメータの学習に用いられる学習用データセットを記憶する。ここで、実施例２では、学習用データセットとして、対話型機械読解タスクの学習データで構成される学習用データセットと、クラス分類タスクの学習データで構成される学習用データセットとを用いる。これらの学習用データセットは予め収集等しておき、学習用データセット記憶部２２０に記憶される。

　対話型機械読解タスクの学習用データセットとしては、例えば、以下の参考文献４に記載されているデータセットを用いることができる。

　参考文献４：Eunsol Choi, He He, Mohit Iyyer, Mark Yatskar, Wentau Yih, Yejin Choi, Percy Liang, and Luke Zettlemoyer. 2018. QuAC : Question Answering in Context. In EMNLP. ArXiv: 1808.07036.
　対話型機械読解タスクの学習用データセットに含まれる各学習データは、現在の質問Ｑ_ｉと質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝と回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝と文書Ｐと正解回答

とで構成される。以降では、現在の質問Ｑ_ｉに対する正解回答を「＾Ａ_ｉ」とも表記する。なお、抽出形式の対話型機械読解タスクである場合は正解回答＾Ａ_ｉは、文書Ｐ中で回答となる範囲の開始位置と終了位置との組で表される。一方で、生成形式の対話型機械読解タスクである場合は正解回答＾Ａ_ｉは、単語列で表される。

　また、クラス分類タスクの学習用データセットとしては、与えられた文書の各文の属性や重要度に基づいて各文を分類する能力を獲得可能なデータセットを用いる。このため、クラス分類タスクの学習用データセットは、文毎に属性や重要度を示すラベルが付与された学習データのデータセットである必要がある。すなわち、クラス分類タスクの学習用データセットに含まれる各学習データは、分類対象の文集合｛Ｓ_１，・・・，Ｓ_｜Ｓ｜｝と各文の正解クラス

とで構成される。以降では、Ｓ_ｊ（ｊ＝１，・・・，｜Ｓ｜）に対する正解クラスを「＾ｃ_ｊ」とも表記する。なお、Ｓ_ｊは文（単語列）、｜Ｓ｜は文集合に含まれる文数である。

　与えられた各文の重要度に基づいて各文を分類する能力を獲得可能なデータセットとしては、上記の参考文献３に記載されているデータセットを用いることができる。このデータセットは、原文と要約文との組で構成される学習データのデータセットであり、文書要約に用いられている。このため、原文の各文に対して、当該文が要約文に含まれるか否かの２値のラベルを付与することができる。例えば、当該文が要約文に含まれる場合にはラベルとして重要度「高」を示すラベルを付与し、当該文が要約文に含まれない場合にはラベルとして重要度「低」を示すラベルを付与することができる。

　したがって、上記の参考文献３に記載されているデータセットを用いて、原文の各文に対して、上記のような重要度を示す２値のラベルを付与することで、重要度に基づいて各文を分類する能力を獲得可能なデータセットが得られる。言い換えれば、これにより、上記の参考文献３に記載されているデータセットを用いて、原文の各文が、要約文に含まれるか否かを予測（つまり、各文が要約文に含まれるか否かを分類）するクラス分類タスクに利用可能なデータセットが得られる。このため、このようなデータセットを用いて学習を行うことで、モデルは各文の重要度を推定することが可能になる。

　また、与えられた各文の属性に基づいて各文を分類する能力を獲得可能なデータセットとしては、例えば、以下の参考文献５に記載されているデータセットを用いることができる。

　参考文献５：Mihail Eric, Lakshmi Krishnan, Francois Charette, and Christopher D. Manning, "Key-Value Retrieval Networks for Task-Oriented Dialogue"
　この参考文献５に記載されているデータセットは、２話者間の対話１つに対して、その対話の話題・内容を表すラベルが１つ付与されたデータセットである。例えば、最寄りのガソリンスタンドの場所を尋ねる対話（合計３ターン程度）に対して「navigate」のラベルが付与されている。上記の参考文献５に記載されているデータセットでは、「schedule」、「navigate」、「weather」の３通りのラベルが用いられている。したがって、このデータセットを用いる場合は、対話に付与されたラベルを対話内の各発話に付与することにより、これら各発話を表す文に３通りのラベルのうちの１つのラベルを付与して使用する。

　バッチ集合作成部１２０は、学習用データセット記憶部２２０に記憶されている学習用データセット（対話型機械読解タスクの学習用データセットとクラス分類タスクの学習用データセット）から、学習用のバッチ集合を作成する。

　すなわち、バッチ集合作成部１２０は、例えば、対話型機械読解タスクの学習用データセットをバッチ単位に分割してバッチ集合Ｂ^ｄを作成すると共に、クラス分類タスクの学習用データセットをバッチ単位に分割してバッチ集合Ｂ^ｃを作成する。そして、バッチ集合作成部１２０は、バッチ集合Ｂ^ｄに含まれる各バッチに対して識別子ｉｄｘ＝１を付与すると共に、バッチ集合Ｂ^ｃに含まれる各バッチに対して識別子ｉｄｘ＝０を付与した上で、これらのバッチを合わせたバッチ集合Ｂを作成し、このバッチ集合Ｂに含まれる各バッチの順番をランダムにシャッフルする。これにより、モデルパラメータの学習用のバッチ集合Ｂが作成される。バッチとは、予め決められた数の学習データの集合である。後述するように、バッチ単位でモデルパラメータが更新される。なお、学習用データセットを「バッチ」、予め決められた数の学習データ数で学習用データセットを分割した集合を「ミニバッチ」と呼ぶこともあるが、本明細書では、予め決められた数の学習データ数で学習用データセットを分割した集合を「バッチ」と称する。

　対話処理部１１０は、バッチ集合Ｂに含まれるバッチ内の各学習データを用いて、対話型機械読解タスクによって回答の生成及び出力、又は、クラス分類タスクによってクラスの推定及び出力を行う。すなわち、対話処理部１１０は、当該バッチの識別子がｉｄｘ＝１の場合は、当該バッチ内の学習データ（つまり、対話型機械読解タスクの学習データ）に含まれる現在の質問Ｑ_ｉと質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝と回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝と文書Ｐとを入力として、モデルパラメータを用いて、現在の質問Ｑ_ｉに対する回答Ａ_ｉを生成及び出力する。一方で、対話処理部１１０は、当該バッチの識別子がｉｄｘ＝０の場合は、当該バッチ内の学習データ（つまり、クラス分類タスクの学習データ）に含まれる文集合｛Ｓ_１，・・・，Ｓ_｜Ｓ｜｝を入力として、クラス｛ｃ_１，ｃ_２，・・・，ｃ_｜Ｓ｜｝を推定及び出力する。

　ここで、実施例２では、対話処理部１１０には、文脈符号化部１１１と、マッチング部１１２と、回答予測部１１３と、分類部１１４とが含まれる。これら各部は、それぞれニューラルネットワークで実現される。以降では、分類部１１４が用いるモデルパラメータ（つまり、分類部１１４を実現するニューラルネットワークのパラメータ）を「第４モデルパラメータ」と表す。

　対話型機械読解タスクの学習データを用いる場合には、文脈符号化部１１１、マッチング部１１２及び回答予測部１１３は、実施例１と同様の処理により回答Ａ_ｉを生成及び出力する。ただし、学習済みモデルパラメータの代わりに、学習済みでないモデルパラメータ（つまり、学習済みでない第１モデルパラメータ～第３モデルパラメータ）を用いる。

　一方で、クラス分類タスクの学習データを用いる場合には、文脈符号化部１１１及び分類部１１４は、学習済みでないモデルパラメータ（つまり、学習済みでない第１モデルパラメータ及び第４モデルパラメータ）を用いて、クラス｛ｃ_１，ｃ_２，・・・，ｃ_｜Ｓ｜｝を推定及び出力する。すなわち、例えば、文脈符号化部１１１がＢＥＲＴで実現されている場合には、先頭にクラストークン［ＣＬＳ］を付加すると共に、各文Ｓ_１，・・・，Ｓ_｜Ｓ｜をセパレータトークン［ＳＥＰ］で接続した単語列をＢＥＲＴに入力し、文脈符号化ベクトルｕを生成及び出力する。そして、例えば、１層の線形変換層で構成されるニューラルネットワークで実現される分類部１１４に文脈符号化ベクトルｕを入力し、各文が各クラスにそれぞれ属する確率

を得る。ここで、Ｃはクラス数であり、Ｌ_３は文集合｛Ｓ_１，・・・，Ｓ_｜Ｓ｜｝の合計単語数と特殊文字の単語数とを足した単語数である。このとき、各文を区切る［ＳＥＰ］で文を代表させる場合は、［ＳＥＰ］の位置に対応するｘのベクトル（Ｃ次元のベクトル）を、その文が各クラスにそれぞれ属する確率を表すベクトルとして用いる。これにより、文Ｓ_ｊが各クラスにそれぞれ属する確率が得られ、当該文Ｓ_ｊが属するクラスｃ_ｊが分類部１１４によって推定される。

　更新部１３０は、回答予測部１１３によって生成及び出力された回答Ａ_ｉと正解回答＾Ａ_ｉとの誤差を用いて、モデルパラメータ記憶部２１０に記憶されているモデルパラメータ（第１モデルパラメータ～第３モデルパラメータ）を更新する。また、更新部１３０は、分類部１１４によって推定及び出力されたクラス｛ｃ_１，ｃ_２，・・・，ｃ_｜Ｓ｜｝と正解クラス｛＾ｃ_１，＾ｃ_２，・・・，＾ｃ_｜Ｓ｜｝との誤差を用いて、モデルパラメータ記憶部２１０に記憶されているモデルパラメータ（第１モデルパラメータ及び第４モデルパラメータ）を更新する。

　なお、学習時には第４モデルパラメータも学習対象（更新対象）となるが、推論時には第４モデルパラメータは用いられない。推論時の対話処理部１１０には、分類部１１４が含まれないためである。

　＜学習処理＞
　以降では、学習データを用いて、モデルパラメータ（第１モデルパラメータ～第４モデルパラメータ）を学習する処理（学習処理）について、図４を参照しながら説明する。図４は、実施例２における学習処理の一例を示すフローチャートである。なお、モデルパラメータ記憶部２１０に記憶されているモデルパラメータは、学習処理の開始前に、適当な値に初期化されているものとする。

　まず、バッチ集合作成部１２０は、学習用データセット記憶部２２０に記憶されている学習用データセットからバッチ集合Ｂ^ｄとバッチ集合Ｂ^ｃとを作成し、バッチ集合Ｂ^ｄに含まれる各バッチには識別子ｉｄｘ＝１を付与し、バッチ集合Ｂ^ｃに含まれる各バッチには識別子ｉｄｘ＝０を付与する（ステップＳ２０１）。

　すなわち、バッチ集合作成部１２０は、対話型機械読解タスクの学習用データセットをバッチ単位に分割してバッチ集合Ｂ^ｄを作成し、このバッチ集合Ｂ^ｄに含まれる各バッチに識別子ｉｄｘ＝１を付与する。同様に、バッチ集合作成部１２０は、クラス分類タスクの学習用データセットをバッチ単位に分割してバッチ集合Ｂ^ｃを作成し、このバッチ集合Ｂ^ｃに含まれる各バッチに識別子ｉｄｘ＝０を付与する。なお、識別子ｉｄｘ＝１は当該バッチが対話型機械読解タスクの学習データで構成されるバッチであることを表し、識別子ｉｄｘ＝０は当該バッチがクラス分類タスクの学習データで構成されるバッチであることを表す。

　次に、バッチ集合作成部１２０は、バッチ集合Ｂ^ｄとバッチ集合Ｂ^ｃとを合わせたバッチ集合Ｂを作成し、このバッチ集合Ｂに含まれる各バッチの順番をランダムにシャッフルする（ステップＳ２０２）。これにより、対話型機械読解タスクのバッチとクラス分類タスクのバッチとがランダムな順番で含まれるバッチ集合Ｂが得られる。

　対話処理部１１０は、バッチ集合Ｂに含まれるバッチのうち、未読込の先頭のバッチを読み込む（ステップＳ２０３）。

　次に、対話処理部１１０は、上記のステップＳ２０３で読み込んだバッチに付与されている識別子がｉｄｘ＝１又はｉｄｘ＝０のいずれであるかを判定する（ステップＳ２０４）。

　上記のステップＳ２０４で識別子がｉｄｘ＝１であると判定された場合、対話処理装置１０は、対話型機械読解タスクの学習処理を行う（ステップＳ２０５）。すなわち、対話処理装置１０は、機械読解タスクの学習データを用いて、第１モデルパラメータ～第３モデルパラメータを学習する。なお、対話型機械読解タスクの学習処理の詳細については後述する。

　一方で、上記のステップＳ２０４で識別子がｉｄｘ＝０であると判定された場合、対話処理装置１０は、クラス分類タスクの学習処理を行う（ステップＳ２０６）。すなわち、対話処理装置１０は、クラス分類タスクの学習データを用いて、第１モデルパラメータ及び第４モデルパラメータを学習する。なお、クラス分類タスクの学習処理の詳細については後述する。

　上記のステップＳ２０５又はステップＳ２０６に続いて、対話処理部１１０は、バッチ集合Ｂの中に未読込のバッチがあるか否かを判定する（ステップＳ２０７）。

　上記のステップＳ２０７で未読込のバッチがあると判定された場合、対話処理部１１０は、上記のステップＳ２０３に戻る。これにより、バッチ集合Ｂに含まれる各バッチに対して、その識別子に応じて、上記のステップＳ２０５又はステップＳ２０６のいずれかが実行される。

　一方で、上記のステップＳ２０７で未読込のバッチがあると判定されなかった場合（つまり、バッチ集合Ｂの中の全てのバッチが読込済みである場合）、対話処理部１１０は、学習が収束したか否かを判定する（ステップＳ２０８）。

　そして、上記のステップＳ２０８で学習が収束したと判定されなかった場合、対話処理部１１０は、バッチ集合Ｂの中の全てのバッチを未読込として、上記のステップＳ２０３に戻る。これにより、当該バッチ集合Ｂを用いて、上記のステップＳ２０３～ステップＳ２０７が再度実行される。

　一方で、上記のステップＳ２０８で学習が収束したと判定された場合、対話処理部１１０は、学習処理を終了する。これにより、学習済みモデルパラメータが得られる。なお、学習の収束条件としては、例えば、上記のステップＳ２０３～ステップＳ２０７が所定の回数繰り返し実行されたこと等が挙げられる。

　このように、実施例２では、対話型機械読解タスクとクラス分類タスクのマルチタスク学習（つまり、上記のステップＳ２０５の学習処理と上記のステップＳ２０６の学習処理）により学習済みモデルパラメータを得る。なお、上述したように、学習済み第１モデルパラメータ～学習済み第４モデルパラメータのうち、推論時には、学習済み第１モデルパラメータ～学習済み第３モデルパラメータのみを用いる。

　　≪対話型機械読解タスクの学習処理≫
　次に、上記のステップＳ２０５における対話型機械読解タスクの学習処理の詳細について、図５を参照しながら説明する。図５は、対話型機械読解タスクの学習処理の一例を示すフローチャートである。

　まず、対話処理部１１０は、上記のステップ２０３で読み込んだバッチ（ｉｄｘ＝１が付与されているバッチ）に含まれる学習データのうち、未読込の学習データを読み込む（ステップＳ３０１）。

　次に、対話処理部１１０の文脈符号化部１１１は、上記のステップＳ３０１で読み込んだ学習データに含まれる現在の質問Ｑ_ｉと質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝と回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝とを入力として、第１モデルパラメータを用いて、文脈符号化ベクトルｕを生成及び出力する（ステップＳ３０２）。

　次に、対話処理部１１０のマッチング部１１２は、上記のステップＳ３０１で読み込んだ学習データに含まれる文書Ｐと、上記のステップＳ３０２で出力された文脈符号化ベクトルｕとを入力として、第２モデルパラメータを用いて、特徴量ｖを生成及び出力する（ステップＳ３０３）。

　次に、対話処理部１１０の回答予測部１１３は、上記のステップＳ３０３で出力された特徴量ｖを入力として、第３モデルパラメータを用いて、回答Ａ_ｉを生成及び出力する（ステップＳ３０４）。

　次に、対話処理部１１０は、当該バッチの中に未読込の学習データがあるか否かを判定する（ステップＳ３０５）。

　上記のステップＳ３０５で未読込の学習データがあると判定された場合、対話処理部１１０は、上記のステップＳ３０１に戻る。これにより、当該バッチに含まれる各学習データに対して、上記のステップＳ３０１～ステップＳ３０４が実行される。

　一方で、上記のステップＳ３０５で未読込の学習データがあると判定されなかった場合、更新部１３０は、上記のステップＳ３０４で出力された各回答Ａ_ｉと、これらの各回答Ａ_ｉのそれぞれ対応する正解回答＾Ａ_ｉとの誤差を用いて、モデルパラメータ記憶部２１０に記憶されている第１モデルパラメータ～第３モデルパラメータを更新する（ステップＳ３０６）。なお、更新部１３０は、対話型機械読解タスクの学習に用いられる既知の最適化手法を用いて第１モデルパラメータ～第３モデルパラメータを更新すればよい。

　　≪クラス分類タスクの学習処理≫
　次に、上記のステップＳ２０６におけるクラス分類タスクの学習処理の詳細について、図６を参照しながら説明する。図６は、クラス分類タスクの学習処理の一例を示すフローチャートである。

　まず、対話処理部１１０は、上記のステップ２０３で読み込んだバッチ（ｉｄｘ＝０が付与されているバッチ）に含まれる学習データのうち、未読込の学習データを読み込む（ステップＳ４０１）。

　次に、対話処理部１１０の文脈符号化部１１１は、上記のステップＳ４０１で読み込んだ学習データに含まれる文集合｛Ｓ_１，・・・，Ｓ_｜Ｓ｜｝の入力として、第１モデルパラメータを用いて、文脈符号化ベクトルｕを生成及び出力する（ステップＳ４０２）。

　次に、対話処理部１１０の分類部１１４は、上記のステップＳ４０２で出力された文脈符号化ベクトルｕを入力として、第２モデルパラメータを用いて、各文が各クラスにそれぞれ属する確率ｘを生成及び出力する（ステップＳ４０３）。

　次に、対話処理部１１０の分類部１１４は、上記のステップＳ４０３で出力された確率ｘから、各文Ｓ_１，・・・，Ｓ_｜Ｓ｜が属するクラス｛ｃ_１，ｃ_２，・・・，ｃ_｜Ｓ｜｝を推定する（ステップＳ４０４）。

　次に、対話処理部１１０は、当該バッチの中に未読込の学習データがあるか否かを判定する（ステップＳ４０５）。

　上記のステップＳ４０５で未読込の学習データがあると判定された場合、対話処理部１１０は、上記のステップＳ４０１に戻る。これにより、当該バッチに含まれる各学習データに対して、上記のステップＳ４０１～ステップＳ４０４が実行される。

　一方で、上記のステップＳ４０５で未読込の学習データがあると判定されなかった場合、更新部１３０は、上記のステップＳ４０３で出力された｛ｃ_１，ｃ_２，・・・，ｃ_｜Ｓ｜｝と、正解クラス｛＾ｃ_１，＾ｃ_２，・・・，＾ｃ_｜Ｓ｜｝との誤差を用いて、モデルパラメータ記憶部２１０に記憶されている第１モデルパラメータ及び第４モデルパラメータを更新する（ステップＳ４０６）。なお、更新部１３０は、クラス分類タスクの学習に用いられる既知の最適化手法を用いて第１モデルパラメータ及び第４モデルパラメータを更新すればよい。

　＜ハードウェア構成＞
　最後に、本実施形態に係る対話処理装置１０のハードウェア構成について、図７を参照しながら説明する。図７は、一実施形態に係る対話処理装置のハードウェア構成の一例を示す図である。

　図７に示すように、本実施形態に係る対話処理装置１０は一般的なコンピュータ又はコンピュータシステムで実現され、入力装置３０１と、表示装置３０２と、外部Ｉ／Ｆ３０３と、通信Ｉ／Ｆ３０４と、プロセッサ３０５と、メモリ装置３０６とを有する。これら各ハードウェアは、それぞれがバス３０７を介して通信可能に接続されている。

　入力装置３０１は、例えば、キーボードやマウス、タッチパネル等である。表示装置３０２は、例えば、ディスプレイ等である。なお、対話処理装置１０は、入力装置３０１及び表示装置３０２のうちの少なくとも一方を有していなくてもよい。

　外部Ｉ／Ｆ３０３は、外部装置とのインタフェースである。外部装置には、記録媒体３０３ａ等がある。対話処理装置１０は、外部Ｉ／Ｆ３０３を介して、記録媒体３０３ａの読み取りや書き込み等を行うことができる。記録媒体３０３ａには、対話処理装置１０が有する各機能部（対話処理部１１０、バッチ集合作成部１２０及び更新部１３０）を実現する１以上のプログラムが格納されていてもよい。

　なお、記録媒体３０３ａには、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等がある。

　通信Ｉ／Ｆ３０４は、対話処理装置１０を通信ネットワークに接続するためのインタフェースである。なお、対話処理装置１０が有する各機能部を実現する１以上のプログラムは、通信Ｉ／Ｆ３０４を介して、所定のサーバ装置等から取得（ダウンロード）されてもよい。

　プロセッサ３０５は、例えば、ＣＰＵ（Central Processing Unit）やＧＰＵ（Graphics Processing Unit）等の各種演算装置である。対話処理装置１０が有する各機能部は、例えば、メモリ装置３０６に格納されている１以上のプログラムがプロセッサ３０５に実行させる処理により実現される。

　メモリ装置３０６は、例えば、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）、フラッシュメモリ等の各種記憶装置である。対話処理装置１０が有する各記憶部（モデルパラメータ記憶部２０１及び学習用データセット記憶部２２０）は、例えば、メモリ装置３０６を用いて実現可能である。なお、これら各記憶部のうちの少なくとも１つの記憶部が、対話処理装置１０と通信ネットワークを介して接続される記憶装置（例えば、データベースサーバ等）を用いて実現されていてもよい。

　本実施形態に係る対話処理装置１０は、図７に示すハードウェア構成を有することにより、上述した対話処理や学習処理を実現することができる。なお、図７に示すハードウェア構成は一例であって、対話処理装置１０は、他のハードウェア構成を有していてもよい。例えば、対話処理装置１０は、複数のプロセッサ３０５を有していてもよいし、複数のメモリ装置３０６を有していてもよい。

　本発明は、具体的に開示された上記の実施形態に限定されるものではなく、請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

　１０　　　　対話処理装置
　１１０　　　対話処理部
　１１１　　　文脈符号化部
　１１２　　　マッチング部
　１１３　　　回答予測部
　１１４　　　分類部
　１２０　　　バッチ集合作成部
　１３０　　　更新部
　２１０　　　モデルパラメータ記憶部
　２２０　　　学習用データセット記憶部

Claims

　対話型機械読解タスクにおける現在の質問を表す単語列である質問Ｑ_ｉと、過去の質問を表す単語列の集合である質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝と、前記過去の質問に対する過去の回答を表す単語列の集合である回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝とを入力として、予め学習済みの第１モデルパラメータを用いて、前記過去の質問及び前記過去の回答それぞれの属性及び重要度の少なくとも一方を反映した文脈符号化ベクトルｕを生成する文脈符号化手段と、
　前記質問Ｑ_ｉに対する回答Ａ_ｉの生成に用いられる文書Ｐと、前記文脈符号化ベクトルｕとを入力として、予め学習済みの第２モデルパラメータを用いて、前記文書Ｐと前記過去の質問及び前記過去の回答とのマッチングを行い、前記質問Ｑ_ｉに対する回答Ａ_ｉを生成する回答生成手段と、
　を有することを特徴とする対話処理装置。
　前記第１モデルパラメータ及び前記第２モデルパラメータは、前記対話型機械読解タスクと、単語列で表される文を複数のクラスに分類するクラス分類タスクとのマルチタスク学習によって学習されたパラメータである、ことを特徴とする請求項１に記載の対話処理装置。
　対話型機械読解タスクにおける現在の質問を表す単語列である質問Ｑ_ｉと、過去の質問を表す単語列の集合である質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝と、前記過去の質問に対する過去の回答を表す単語列の集合である回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝とを接続した第１入力単語列、又は、クラス分類タスクで分類対象となる各文をそれぞれ表す単語列を接続した第２入力単語列のいずれかを入力として、第１モデルパラメータを用いて、前記第１入力単語列又は前記第２入力単語列で表される文脈の文脈符号化ベクトルｕを生成する文脈符号化手段と、
　前記質問Ｑ_ｉに対する回答Ａ_ｉの生成に用いられる文書Ｐと、前記第１入力単語列から生成された文脈符号化ベクトルｕとを入力として、第２モデルパラメータを用いて、前記文書Ｐと前記第１入力単語列に含まれる前記過去の質問及び前記過去の回答とのマッチングを行い、前記質問Ｑ_ｉに対する回答Ａ_ｉを生成する回答生成手段と、
　前記第２入力単語列から生成された文脈符号化ベクトルｕを入力として、第３モデルパラメータを用いて、前記各文のそれぞれが属するクラスを推定するクラス推定手段と、
　前記回答Ａ_ｉと前記質問Ｑ_ｉに対する正解回答との誤差を用いて、前記第１モデルパラメータと前記第２モデルパラメータとを更新する第１更新手段と、
　前記クラスと前記分類対象となる各文のそれぞれが属する正解クラスとの誤差を用いて、前記第１モデルパラメータと前記第３モデルパラメータを更新する第２更新手段と、
　を有することを特徴とする学習装置。
　前記学習装置は、
　前記分類対象となる各文と、前記各文のそれぞれが属する正解クラスとが含まれる学習データで構成される第１学習用データセットを用いて、前記クラス推定手段によるクラスの推定と、前記第２更新手段による更新とを行い、
　前記分類対象となる各文と前記正解クラスは、原文に含まれる各文と前記各文のそれぞれが要約文に含まれるか否かを示す重要度であり、前記原文と前記要約文とが含まれるデータセットから作成される、又は／及び、１以上の文で構成される対話に含まれる各文と前記対話における話題又は内容を示す属性であり、前記対話と前記対話における話題又は内容を表すラベルとが含まれるデータセットから作成される、ことを特徴とする請求項３に記載の学習装置。
　前記第１学習用データセットと、前記対話型機械読解タスクの学習に用いられる第２学習用データセットとをそれぞれ複数のバッチに分割し、前記複数のバッチで構成されるバッチ集合を作成するバッチ集合作成手段と、
　前記バッチ集合に含まれるバッチ毎に、前記バッチが、前記第１学習用データセットから分割されたバッチ又は前記第２学習用データセットから分割されたバッチのいずれであるかを判定する判定手段と、を有し、
　前記文脈符号化手段は、
　前記第１学習用データセットから分割されたバッチであると判定された場合、前記バッチを構成する学習データに含まれる各文をそれぞれ表す単語列を接続した第２入力単語列を入力として、前記文脈符号化ベクトルｕを生成し、
　前記第２学習用データセットから分割されたバッチであると判定された場合、前記バッチを構成する学習データに含まれる前記質問Ｑ_ｉと前記質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝と前記回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝とを接続した第１入力単語列を入力として、前記文脈符号化ベクトルｕを生成する、ことを特徴とする請求項４に記載の学習装置。
　対話型機械読解タスクにおける現在の質問を表す単語列である質問Ｑ_ｉと、過去の質問を表す単語列の集合である質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝と、前記過去の質問に対する過去の回答を表す単語列の集合である回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝とを入力として、予め学習済みの第１モデルパラメータを用いて、前記過去の質問及び前記過去の回答それぞれの属性及び重要度の少なくとも一方を反映した文脈符号化ベクトルｕを生成する文脈符号化手順と、
　前記質問Ｑ_ｉに対する回答Ａ_ｉの生成に用いられる文書Ｐと、前記文脈符号化ベクトルｕとを入力として、予め学習済みの第２モデルパラメータを用いて、前記文書Ｐと前記過去の質問及び前記過去の回答とのマッチングを行い、前記質問Ｑ_ｉに対する回答Ａ_ｉを生成する回答生成手順と、
　をコンピュータが実行することを特徴とする対話処理方法。
　対話型機械読解タスクにおける現在の質問を表す単語列である質問Ｑ_ｉと、過去の質問を表す単語列の集合である質問履歴｛Ｑ_１，・・・，Ｑ_ｉ－１｝と、前記過去の質問に対する過去の回答を表す単語列の集合である回答履歴｛Ａ_１，・・・，Ａ_ｉ－１｝とを接続した第１入力単語列、又は、クラス分類タスクで分類対象となる各文をそれぞれ表す単語列を接続した第２入力単語列のいずれかを入力として、第１モデルパラメータを用いて、前記第１入力単語列又は前記第２入力単語列で表される文脈の文脈符号化ベクトルｕを生成する文脈符号化手順と、
　前記質問Ｑ_ｉに対する回答Ａ_ｉの生成に用いられる文書Ｐと、前記第１入力単語列から生成された文脈符号化ベクトルｕとを入力として、第２モデルパラメータを用いて、前記文書Ｐと前記第１入力単語列に含まれる前記過去の質問及び前記過去の回答とのマッチングを行い、前記質問Ｑ_ｉに対する回答Ａ_ｉを生成する回答生成手順と、
　前記第２入力単語列から生成された文脈符号化ベクトルｕを入力として、第３モデルパラメータを用いて、前記各文のそれぞれが属するクラスを推定するクラス推定手順と、
　前記回答Ａ_ｉと前記質問Ｑ_ｉに対する正解回答との誤差を用いて、前記第１モデルパラメータと前記第２モデルパラメータとを更新する第１更新手順と、
　前記クラスと前記分類対象となる各文のそれぞれが属する正解クラスとの誤差を用いて、前記第１モデルパラメータと前記第３モデルパラメータを更新する第２更新手順と、
　をコンピュータが実行することを特徴とする学習方法。
　コンピュータを、請求項１又は２に記載の対話処理装置における各手段、又は、請求項３乃至５の何れか一項に記載の学習装置における各手段、として機能させるためのプログラム。