WO2022180990A1

WO2022180990A1 - 質問生成装置

Info

Publication number: WO2022180990A1
Application number: PCT/JP2021/046101
Authority: WO
Inventors: 熱気澤山
Original assignee: 株式会社Ｎｔｔドコモ
Priority date: 2021-02-24
Filing date: 2021-12-14
Publication date: 2022-09-01
Also published as: JPWO2022180990A1

Abstract

質問生成装置２０は、ユーザの入力文を解析することにより、文の内容に関する予め定められた複数の分類のうち、入力文に含まれると特定又は推定される一以上の第１分類を抽出する解析部２２と、複数の分類のうちから一以上の第１分類を除外することにより残った一以上の第２分類と、入力文と、に基づいて、入力文及び各第２分類に応じた一以上の質問文を生成する質問文生成部２３と、質問文生成部２３によって複数の質問文が生成された場合に、入力文と複数の質問文とに基づいて、複数の質問文のうちからユーザに提示する質問文を選定する質問文選定部２４と、を備える。

Description

質問生成装置

　本発明の一側面は、質問生成装置に関する。

　ユーザ発話に対する応答メッセージを自動生成する仕組みが知られている（例えば、特許文献１）。特許文献１には、以下のような処理が開示されている。まず、ユーザ発話に対する質問文の候補が複数生成される。その後、複数の質問文の各々について、ユーザ発話に含まれる特徴量（形態素解析により得られた各単語）の含有率が計算され、含有率が高い質問文が質問候補から除外される。

国際公開第２０１３／０８０４０６号

　上記特許文献１に開示された処理によれば、含有率が高い質問文（すなわち、既にユーザ発話で言及されている内容に関する冗長な質問）を排除することができる。しかし、上記処理では、複数の質問文の候補を最初に生成した後に、全ての質問文間で含有率の比較を行う必要があるため、効率的ではない。

　そこで、本発明の一側面は、ユーザ入力文に応じた質問文をより効率的に生成することが可能な質問生成装置を提供することを目的とする。

　本発明の一側面に係る質問生成装置は、ユーザの入力文を解析することにより、文の内容に関する予め定められた複数の分類のうち、入力文に含まれると特定又は推定される一以上の第１分類を抽出する解析部と、複数の分類のうちから一以上の第１分類を除外することにより残った一以上の第２分類と、入力文と、に基づいて、入力文及び各第２分類に応じた一以上の質問文を生成する質問文生成部と、質問文生成部によって複数の質問文が生成された場合に、入力文と複数の質問文とに基づいて、複数の質問文のうちからユーザに提示する質問文を選定する質問文選定部と、を備える。

　本発明の一側面に係る質問生成装置によれば、予め定められた複数の分類のうち入力文に含まれると特定又は推定される第１分類以外の第２分類に応じた質問文のみが生成される。すなわち、入力文に含まれている可能性の高い内容（第１分類）に関する冗長な質問を生成する処理を省略し、意味のある質問（すなわち、入力文に含まれていない可能性の高い第２分類に関する質問）のみを生成することができる。さらに、第１分類に関する質問の生成が回避され、質問文の候補数が予め絞られることにより、質問文選定部の処理負荷が低減される。従って、ユーザ入力文に応じた質問文をより効率的に生成することができる。

　本発明の一側面によれば、ユーザ入力文に応じた質問文をより効率的に生成することが可能な質問生成装置を提供することができる。

実施形態に係る情報処理システムの全体構成を示す図である。質問生成モデルにより生成される質問文の例を示す図である。モデル生成装置の処理手順の一例を示すフローチャートである。解析部の処理の第１の例を示す図である。解析部の処理の第２の例を示す図である。質問文生成部の処理の一例を示す図である。質問生成装置の処理手順の一例を示すフローチャートである。質問生成処理の第１例を示す図である。質問生成処理の第２例を示す図である。モデル生成装置及び質問生成装置のハードウェア構成の一例を示す図である。

　以下、添付図面を参照して、本発明の一実施形態について詳細に説明する。なお、図面の説明において同一又は相当要素には同一符号を付し、重複する説明を省略する。

　図１は、一実施形態に係る情報処理システム１の全体構成を示す図である。情報処理システム１は、モデル生成装置１０と、質問生成装置２０と、一以上のユーザ端末３０と、を含んでいる。モデル生成装置１０は、質問生成モデルＭを生成する装置である。質問生成モデルＭは、任意の文を入力して当該文に対する質問文を生成するように機械学習によって作成された学習済みモデルである。質問生成装置２０は、ユーザの入力文に対する質問文を生成し、生成された質問文をユーザに提示する装置である。本実施形態では、質問生成装置２０は、モデル生成装置１０により生成された質問生成モデルＭを利用することにより、ユーザの入力文に対する質問文を生成する。質問生成装置２０は、ユーザ端末３０と通信可能に構成されている。質問生成装置２０は、ユーザ端末３０を介したユーザ操作により入力された入力文をユーザ端末３０から受信し、生成した質問文をユーザ端末３０に送信するように構成されている。ユーザ端末３０は、ユーザにより所持及び操作される任意の端末である。ユーザ端末３０の具体例としては、スマートフォン、タブレット端末、デスクトップＰＣ、ラップトップＰＣ、ウェアラブル端末等が挙げられる。なお、モデル生成装置１０及び質問生成装置２０の各々は、単一のサーバ装置によって構成されてもよいし、複数のサーバ装置によって構成されてもよい。また、モデル生成装置１０と質問生成装置２０とは、同一のサーバ装置によって構成されてもよい。

　本実施形態では一例として、情報処理システム１は、ユーザの語学学習（本実施形態では、英語学習）を支援するシステムである。具体的には、ユーザの入力文は英文であり、質問生成装置２０により生成される質問文も英文である。例えば、質問生成装置２０は、ユーザにより入力された任意の英文を取得し、当該英文の内容に応じた質問文をユーザに提示し、ユーザに英語での回答を促すことにより、ユーザの英語学習を支援する。ここで、ユーザの学習効率及び学習意欲を向上させる観点から、冗長な（無意味な）質問文の生成及び提示は、極力排除されるべきである。例えば、ユーザの入力文が「I　went　to　ski　last　winter.（私は昨冬スキーに行きました。）」である場合について考える。この場合、入力文には、時期（when）に関する情報（ここでは、「last　winter」）が含まれている。従って、この場合、入力文に含まれている時期について問う「When　did　you　go　to　ski?（あなたはいつスキーに行きましたか？）」といった質問文は冗長な質問文であり、ユーザに提示すべきではない。質問生成装置２０は、このような冗長な質問文の生成及び提示を回避して、入力文に応じた適切な内容の質問文を生成及び提示するように構成されている。

［モデル生成装置の構成］
　モデル生成装置１０は、ペア情報取得部１１と、教師データ生成部１２と、モデル生成部１３と、モデル記憶部１４と、を有する。

　ペア情報取得部１１は、質問文と当該質問文に対する回答文とを含むペア情報を取得する。質問文とそれに対する回答文とのペアに関して、例えば、市販の英語問題集等において、非常に多くのサンプル（例文）が存在している。ペア情報取得部１１は、例えばこのようなサンプルをペア情報として取得してもよい。ただし、ペア情報の情報源は上記例に限られない。例えば、ペア情報取得部１１は、ユーザと対話を行う任意の対話システムに蓄積された対話ログ、Ｗｅｂアンケートの回答結果（Ｑ＆Ａ）等の、質問及び回答のペアを抽出可能な任意の情報源から、ペア情報を取得してもよい。ペア情報の例としては、質問文「What　animal　do　you　like?（好きな動物は何ですか？）」、及び当該質問文に対する回答文「I　don’t　really　like　animals.（私はあまり動物が好きではありません。）」のペア等が挙げられる。

　教師データ生成部１２は、ペア情報取得部１１により取得されたペア情報に含まれる回答文を入力データに対応させると共にペア情報に含まれる質問文を出力データに対応させた教師データを生成する。言い換えれば、教師データ生成部１２は、ペア情報に含まれる質問文と回答文との時間的な前後関係を逆にした教師データを生成する。より具体的には、教師データ生成部１２は、時間的に後に発生した回答文（入力データ）から時間的に前に発生した質問文（出力データ）を予測するという関係性を有する教師データを生成する。

　本実施形態では、教師データ生成部１２は、ペア情報に含まれる回答文を入力データに対応させると共に、ペア情報に含まれる質問文の分類を示す分類情報を入力データに更に対応させた教師データを生成する。ここで、分類情報は、質問内容（質問対象）に関するカテゴリである。本実施形態では一例として、分類情報は、英語の疑問詞に対応する分類を示す情報である。例えば、分類情報は、いわゆる５Ｗ１Ｈと呼ばれる６つの分類を示す情報である。すなわち、分類情報は、「いつ（when）」、「どこで（where）」、「誰が（who）」、「何を（what）」、「なぜ（why）」、「どのように（how）」の６つの分類を示す情報である。

　例えば、教師データ生成部１２は、質問文に含まれる疑問詞を抽出し、抽出された疑問詞を分類情報として用いる。例えば、上述したペア情報の例では、教師データ生成部１２は、質問文「What　animal　do　you　like?」に含まれる疑問詞「what」を抽出し、疑問詞「what」を分類情報として用いる。この場合、疑問詞「what」と回答文「I　don’t　really　like　animals.」とが入力データに対応すると共に、質問文「What　animal　do　you　like?」が出力データに対応する教師データが生成される。例えば、教師データは、以下のようなデータ形式により表される。この例では、教師データは、「疑問詞（５Ｗ１Ｈ）の区分を指定するトークン、回答文、回答文と質問文との区切りを示すトークン<SEP>、質問文、文末を示すトークン<EOS>」によって構成されている。このようなデータ形式で表される教師データでは、トークン<SEP>よりも前の部分が入力データに対応し、トークン<SEP>よりも後の部分が出力データに対応する。また、トークン<EOS>によって教師データ間の区切りを認識することが可能であるため、教師データが複数ある場合には、以下のような形式で表された教師データを複数連結した１つのテキストデータを用いて学習を行うことができる。
（教師データの例）
<what>I　don’t　really　like　animals.<SEP> What　animal　do　you　like?<EOS>

　なお、質問文に疑問詞（５Ｗ１Ｈ）が含まれない場合（例えば、ペア情報に含まれる質問文が「Do　you～」等のクローズドクエスチョンである場合）には、教師データ生成部１２は、特定の疑問詞がないこと（その他）を示す情報（例えば、空（null）を示す情報等）を分類情報に設定してもよい。このような教師データ（すなわち、「その他」の分類情報を含む教師データ）を用いて後述するモデル生成部１３による学習を行うことにより、質問生成モデルＭに入力される分類情報が空（null）の場合（すなわち、疑問詞の指定がない場合）であっても質問文（例えば、クローズドクエスチョンに対応する質問文）を生成可能な質問生成モデルＭを生成することが可能となる。

　モデル生成部１３は、教師データ生成部１２により生成された教師データを用いた機械学習を実行することにより、任意の第１文を入力して当該第１文に対する質問文（第２文）を出力する質問生成モデルＭを生成する。上述したように、本実施形態では、教師データは、入力データに対応するデータとして分類情報を含んでいる。このため、質問生成モデルＭは、任意の第１文及び任意の分類情報を入力して当該任意の分類情報が示す分類（本実施形態では、５Ｗ１Ｈのいずれかの疑問詞、又は「その他」を示す分類）に応じた質問文（第２文）を出力するように構成される。

　図２は、本発明者により作成された質問生成モデルＭによって、ある入力文「I　studied　English　yesterday.（私は昨日英語を勉強した。）」から得られた各分類情報（疑問詞）に対応する質問文の例を示している。このように、上述した教師データを用いた機械学習によって、ある入力文（第１文）と任意の分類情報とを入力することにより、入力文の内容が加味されると共に、入力された分類情報に関する事項を質問する質問文（第２文）を生成及び出力することが可能な質問生成モデルＭが得られた。

　モデル生成部１３は、予め用意された言語モデルに対する追加学習を行うことにより、質問生成モデルＭを生成してもよい。例えば、モデル生成部１３は、ＢＥＲＴ（Bidirectional　Encoder　Representations　from　Transformers）、ＧＰＴ－２（Generative　Pre-trained　Transformer）等の学習済みの大規模言語モデルをベースとして用いて、上述した教師データを用いた追加学習（例えば、ファインチューニング、転移学習等）を実行することにより、質問生成モデルＭを生成してもよい。上述したような言語モデルをベースとして質問生成モデルＭを生成することにより、より自然な文章（第２文）を生成可能な質問生成モデルＭを得ることが可能となる。

　モデル生成部１３により生成された質問生成モデルＭは、モデル記憶部１４に記憶される。モデル記憶部１４に記憶された質問生成モデルＭは、質問生成装置２０（より具体的には、後述する質問文生成部２３）によって利用される。

　図３に示されるフローチャートを参照して、モデル生成装置１０の処理手順（一実施形態に係るモデル生成方法）の一例について説明する。まず、ペア情報取得部１１は、ペア情報を取得する（ペア情報取得ステップ、ステップＳ１）。ペア情報取得部１１は、質問生成モデルＭを学習させるために十分な数のペア情報を取得する。続いて、教師データ生成部１２は、ペア情報取得部１１により取得されたペア情報に基づいて、教師データを生成する（教師データ生成ステップ、ステップＳ２）。具体的には、ペア情報取得部１１は、ペア情報に含まれる回答文を入力データに対応させると共にペア情報に含まれる質問文を出力データに対応させた教師データを生成する。本実施形態では、教師データ生成部１２は、ペア情報に含まれる質問文の分類（例えば、質問文に含まれる疑問詞）を示す分類情報を入力データに更に対応させた教師データを生成する。続いて、モデル生成部１３は、教師データ生成部１２により生成された教師データを用いた機械学習を実行することにより、質問生成モデルＭを生成する（モデル生成ステップ、ステップＳ３）。生成された質問生成モデルＭは、モデル記憶部１４に格納される。

［質問生成装置の構成］
　質問生成装置２０は、受付部２１と、解析部２２と、質問文生成部２３と、質問文選定部２４と、質問文補正部２５と、提示部２６と、を有する。

　受付部２１は、ユーザの入力文をユーザ端末３０から取得（受信）する。

　解析部２２は、受付部２１により取得されたユーザの入力文を解析することにより、文の内容に関する予め定められた複数の分類のうち、入力文に含まれると特定又は推定される一以上の第１分類を抽出する。本実施形態では一例として、複数の分類は、上述した分類情報と同一である。すなわち、複数の分類は、英語の疑問詞（例えば５Ｗ１Ｈ）に対応する分類である。以下、解析部２２が第１分類の抽出するために実行する処理の具体例について説明する。

　第１の例として、解析部２２は、入力文に一の疑問詞（本実施形態では、５Ｗ１Ｈの６つの分類のうちの任意の分類）に対応する固有表現が含まれる場合に、当該一の疑問詞に対応する分類を第１分類として抽出する。図４は、解析部２２の処理の第１の例を示す図である。図４は、入力文が「I　went　to　Kyoto　yesterday.（私は昨日京都に行きました。）」である場合の例を示している。まず、解析部２２は、入力文に含まれる固有表現を全て抽出する。固有表現の抽出には、公知の手法（例えば、Ｂｉ－ＬＳＴＭ－ＣＲＦ等）を使用することができる。

　固有表現には、予め定められた複数のクラスが定義されている。一例として、人名、地名、組織名、時間、日付（時期を含む）、金額、地形名、施設名等のクラスが定義されている。各クラスは、予め、上述した疑問詞の分類と対応付けられる。例えば、「人名」は、疑問詞「who」と対応付けられる。「地名」、「地形名」、及び「施設名」は、疑問詞「where」と対応付けられる。「時間」及び「日付」は、疑問詞「when」と対応付けられる。このような対応付けは、事前にオペレータ等によって任意に設定され得る。

　解析部２２によって入力文から抽出される固有表現は、上記のいずれかのクラスに属する。すなわち、解析部２２は、入力文に含まれる固有表現を抽出すると共に、当該固有表現が属するクラスに関する情報を取得する。図４の例では、解析部２２は、入力文から、疑問詞「when」に対応するクラス「日付」に属する固有表現「yesterday」と、疑問詞「where」に対応するクラス「地名」に属する固有表現「Kyoto」と、を抽出する。従って、図４の例では、解析部２２は、疑問詞「when」及び「where」を、第１分類として抽出する。言い換えれば、解析部２２は、入力文に「when」及び「where」に関する内容が含まれていると解析する。

　第２の例として、解析部２２は、学習済みモデル（分類モデル）を利用することにより、第１分類を抽出してもよい。図５は、解析部２２の処理の第２の例を示す図である。分類モデルの例としては、マルチクラス分類を行う１つの分類モデルＭ１と、疑問詞毎に用意された２値分類を行う分類モデルＭ２と、が挙げられる。

　図５の左側に示されるように、マルチクラス分類を行う分類モデルＭ１は、入力文を入力して、入力文と各分類（ここでは、５Ｗ１Ｈの６つの分類と「その他」の計７つの分類）との適合度（入力文が各分類に関する内容を含む確率）を出力するように構成された学習済みモデルである。図５の例では、分類モデルＭ１に入力文「I　went　to　ski　last　winter　to　Nagano　with　Hanako.」が入力された結果、入力文が各疑問詞を含む確率（各疑問詞に対応する内容を含む確率）が出力されている。この例では、入力文は、疑問詞「where」に対応するクラス「地名」に対応する固有表現「Nagano」を含んでおり、疑問詞「when」に対応するクラス「日付」に対応する固有表現「winter」を含んでおり、疑問詞「who」に対応するクラス「人名」に対応する固有表現「Hanako」を含んでいる。このため、分類モデルの出力結果において、疑問詞「where」、「when」、及び「who」の確率が、他の疑問詞の確率よりも大きくなっている。例えば、解析部２２は、予め定められた閾値（ここでは一例として「０．２」）以上の確率値に対応する分類（図５の例では、疑問詞「where」、「when」、及び「who」）を第１分類として抽出してもよい。

　図５の右側に示されるように、２値分類を行う分類モデルＭ２は、疑問詞の分類毎に用意される。例えば、疑問詞「when」に対応する分類モデルＭ２は、入力文を入力して、当該入力文が「when」を含む確率（すなわち、当該入力文に「when」に対応する内容が含まれている確率）を出力するように構成される。同様に、疑問詞「how」に対応する分類モデルＭ２は、入力文を入力して、当該入力文が「how」を含む確率（すなわち、当該入力文に「how」に対応する内容が含まれている確率）を出力するように構成される。他の疑問詞に対応する分類モデルＭ２も同様である。例えば、解析部２２は、各疑問詞に対応する分類モデルＭ２により出力された確率値を参照し、予め定められた閾値以上の確率値に対応する分類を第１分類として抽出してもよい。

　上述したような分類モデルＭ１，Ｍ２は、例えば、一層又は多層のニューラルネットワーク等によって構成され得る。分類モデルＭ１，Ｍ２は、例えば、ある文章と当該文章に含まれる疑問詞の情報（すなわち正解ラベル）とをセットにした教師データを用いた機械学習（例えば、深層学習等）を実行することにより生成される。

　質問文生成部２３は、予め定められた複数の分類（本実施形態では、５Ｗ１Ｈの６つの分類）のうちから、解析部２２により抽出された一以上の第１分類を除外することにより残った一以上の第２分類を取得する。そして、質問文生成部２３は、入力文と、当該一以上の第２分類と、に基づいて、入力文及び各第２分類に応じた一以上の質問文を生成する。

　図５の例では、解析部２２により疑問詞「where」、「when」及び「who」に対応する分類が第１分類として抽出される。この場合、質問文生成部２３は、残りの疑問詞「what」、「why」、及び「how」に対応する３つの分類を第２分類として取得する。この場合、図６に示されるように、解析部２２は、入力文及び第２分類の各ペア（この例では、「入力文＋what」、「入力文＋why」、及び「入力文＋how」）に対応する質問文を生成する。一例として、質問文生成部２３は、モデル生成装置１０により生成された質問生成モデルＭ（モデル記憶部１４に記憶された質問生成モデルＭ）を用いて質問文を生成する。より具体的には、質問文生成部２３は、入力文及び第２分類のペアを質問生成モデルＭに入力することにより、質問生成モデルＭから出力される質問文を取得する。例えば、質問文生成部２３は、教師データにおける入力データに対応する部分と同様の形式のテキストデータ（例えば、「<what>I　went　to　ski　last　winter　to　Nagano　with　Hanako.」）を質問生成モデルＭに入力する。その結果、質問生成モデルＭによって、指定された疑問詞（この例では「what」）及び入力文に応じた質問文が生成及び出力される。

　図６の例では、質問文生成部２３は、「入力文＋what」のペアに対応する質問文として、「What　did　you　do　last　winter?（あなたは、昨冬何をしましたか？）」を生成し、「入力文＋why」のペアに対応する質問文として、「Why　did　you　go　skiing　last　winter?（あなたは、なぜ昨冬スキーに行ったのですか？）」を生成し、「入力文＋how」のペアに対応する質問文として、「How　did　you　get　there?（あなたは、どのようにしてそこに行ったのですか？）」を生成する。

　質問文選定部２４は、質問文生成部２３によって複数の質問文が生成された場合に、入力文と複数の質問文とに基づいて、当該複数の質問文のうちからユーザに提示する質問文を選定する。例えば、ユーザに対して１つの質問文のみを提示する場合には、質問文選定部２４は、質問文生成部２３により生成された複数の質問文のうちから、ユーザに提示すべき１つの質問文を決定する。なお、ユーザに対して予め定められた数（Ｎ個（Ｎは２以上の整数））の質問を提示可能な場合には、質問文選定部２４は、質問文生成部２３によって生成された質問文の数がＮよりも多い場合に、Ｎ個の質問文を選定してもよい。質問文選定部２４の処理の詳細については後述する。

　質問文補正部２５は、質問文生成部２３により生成された質問文（例えば、質問文選定部２４によって選定された１つの質問文）を、入力文の内容が加味された、より適切な質問文に補正する。なお、特に補正すべき箇所がない場合には、質問文補正部２５による質問文の補正はされなくてもよい。また、質問文補正部２５が質問文を補正するタイミングは、質問文選定部２４の処理よりも前でもよい。この場合、質問文補正部２５は、質問文生成部２３により生成された各質問文の補正処理（補正の要否を判断する処理を含む）を実行すればよい。

　例えば、質問文補正部２５は、質問文生成部２３により生成された質問文と入力文とを比較し、固有表現の分類が互いに同一である、質問文に含まれる第１単語及び入力文に含まれる第２単語が抽出された場合に、質問文中の第１単語を第２単語に置換する。質問文補正部２５の処理の詳細については後述する。

　提示部２６は、質問文生成部２３により生成された質問文（複数の質問文が生成された場合には、質問文選定部２４により選定された質問文）をユーザに提示する。本実施形態では、提示部２６は、質問文をユーザ端末３０に送信し、ユーザ端末３０が備えるディスプレイ等の表示部に質問文を表示させることにより、上記質問文をユーザに提示する。

　図７に示されるフローチャートを参照して、質問生成装置２０の処理手順の一例について説明する。

　まず、受付部２１は、ユーザの入力文をユーザ端末３０から取得する（ステップＳ１１）。続いて、解析部２２は、受付部２１により取得されたユーザの入力文を解析することにより、入力文に含まれると特定又は推定される第１分類を抽出する（ステップＳ１２）。例えば、図４に示したように、解析部２２は、上述した固有表現抽出の手法により、予め定められた複数の分類（本実施形態では、５Ｗ１Ｈの各疑問詞に対応する分類）のいずれかに対応する固有表現クラスに属する固有表現が入力文から抽出された場合に、当該固有表現クラスに対応する分類（疑問詞）を、第１分類として特定してもよい。また、解析部２２は、例えば、図５に示したような分類モデルＭ１，Ｍ２を用いて、予め定められた閾値以上の確率値が出力された分類（疑問詞）を、第１分類として推定してもよい。図４の例では、解析部２２の処理により、疑問詞「when」及び「where」に対応する２つの分類が、第１分類として抽出される。

　続いて、質問文生成部２３は、複数の分類（５Ｗ１Ｈの６つの分類）のうちから、解析部２２により抽出された一以上の第１分類を除外することにより残った一以上の第２分類を取得する（ステップＳ１３）。図４の例では、当該処理により、疑問詞「who」、「what」、「why」、及び「how」に対応する４つの分類が、第２分類として取得される。

　続いて、質問文生成部２３は、入力文及び各第２分類の組毎に質問文を生成する（ステップＳ１４）。一例として、質問文生成部２３は、質問生成モデルＭを用いて質問文を生成する。具体的には、図６に示されるように、質問文生成部２３は、入力文及び第２分類のペアを質問生成モデルＭに入力し、質問生成モデルＭからの出力結果を、各ペアに対応する質問文として生成する。

　続いて、質問文選定部２４は、質問文生成部２３により複数の質問文が生成された場合（すなわち、第２分類が複数存在する場合）（ステップＳ１５：ＹＥＳ）、当該複数の質問文のうちからユーザに提示する質問文を選定する（ステップＳ１６）。なお、質問文生成部２３により生成された質問文が１つの場合（ステップＳ１５：ＮＯ）、質問文選定部２４の処理は省略される。

　続いて、質問文補正部２５は、質問文生成部２３により生成された質問文（本実施形態では、質問文選定部２４によって選定された１つの質問文）が所定の補正条件を満たす場合（ステップＳ１７：ＹＥＳ）、質問文を、入力文の内容が加味された、より適切な質問文に補正する（ステップＳ１８）。なお、所定の補正条件を満たさない場合（ステップＳ１７：ＮＯ）、質問文補正部２５の処理は省略される。ここで、所定の補正条件は、例えば、質問文及び入力文から上述した第１単語及び第２単語が抽出されることである。すなわち、質問文及び入力文から上述した第１単語及び第２単語が抽出された場合、ステップＳ１８において、質問文に含まれる第１単語が、入力文に含まれる第２単語に置換される。

　続いて、提示部２６は、質問文生成部２３により生成された質問文（複数の質問文が生成された場合には、質問文選定部２４により選定された質問文）をユーザに提示する（ステップＳ１９）。

（第１実施例）
　図８を参照して、上述した図７のフローチャートに示した処理の第１実施例について説明する。図８は、質問生成装置２０の処理内容及び処理結果をＣＵＩ表示した画面の一例である。

　第１実施例では、受付部２１により、入力文「I　went　to　ski　last　winter　to　Nagano　with　Hanako.」が取得される（ステップＳ１１）。続いて、解析部２２により、疑問詞「when」に対応するクラス「日付」に属する固有表現「winter」と、疑問詞「where」に対応するクラス「地名」に属する固有表現「Nagano」と、疑問詞「who」に対応するクラス「人名」に属する固有表現「Hanako」と、が抽出される（ステップＳ１２）。すなわち、「when」、「where」、及び「who」が第１分類として抽出される。その結果、解析部２２により、残りの疑問詞「what」、「how」、及び「why」が第２分類として抽出される（ステップＳ１３）。

　続いて、質問文生成部２３により、各第２分類に対応する質問文が生成される（ステップＳ１４）。この例では、疑問詞「what」に対応する「What　did　you　do　last　winter?」、疑問詞「how」に対応する「How　did　you　get　there?」、及び疑問詞「why」に対応する「Why　did　you　go　skiing　last　winter?」の３つの質問文が生成される。

　続いて、質問文選定部２４が、上記３つの質問文のうちから、ユーザに提示すべき１つの質問文を選定する（ステップＳ１６）。例えば、質問文選定部２４は、質問文生成部２３により生成された各質問文と入力文との類似度を算出し、入力文との類似度がより低い質問文をより優先的に、ユーザに提示する質問文として選定してもよい。

　一例として、質問文選定部２４は、下記に示すような入力文及び各質問の2-gramを作成する。下記において、2-gram（文）は、当該文の2-gramを示す。

　2-gram（入力文）＝｛‘I　went’，‘went　to’，‘to　ski’，‘ski　last’，‘last　winter’，‘winter　to’，‘to　Nagano’，‘Nagano　with’，‘with　Hanako’，‘Hanko　.’｝

　2-gram（whatの質問文）＝｛‘What　did’，‘did　you’，‘you　do’，‘do　last’，‘last　winter’，‘winter　?’｝

　2-gram（howの質問文）＝｛‘How　did’，‘did　you’，‘you　get’，‘get　there’，‘there　?’｝

　2-gram（whyの質問文）＝｛‘Why　did’，‘did　you’，‘you　go’，‘go　skiing’，‘skiing　last’，‘last　winter’，‘winter　?’｝

　質問文選定部２４は、入力文の2-gramと各質問文の2-gramとの積集合を作成する。この例では、入力文の2-gramとwhatの質問文の2-gramとの積集合は｛‘last　winter’｝であり、入力文の2-gramとhowの質問文の2-gramとの積集合は｛‘last　winter’｝であり、入力文の2-gramとwhyの質問文の2-gramとの積集合は空集合｛｝である。

　ここで、上記の積集合の要素数が多い質問文（すなわち、入力文との文章一致率が高い質問文）ほど、入力文と類似する度合い（類似度）が高いといえる。そこで、質問文選定部２４は、積集合の要素数が少ない質問文（すなわち、類似度が低い質問文）ほど優先度を高く設定してもよい。上記例では、whyの質問文（積集合の要素数が「０」）の優先度が、what及びhowの質問文（積集合の要素数が「１」）の優先度よりも高く設定される。このような処理によれば、質問文選定部２４により、whyの質問文「Why　did　you　go　skiing　last　winter?」が、ユーザに提示すべき質問文として選定される。

　続いて、質問文補正部２５による質問文の補正を行うか否かが判定されるが、第１実施例では、上述した補正条件を満たさないため（ステップＳ１７：ＮＯ）、質問文の補正処理（ステップＳ１８）は実行されない。その結果、提示部２６によって、質問文選定部２４により選定されたwhyの質問文が、ユーザに提示される（ステップＳ１９）。

（第２実施例）
　図９を参照して、上述した図７のフローチャートに示した処理の第２実施例について説明する。図９は、質問生成装置２０の処理内容及び処理結果をＣＵＩ表示した画面の一例である。

　第２実施例では、受付部２１により、入力文「I　like　to　go　to　Kyoto.」が取得される（ステップＳ１１）。続いて、解析部２２により、疑問詞「where」に対応するクラス「地名」に属する固有表現「Kyoto」が抽出される（ステップＳ１２）。すなわち、「where」が第１分類として抽出される。ここで、第２実施例では、複数の分類（疑問詞の候補）として、「where」、「when」、「how」、及び「why」の４つの分類が予め定められている。このため、解析部２２により、残りの疑問詞「when」、「how」、及び「why」が第２分類として抽出される（ステップＳ１３）。

　続いて、質問文生成部２３により、各第２分類に対応する質問文が生成される（ステップＳ１４）。この例では、疑問詞「when」に対応する「When　do　you　like　to　go　to　Kyoto?」、疑問詞「how」に対応する「How　would　you　like　to　travel,　by　train　or　by　bus?」、及び疑問詞「why」に対応する「Why　are　you　interested　in　Japan?」の３つの質問文が生成される。

　続いて、質問文選定部２４が、上記３つの質問文のうちから、ユーザに提示すべき１つの質問文を選定する（ステップＳ１６）。例えば、質問文選定部２４は、上述した第１実施例と同様に、2-gramに基づいて質問文を選定してもよい。第２実施例では、入力文の2-gramとwhenの質問文の2-gramとの積集合は｛‘like　to’，‘to　go’，‘to　Kyoto’，‘go　to’｝であり、入力文の2-gramとhowの質問文の2-gramとの積集合は｛‘like　to’｝であり、入力文の2-gramとwhyの質問文の2-gramとの積集合は空集合｛｝である。

　従って、上記例では、whyの質問文（積集合の要素数が「０」）の優先度が、whenの質問文（積集合の要素数が「４」）及びhowの質問文（積集合の要素数が「１」）の優先度よりも高く設定される。このような処理によれば、質問文選定部２４により、whyの質問文「Why　are　you　interested　in　Japan?」が、ユーザに提示すべき質問文として選定される。

　続いて、質問文補正部２５による質問文の補正を行うか否かが判定される。第２実施例では、入力文が、クラス「地名」に属する固有表現「Kyoto」を含んでいる。また、whyの質問文が、クラス「地名」に属する固有表現「Japan」を含んでいる。すなわち、この例では、固有表現の分類が互いに同一である、質問文に含まれる第１単語「Japan」及び入力文に含まれる第２単語「Kyoto」が抽出される。従って、上述した補正条件を満たすため（ステップＳ１７：ＹＥＳ）、質問文の補正処理（ステップＳ１８）が実行される。すなわち、質問文補正部２５により、質問文に含まれる第１単語「Japan」が第２単語「Kyoto」に置換される。すなわち、質問文補正部２５により、質問文「Why　are　you　interested　in　Japan?」が「Why　are　you　interested　in　Kyoto?」に補正される。続いて、提示部２６により、当該補正後の質問文が、ユーザに提示される（ステップＳ１９）。

　以上述べたモデル生成装置１０は、上述したペア情報取得部１１、教師データ生成部１２、及びモデル生成部１３を備える。このようなモデル生成装置１０によれば、任意の第１文を入力して当該第１文に対する質問文（第２文）を生成する質問生成モデルＭが得られる。上記のような質問生成モデルＭを生成するためには、第１文に対応する任意の文と当該任意の文に対する質問文とのペアを教師データとして用いるのが自然である。より具体的には、質問生成モデルＭに入力される第１文は質問生成モデルＭから出力される第２文よりも時間的に前に存在するものであるから、質問生成モデルＭを生成するためには、第１文に対応する任意の文を入力データに対応させると共に当該任意の文よりも時間的に後に発生した質問文（すなわち、当該任意の文に対する質問文）を出力データに対応させた教師データを用いることが自然である。これに対して、モデル生成装置１０では、時間的な前後関係を逆にした教師データ（すなわち、時間的に前に発生した質問文が出力データに対応し、時間的に後に発生した回答文が入力データに対応する教師データ）を用いる。図２の例に示したように、本発明者の知見によれば、このように質問文及び回答文の時間的な前後関係を逆にした教師データを用いた場合にも、入力された第１文に対する質問文である第２文を出力する質問生成モデルＭが得られる。つまり、第１文の内容に関連する質問文である第２文を生成可能な質問生成モデルＭが得られる。さらに、質問文と当該質問文に対する回答文とを含むペア情報は、上述したように、例えば市販の英語問題集等に記載された例文等から、比較的容易に入手可能である。従って、モデル生成装置１０によれば、入力文に対する質問文を生成するモデルを効率的に生成することができる。

　本実施形態では、教師データ生成部１２は、回答文を入力データに対応させると共に、質問文の分類を示す分類情報（一例として、５Ｗ１Ｈ等の疑問詞の分類）を入力データに更に対応させた教師データを生成する。そして、モデル生成部１３は、入力文（第１文）及び任意の分類情報を入力して任意の分類情報が示す分類に応じた質問文（第２文）を出力する質問生成モデルＭを生成する。上記構成によれば、入力文の内容が加味されると共に分類情報により示される内容に関する質問文を生成可能な質問生成モデルＭを得ることができる（図２参照）。

　本実施形態では、教師データ生成部１２は、質問文に含まれる疑問詞（本実施形態では、５Ｗ１Ｈに対応する疑問詞）を抽出し、抽出された疑問詞を分類情報として用いる。上記構成によれば、ペア情報の質問文に含まれる疑問詞に基づいて、分類情報を容易且つ適切に抽出することができる。

　以上述べた質問生成装置２０は、解析部２２、質問文生成部２３、及び質問文選定部２４を備える。このような質問生成装置２０によれば、予め定められた複数の分類のうち入力文に含まれると特定又は推定される第１分類以外の第２分類に応じた質問文のみが生成される。すなわち、入力文に含まれている可能性の高い内容（第１分類）に関する冗長な質問を生成する処理を省略し、意味のある質問（すなわち、入力文に含まれていない可能性の高い第２分類に関する質問）のみを生成することができる。さらに、このように第１分類に関する質問の生成が回避され、質問文の候補数が予め絞られることにより、質問文選定部２４の処理負荷が低減される。従って、ユーザ入力文に応じた質問文をより効率的に生成することができる。

　本実施形態では、解析部２２は、入力文に一の疑問詞に対応する固有表現が含まれる場合に、当該一の疑問詞に対応する分類を第１分類として抽出する。上記構成によれば、公知の固有表現抽出手法を用いることにより、第１分類の抽出を容易且つ効率的に行うことができる。

　本実施形態では、質問文選定部２４は、質問文生成部２３により生成された各質問文と入力文との類似度を算出し、入力文との類似度がより低い質問文をより優先的に、ユーザに提示する質問文として選定する。上記構成によれば、入力文と表層的又は意味的に似ていない質問文（すなわち、より冗長性が排除された質問文）をユーザに提示することが可能となる。

　なお、本実施形態では一例として、入力文の2-gramと各質問の2-gramとの積集合に含まれる要素数が上記類似度の指標として利用されたが、質問文選定部２４は、上記以外の類似度に基づいて、ユーザに提示する質問文を選定してもよい。例えば、質問文選定部２４は、入力文と各質問文のそれぞれをベクトル化し、ベクトル化された入力文とベクトル化された各質問文とのコサイン類似度を算出し、当該コサイン類似度が最小の質問文を、ユーザに提示する質問文として選定してもよい。或いは、質問文選定部２４は、2-gramの代わりに、n-gram（ｎは３以上の整数）を用いてもよいし、1-gram（bag-of-word、単語一致度）を用いてもよい。

　また、質問文選定部２４は、入力文に各第２分類に関する内容が含まれる確率（第２分類毎の適合率）を算出し、当該確率がより低い第２分類に対応する質問文をより優先的に、ユーザに提示する質問文として選定してもよい。例えば、質問文選定部２４は、上述した分類モデル（図５参照）に入力文を入力し、入力文が各分類を含む確率を算出してもよい。そして、質問文選定部２４は、複数の第２分類のうち当該確率が最小の第２分類を抽出し、抽出された第２分類に対応する質問文をユーザに提示する質問文として選定してもよい。上記構成によっても、入力文で言及されていない可能性が高い内容（本実施形態では、５Ｗ１Ｈのうち入力文に含まれていない内容）に関する質問文を、ユーザに提示すべき質問として適切に選定することができる。

　本実施形態では、質問生成装置２０は、質問文補正部２５を備える。上記構成によれば、図９に示される例のように、質問文に含まれる一部の記載（図９の例では「Japan」）を入力文に記載された同一のクラスに属する固有表現（図９の例では「Kyoto」）に置換することにより、入力文に応じたより自然な質問文を生成することができる。図９の例では、質問文に含まれる「Japan」を入力文に含まれるより具体的な表現「Kyoto」に変換することによって、入力文に応じたより自然な質問文が得られる。

　なお、質問文補正部２５による補正を行うための補正条件は、上記実施形態に記載した条件（質問文及び入力文から同一の固有表現クラスに属する第１単語及び第２単語が抽出されること）に限られない。例えば、入力文にクラス「地名」に属する固有表現が１つ含まれ、質問文にクラス「地名」に属する固有表現が２つ含まれている場合について考える。この場合、入力文に含まれるクラス「地名」に属する固有表現が、質問文に含まれる２つの固有表現のうちのいずれに対応するかを特定することができない可能性がある。そこで、質問文補正部２５は、質問文及び入力文に共通の固有表現クラスに属する固有表現（第１単語及び第２単語）が１つずつ存在する場合に限って、第１単語を第２単語に置換してもよい。

　なお、上述したように、質問生成モデルＭの学習において、分類情報が空の場合の質問文（例えば、疑問詞のない「Do　you～」等のクローズドクエスチョン）と回答文とのペア情報に基づく教師データも用いることにより、質問生成モデルＭは、クローズドクエスチョンに対応する質問文も生成可能となる。例えば、解析部２２による処理において第２分類が抽出されなかった場合等には、質問文生成部２３は、入力文と空（null）を示す分類情報とを質問生成モデルＭに入力して、クローズドクエスチョンに対応する質問文を生成してもよい。

　また、上記実施形態では、英文を対象とする処理について説明したが、英語以外の言語で記載された文章が処理対象とされてもよい。例えば、質問生成モデルＭに対する入力文及び質問生成モデルＭから出力される質問文は、英語以外の言語で記載された文章であってもよい。例えば、英語以外の言語で記載された文章を教師データとして用いた機械学習を実行することにより、英語以外の言語に対応する質問生成モデルＭが得られる。

　なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

　機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、割り振り（assigning）などがあるが、これらに限られない。

　例えば、本開示の一実施の形態におけるモデル生成装置１０及び質問生成装置２０は、本開示のモデル生成方法及び質問生成方法を行うコンピュータとして機能してもよい。図１０は、本開示の一実施の形態に係るモデル生成装置１０及び質問生成装置２０に共通のハードウェア構成の一例を示す図である。モデル生成装置１０及び質問生成装置２０の各々は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

　なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。モデル生成装置１０及び質問生成装置２０のハードウェア構成は、図１０に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

　モデル生成装置１０及び質問生成装置２０における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。

　プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central　Processing　Unit）によって構成されてもよい。

　また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３及び通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、モデル生成装置１０のモデル生成部１３、質問生成装置２０の質問文生成部２３等は、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよく、他の機能ブロックについても同様に実現されてもよい。上述の各種処理は、１つのプロセッサ１００１によって実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

　メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read　Only　Memory）、ＥＰＲＯＭ（Erasable　Programmable　ＲＯＭ）、ＥＥＰＲＯＭ（Electrically　Erasable　Programmable　ＲＯＭ）、ＲＡＭ（Random　Access　Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施の形態に係る通信制御方法を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

　ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact　Disc　ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。上述の記憶媒体は、例えば、メモリ１００２及びストレージ１００３の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。

　通信装置１００４は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

　入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、LEDランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

　また、プロセッサ１００１、メモリ１００２などの各装置は、情報を通信するためのバス１００７によって接続される。バス１００７は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

　また、モデル生成装置１０及び質問生成装置２０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital　Signal　Processor）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＰＬＤ（Programmable　Logic　Device）、ＦＰＧＡ（Field　Programmable　Gate　Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つを用いて実装されてもよい。

　以上、本実施形態について詳細に説明したが、当業者にとっては、本実施形態が本明細書中に説明した実施形態に限定されるものではないということは明らかである。本実施形態は、特許請求の範囲の記載により定まる本発明の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本明細書の記載は、例示説明を目的とするものであり、本実施形態に対して何ら制限的な意味を有するものではない。

　本開示において説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

　入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

　判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

　本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

　ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

　また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital　Subscriber　Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

　本開示において説明した情報、信号などは、様々な異なる技術のいずれかを使用して表されてもよい。例えば、上記の説明全体に渡って言及され得るデータ、命令、コマンド、情報、信号、ビット、シンボル、チップなどは、電圧、電流、電磁波、磁界若しくは磁性粒子、光場若しくは光子、又はこれらの任意の組み合わせによって表されてもよい。

　また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。

　上述したパラメータに使用する名称はいかなる点においても限定的な名称ではない。さらに、これらのパラメータを使用する数式等は、本開示で明示的に開示したものと異なる場合もある。様々な情報要素は、あらゆる好適な名称によって識別できるので、これらの様々な情報要素に割り当てている様々な名称は、いかなる点においても限定的な名称ではない。

　本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

　本開示において使用する「第１の」、「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第１及び第２の要素への参照は、２つの要素のみが採用され得ること、又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

　本開示において、「含む（include）」、「含んでいる（including）」及びそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

　本開示において、例えば、英語でのa,　an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

　本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

　１０…モデル生成装置、１１…ペア情報取得部、１２…教師データ生成部、１３…モデル生成部、２０…質問生成装置、２１…受付部、２２…解析部、２３…質問文生成部、２４…質問文選定部、２５…質問文補正部、２６…提示部、Ｍ…質問生成モデル。

Claims

　ユーザの入力文を解析することにより、文の内容に関する予め定められた複数の分類のうち、前記入力文に含まれると特定又は推定される一以上の第１分類を抽出する解析部と、
　前記複数の分類のうちから前記一以上の第１分類を除外することにより残った一以上の第２分類と、前記入力文と、に基づいて、前記入力文及び各前記第２分類に応じた一以上の質問文を生成する質問文生成部と、
　前記質問文生成部によって複数の質問文が生成された場合に、前記入力文と前記複数の質問文とに基づいて、前記複数の質問文のうちから前記ユーザに提示する質問文を選定する質問文選定部と、
を備える質問生成装置。
　前記解析部は、前記入力文に一の疑問詞に対応する固有表現が含まれる場合に、前記一の疑問詞に対応する分類を前記第１分類として抽出する、請求項１に記載の質問生成装置。
　前記質問文選定部は、前記質問文生成部により生成された各前記質問文と前記入力文との類似度を算出し、前記入力文との類似度がより低い前記質問文をより優先的に、前記ユーザに提示する質問文として選定する、請求項１又は２に記載の質問生成装置。
　前記質問文選定部は、前記入力文に各前記第２分類に関する内容が含まれる確率を算出し、前記確率がより低い第２分類に対応する前記質問文をより優先的に、前記ユーザに提示する質問文として選定する、請求項１又は２に記載の質問生成装置。
　前記質問文生成部により生成された前記質問文と前記入力文とを比較し、固有表現の分類が互いに同一である、前記質問文に含まれる第１単語及び前記入力文に含まれる第２単語が抽出された場合に、前記第１単語を前記第２単語に置換する質問文補正部を更に備える、請求項１～４のいずれか一項に記載の質問生成装置。