WO2023084761A1

WO2023084761A1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: WO2023084761A1
Application number: PCT/JP2021/041807
Authority: WO
Inventors: 淳史大塚; 済央野本; 篤深山
Original assignee: 日本電信電話株式会社
Priority date: 2021-11-12
Filing date: 2021-11-12
Publication date: 2023-05-19

Abstract

テキスト中に答えが記載されていない質問文を生成する情報処理装置、情報処理方法及び情報処理プログラムを提供する。質問生成部（１２）は、分析対象文を入力として、予め学習済みの機械学習モデルを用いて、分析対象文の内容に関する文である生成文及び生成文が分析対象文に回答が含まれない情報についての質問文であるか否か示す情報である種別タイプを生成する。質問ファイル作成部（１３）は、質問生成部（１２）により生成された生成文及び種別タイプを出力する。

Description

情報処理装置、情報処理方法及び情報処理プログラム

　本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

　質問生成技術は、テキストを入力としてそのテキストに関する質問文を自然言語で生成する技術である。生成された質問文の多くは、質問応答システムのシナリオや学習用データとして利用される。そのため、質問生成技術で生成される質問文それ自体を価値として提供する仕組みは少ない。

特開２０２０－１３５４５６号公報

　しかしながら、生成される質問文自体を提示することを目的とした装置を考えた場合、従来の質問文生成技術には、元となるテキストから質問を生成する際に既にテキスト中に答えが記載されている質問文であっても生成してしまうという課題がある。

　上述した課題を解決し、目的を達成するために、情報処理装置は、以下の各部を有する。質問生成部は、分析対象文を入力として、予め学習済みの機械学習モデルを用いて、前記分析対象文の内容に関する文である生成文及び前記生成文が前記分析対象文に回答が含まれない情報についての質問文であるか否か示す情報である種別タイプを生成する。質問出力部は、前記質問生成部により生成された前記生成文及び前記種別タイプを出力する。

　本発明によれば、既にテキスト中に答えが記載されている場合には質問文は生成せず、テキスト中に答えが記載されていない場合に質問文を生成することができる。

図１は、実施形態に係る情報処理装置のブロック図である。図２は、質問生成部の詳細を表すブロック図である。図３は、質問生成モデルの学習を行う機械学習装置のブロック図である。図４は、質問応答学習データの一例を示す図である。図５は、質問生成モデルを学習するための学習用データのイメージ図である。図６は、実施形態に係る情報処理装置による質問文作成の一例を示す図である。図７は、実施形態に係る情報処理装置による質問生成処理のフローチャートである。図８は、実施形態に係る機械学習装置による機械学習処理のフローチャートである。図９は、実施形態に係る情報処理装置を用いた実験結果を示す図である。図１０は、情報処理プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願の開示す情報処理装置、情報処理方法及び情報処理プログラムの実施例を図面に基づいて詳細に説明する。なお、以下の実施例により本願の開示する情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。

［実施形態の構成］
　図１は、実施形態に係る情報処理装置のブロック図である。図１を参照して、実施形態に係る情報処理装置１の構成について説明する。

　情報処理装置１は、テキストデータＤＢ２に接続される。テキストデータＤＢ２は、各種文書のファイルが格納されるデータベースである。情報処理装置１は、図１に示すように、テキストデータＤＢ（Data　Base）管理部１１、質問生成部１２及び質問ファイル作成部１３を有する。

　テキストデータＤＢ管理部１１は、テキストデータＤＢ２を監視する。そして、テキストデータＤＢ２に新しいファイルのエントリが追加された場合、テキストデータＤＢ管理部１１は、新たに追加されたエントリのテキスト部分を取得する。そして、テキストデータＤＢ管理部１１は、取得したテキストを質問生成部１２へ転送する。

　ここで、テキストデータＤＢ管理部１１は、テキストデータＤＢ２の監視頻度を予め決められた周期として動作することが可能である。例えば、テキストデータＤＢ管理部１１は、５分単位で逐次監視してテキストを質問生成部１２に転送してもよい。また、テキストデータＤＢ管理部１１は、夜間にまとめてバッチ処理としてその日に追加されたエントリをすべて処理してもよい。他にも、テキストデータＤＢ管理部１１は、テキストデータＤＢ２から出力された信号によりエントリが追加されたことの通知を受けて、テキストを取得してもよい。さらに、テキストデータＤＢ管理部１１は、予め決められた条件に応じたテキストを転送してもよい。例えば、テキストデータＤＢ管理部１１は、決められた条件に合致する人物が作成したファイルのテキストを抽出するように設定されることも可能である。

　質問生成部１２は、テキストの入力をテキストデータＤＢ管理部１１から受ける。そして、質問生成部１２は、取得したテキストを基に質問文を生成する。以下に、質問生成部１２による質問文生成の詳細について説明する。図２は、質問生成部の詳細を表すブロック図である。質問生成部１２は、図２に示すように、テキスト処理部１２１及び質問生成モデル１２２を有する。以下では、質問文を生成する元となる対象のテキストを「分析対象テキスト」と呼ぶ。

　テキスト処理部１２１は、テキストデータＤＢ管理部１１から取得した分析対象テキストＴの入力を受ける。また、テキスト処理部１２１は、観点ラベルＰの入力を図示しない外部装置から受ける。観点ラベルＰは、外部装置を用いて予め入力されていてもよい。分析対象テキストＴ及び観点ラベルＰのいずれも、文字列である。

　観点ラベルＰは、「お金」「法務」などといった質問の観点を示すラベルである。観点ラベルＰは、学習用データとなるテキストの内容に適応していれば自由にラベルを設定することができる。例えば、観点ラベルＰは、「お金」といった抽象的な観点であってもよいし、同一人物の質問集を学習用データとして使用する場合であれば人物名であってもよい。

　ここで、本実施形態では、分析対象テキストＴとともに観点ラベルＰが入力される場合を例に説明したが、質問生成部１２は、質問生成において観点ラベルＰを用いなくてもよい。その場合、テキスト処理部１２１には、分析対象テキストＴは入力されるが、観点ラベルＰは入力されない。

　テキスト処理部１２１は、テキストを表す文字列を深層学習モデルに入力できるベクトル形式に変換する処理を行う。例えば、テキスト処理部１２１は、入力された分析対象テキストＴを所定の処理単位であるトークンに分割する。所定の処理単位としては、形態素や単語またはサブワードなど、任意の単語を用いることが可能である。本実施形態においては、処理の一例として、テキスト処理部１２１は、テキストをトークンに分割する際に形態素解析を行う。そして、テキスト処理部１２１は、各トークンに該当するＩＤ（Identifier）を付与することでone－hotベクトルを作成する。これにより、テキスト処理部１２１は、分析対象テキストＴを質問生成モデル１２２に入力可能な形式に変換する。ここで、形態素解析およびＩＤ付与としては、任意の手法を採用可能である。テキスト処理部１２１は、観点ラベルＰも同様にベクトル形式に変換する。

　その後、テキスト処理部１２１は、ベクトル形式に変換した分析対象テキストＴ及び観点ラベルＰを質問生成モデル１２２へ出力する。

　質問生成モデル１２２は、テキスト生成層１２３を含む深層学習の生成モデルである。質問生成モデル１２２は、テキストを入力として、テキストを出力することができるニューラルネットワークモデルであれば、採用可能なモデルに特に制限はない。

　質問生成モデル１２２は、観点ラベルＰ及び分析対象テキストＴがテキスト処理部１２１から入力される。分析対象テキストＴは、テキストデータＤＢ管理部１１によりテキストデータＤＢ２に格納された文書から抽出されたテキストがテキスト処理部１２１によりベクトル形式に変換されたテキストである。

　テキスト生成層１２３を含む予め学習済みのニューラルネットワークモデルである質問生成モデル１２２は、ベクトル形式に変換された観点ラベルＰ及び分析対象テキストＴを入力として、演算を行なって種別タイプＴｙ及び結果テキストＯを生成する。ここで、観点ラベルＰを用いない場合は、質問生成モデル１２２は、ベクトル形式に変換された分析対象テキストＴを入力として、種別タイプＴｙ及び結果テキストＯを生成する。

　種別タイプＴｙは、結果テキストＯが質問であるか、分析対象テキストから抽出された文字列である抽出テキストであるかを判別するための情報である。また、観点ラベルＰを用いない場合は、種別タイプＴｙは、結果テキストＯが質問であるか否かを判別するための情報である。質問生成モデル１２２は、種別タイプＴｙとして、結果テキストＯが質問文である場合は「質問」という文字列を生成し、結果テキストＯが抽出テキストである場合は「抽出」という文字列を生成する。なお、ここで種別タイプＴｙを表す情報として使用した文字列は一例であり、他の文字列を設定してもよい。

　以上のように、質問生成部１２は、分析対象文を入力として、予め学習済みの機械学習モデルによって生成文及び前記生成文が前記分析対象文に含まれない情報についての質問文であるか否か示す情報である種別タイプを生成する。また、質問生成部１２は、生成文の記載内容の傾向を表す情報である観点を取得して、分析対象文及び観点を入力として、生成文及び種別タイプを生成する。ここで、傾向を表すとは、「お金」「法務」などといったどのようなカテゴリに属する内容であるかを示すことであり、「お金」などの抽象的な情報であってもよいし、人物名など具体的な情報であってもよい。

　また、質問生成部１２が上述した質問生成処理を行うにあたり、事前に質問生成モデル１２２の学習が行われる。以下に、質問生成モデル１２２の学習処理について説明する。図３は、質問生成モデルの学習を行う機械学習装置のブロック図である。ここで、本実施例では、分かり易くするため、図３に示す機械学習装置２０を用いて質問生成モデル１２２の学習を行ったが、機械学習装置２０による機械学習の機能は、情報処理装置１に搭載されてもよい。その場合、情報処理装置１は、動作フェーズとして、学習フェーズ及び推論フェーズの２つを有する。そして、情報処理装置１は、学習フェーズにおいて機械学習装置２０による機能を実行し、推論フェーズにおいて質問文生成処理を行う。

　機械学習装置２０は、質問生成モデル１２２の学習を行うために、機械読解などの質問応答モデル学習用のテキストデータを使用することができる。図４は、質問応答学習データの一例を示す図である。学習用のテキストデータである質問応答学習データは、図４に示すように、学習用テキスト、質問文及び回答文の３つ情報の組として形成される。ここで、学習用テキストは分析対象テキストを一部抜粋したテキストである。機械学習装置２０は、学習用データ生成部２１、質問生成部２２及びパラメータ更新部２３を有する。

　学習用データ生成部２１は、図４に示すような質問応答学習データを取得する。図５は、質問生成モデルを学習するための学習用データのイメージ図である。ここでは、学習用データ生成部２１は、図４に示すような１つの質問応答学習データから、図５に示すような２種類の学習用データを同時に作成する。

　図５の紙面に向かって上段の１つ目の学習用データ＃１は質問生成用の学習用データである。質問生成用の学習用データを作成する場合、学習用データ生成部２１は、質問応答学習データの学習用テキストと質問文とを使用する。まず、学習用データ生成部２１は、質問応答学習データにおける学習用テキストから回答文部分を削除して、質問生成用の学習用データにおける学習用テキストを生成する。次に、学習用データ生成部２１は、質問生成用の学習用データにおける種別タイプを「質問」に設定する。次に、学習用データ生成部２１は、質問生成用の学習用データの結果テキストに質問応答学習データの質問文を設定する。これにより、学習用データ生成部２１は、学習用テキストを回答部分が欠落したテキストとし、且つ、学習用テキストの欠落した部分を質問する質問文を正解生成文とする。

　図４の紙面に向かって下段の２つ目の学習用データ＃２は抽出テキストの生成用の学習用データである。抽出テキストの生成用の学習用データを作成する場合、学習用データ生成部２１は、質問応答学習データの学習用テキスト及び回答文を使用する。この場合、学習用データ生成部２１は、抽出テキストの生成用の学習用データにおける学習用テキストとして、質問応答学習データの学習用テキストをそのままの状態で設定する。次に、学習用データ生成部２１は、抽出テキストの生成用の学習用データにおける種別タイプを「抽出」とする。次に、学習用データ生成部２１は、抽出テキストの生成用の学習用データの結果テキストに回答文を設定する。これにより、学習用データ生成部２１は、回答文を正解生成文とする。

　その後、学習用データ生成部２１は、学習用テキスト、正解の種別タイプ及び正解の結果テキストを含む学習用データに観点ラベルを付与して学習用データを生成する。そして、学習用データ生成部２１は、正解の種別タイプ及び正解の結果テキストをパラメータ更新部２３へ出力する。また、学習用データ生成部２１は、観点ラベルが付加された学習用テキストを質問生成部２２へ出力する。

　以上のように、学習用データ生成部２１は、分析対象文、分析対象文の内容に関する質問文、及び、質問文に対する回答であって分析対象文に含まれる情報を含む回答文を取得し、学習用テキストに含まれない情報についての質問文であることを表す種別タイプを有する生成文を生成する場合、分析対象文から質問文に対する回答となる情報を取り除き、且つ、質問文を正解生成文とし、分析対象文に含まれない情報についての質問文でないことを表す種別タイプを有する生成文を生成する場合、回答文を正解生成文として、分析対象文、種別タイプ及び正解生成文を含む学習用データを生成する。ここで、学習用テキストが分析対象文の一例であり、結果テキストが生成文の一例である。なお、質問文に対する回答であって分析対象文に含まれる情報を含む回答文とは、質問文に対する回答文であり且つ分析対象文に含まれる情報を含む回答文である。また、分析対象文に回答が含まれない情報についての質問文であることを表す種別タイプを有する生成文を生成対象とする場合とは、情報処理装置１により生成される結果テキストである生成文が、分析対象文に含まれない情報についての質問文であることを表す種別タイプを有する、すなわち種別タイプが「質問」となる場合である。同様に、分析対象文に回答が含まれない情報についての質問文でないことを表す種別タイプを有する生成文を生成対象とする場合とは、１情報処理装置により生成される結果テキストである生成文が、分析対象文に含まれない情報についての質問文ではないことを表す種別タイプを有する、すなわち種別タイプが「抽出」となる場合である。

　質問生成部２２は、テキスト処理部２２１及び質問生成モデル２２２を有する。質問生成モデル２２２は、テキスト生成層２２３を含む学習が完了していないニューラルネットワークモデルである。質問生成部２２は、図２に示した質問生成部１２と同様の処理を行う。ただし、質問生成部２２は、学習中のパラメータに基づいて処理を行う。

　テキスト処理部２２１は、図２に示したテキスト処理部１２１と同様の処理を行う。そして、テキスト処理部２２１から出力された観点ラベル及び学習用テキストは、質問生成モデル２２２へ入力される。

　質問生成モデル２２２は、入力された観点ラベル及び学習用テキストに対して、学習中のパラメータに基づいて、図２に示した質問生成モデル１２２と同様の処理を行う。そして、質問生成モデル２２２は、生成した種別タイプ及び結果テキストをパラメータ更新部２３へ出力する。

　パラメータ更新部２３は、正解の種別タイプ及び正解の結果テキストの入力を学習用データ生成部２１から受ける。また、パラメータ更新部２３は、質問生成モデル２２２により生成された種別タイプ及び結果テキストの入力を受ける。そして、パラメータ更新部２３は、質問生成モデル２２２により生成された種別タイプ及び結果テキストと正解の種別タイプ及び正解の結果テキストとを比較する。その後、パラメータ更新部２３は、比較結果にしたがって質問生成モデル２２２のパラメータを更新する。ここで、パラメータ更新部２３は、機械学習における一般的な学習技術を用いることができる。

　以上の処理により、機械学習装置２０は、回答文を含まない分析対象テキストが入力された場合に、種別タイプを「質問」として質問文である結果テキストが生成される学習を行う。また、機械学習装置２０は、回答文を含む分析対象テキストが入力された場合に、種別タイプを「抽出」として回答文に該当する結果テキストが生成される学習を行う。その後、機械学習装置２０は、学習済みの質問生成モデル２２２を情報処理装置１へ送信して、質問生成モデル１２２として使用させる。

　このように、質問生成部２２及びパラメータ更新部２３は、学習用データ生成部２１により生成された学習用データを元に機械学習モデルの学習を行う機械学習実行部である。

　ここで、質問生成部１２及び質問生成部２２は、種別タイプについては文字列でなく２値分類モデルを使用してもよい。この場合の２値分類モデルとは、抽出するか否かの２値を表し、例えば、抽出に１を割り当て、分類に０を割り当てるといった方法を用いることができる。また、質問生成部１２及び質問生成部２２は、種別タイプと結果テキストとを連結して１つの文字列として生成するような学習方法を採用してもよい。

　また、学習用データに対する観点ラベルの付与方法として適当な既存の技術を採用することができる。例えば、人手で観点ラベルを設定してもよいし、キーワードマッチや分類モデルによって質問生成部１２及び質問生成部２２が観点ラベルを自動的に設定する方法を採用してもよい。

　図１に戻って説明を続ける。質問ファイル作成部１３は、質問生成部１２により生成された質問を記載したファイルを作成する。そして、質問ファイル作成部１３は、作成したファイルを出力する。例えば、質問ファイル作成部１３は、文書をアップロードする共有フォルダに生成したファイルをアップロードするなどの処理を行う。ここで、質問ファイル作成部１３が生成するファイルの形式及び記載内容については自由に設定することができる。例えば、質問ファイル作成部１３は、質問を記載したファイルに、質問文と観点とを両方とも記載してもよいし、質問文だけを記載してもよい。また、質問ファイル作成部１３による作成したファイルの出力についても、フォルダへのアップロードに限らない。他にも、質問ファイル作成部１３は、作成したファイルをメールで文書のアップロード者に送信してもよいし、ファイル内容をチャットボット等に出力してチャット形式で通知してもよい。

　この質問ファイル作成部１３は、「質問出力部」の一例にあたる。すなわち、質問ファイル作成部１３は、質問生成部１２により生成された生成文及び種別タイプを出力する。

　図６は、実施形態に係る情報処理装置による質問文作成の一例を示す図である。ここでは、図６に示したファイル２００が用意された場合で説明する。ここでは、用意されたファイル２００に含まれる文章が、文単位でテキストデータＤＢ２にエントリ２０１及び２０２として格納される。ただし、格納方法はこれに限らず、例えばファイル２００の文章全部を１つのエントリに格納されてもよい。

　情報処理装置１のテキストデータＤＢ管理部１１は、テキストデータＤＢ２を監視しており、新たなファイルのエントリ２０１から分析対象テキストを取得す。例えば、テキストデータＤＢ管理部１１は、「デジタルトランスフォーメーションとは、「ＩＴの浸透が、人々の生活をあらゆる面でより良い方向に変化させる」という概念である。デジタルシフトも同様の意味である。」という文字列を分析対象テキストとして取得する。そして、テキストデータＤＢ管理部１１は、取得した分析対象テキストを質問生成部１２へ転送する。

　質問生成部１２は、観点ラベルとして「お金」が入力された場合、種別タイプとして質問を出力し、結果テキストとして質問文２０３を分析対象テキストから生成して出力する。また、観点ラベルとして「用語」が入力された場合、質問生成部１２は、種別タイプとして抽出を出力し、結果テキストとして抽出テキスト２０４を分析対象テキストから生成して出力する。

　質問ファイル作成部１３は、質問生成部１２により生成された質問文２０３に、［お金・質問］のラベルを付与してファイルを生成する。これにより、質問ファイル作成部１３は、質問文２０３において、観点ラベルがお金であり、質問が生成されていることを示す。また、質問ファイル作成部１３は、質問生成部１２により生成された抽出テキスト２０４に、［用語・抽出］のラベルを付与してファイルを生成する。これにより、質問ファイル作成部１３は、抽出テキスト２０４において、用語の定義に関する観点が使用されており、且つ、該当箇所が分析対象テキスト中に存在するため分析対象テキスト中の記載がそのまま使用されていることを示す。

　以上のように、質問ファイル作成部１３は、質問生成部１２により生成された生成文である結果テキスト及び種別タイプを出力する。また、質問ファイル作成部１３は、観点の情報を付加して結果テキスト及び種別タイプを出力する。

　［実施形態の処理］
　図７は、実施形態に係る情報処理装置による質問生成処理のフローチャートである。次に、図７を参照して、本実施形態に係る情報処理装置１による質問生成処理の流れについて説明する。

　テキストデータＤＢ管理部１１は、テキストデータＤＢ２を監視する（ステップＳ１）。

　そして、テキストデータＤＢ管理部１１は、テキストデータＤＢ２に新しいファイルのエントリが追加されたか否かを判定する（ステップＳ２）。新しいファイルのエントリが追加されていない場合（ステップＳ２：否定）、テキストデータＤＢ管理部１１は、ステップＳ１に戻り、新しいファイルのエントリが追加されるまで待機する。

　これに対して、新しいファイルのエントリが追加された場合（ステップＳ２：肯定）、テキストデータＤＢ管理部１１は、新たに追加されたエントリのテキスト部分を分析対象テキストとして取得する。そして、テキストデータＤＢ管理部１１は、取得した分析対象テキストを質問生成部１２へ転送する（ステップＳ３）。

　質問生成部１２は、分析対象テキストをテキストデータＤＢ管理部１１から取得する。また、質問生成部１２は、外部装置などから観点ラベルを取得する（ステップＳ４）。

　質問生成部１２のテキスト処理部１２１は、分析対象テキスト及び観点ラベルをベクトル形式に変換する。そして、テキスト処理部１２１は、ベクトル化した分析対象テキスト及び観点ラベルを質問生成モデル１２２へ入力する。質問生成モデル１２２は、ベクトル化された分析対象テキスト及び観点ラベルを入力としてテキスト生成層１２３により種別タイプ及び結果テキストを生成する（ステップＳ５）。

　質問ファイル作成部１３は、種別タイプ及び結果テキストの入力を質問生成部１２から受ける。そして、質問ファイル作成部１３は、観点ラベルや種別タイプを付与して、結果テキストが登録されたファイルを作成する。その後、質問ファイル作成部１３は、作成しファイルを出力する（ステップＳ６）。

　［実施形態の処理］
　図８は、実施形態に係る機械学習装置による機械学習処理のフローチャートである。次に、図８を参照して、本実施形態に係る機械学習装置２０による機械学習処理の流れについて説明する。

　学習用データ生成部２１は、学習用テキスト、質問文及び回答文を含む質問応答学習データを取得する（ステップＳ１１）。

　次に、学習用データ生成部２１は、「質問」と「抽出」との種別タイプのうち未選択の種別タイプを１つ選択する（ステップＳ１２）。

　次に、学習用データ生成部２１は、選択した種別タイプが「質問」か否かを判定する（ステップＳ１３）。

　選択した種別タイプが「質問」である場合（ステップＳ１３：肯定）、学習用データ生成部２１は、学習用テキストから回答部分を削除する（ステップＳ１４）。

　次に、学習用データ生成部２１は、質問文を正解生成文に設定する（ステップＳ１５）。その後、学習用データ生成部２１は、ステップＳ１７に進む。

　これに対して、選択した種別タイプが「抽出」であり、「質問」でない場合（ステップＳ１３：否定）、学習用データ生成部２１は、回答文を正解生成文に設定する（ステップＳ１６）。その後、学習用データ生成部２１は、ステップＳ１７に進む。

　次に、学習用データ生成部２１は、学習用テキスト、正解の種別タイプ及び正解の結果テキストを含む学習用データに観点ラベルを付与して学習用データを生成する（ステップＳ１７）。

　次に、学習用データ生成部２１は、現在の質問応答学習データについて、両方の種別タイプを選択済みか否か判定する（ステップＳ１８）。未選択の種別タイプが残っている場合（ステップＳ１８：否定）、学習用データ生成部２１は、ステップＳ１２へ戻る。

　これに対して、両方の種別タイプを選択済みの場合（ステップＳ１８：肯定）、学習用データ生成部２１は、全ての質問応答学習データについて学習用データの生成が完了したか否かを判定する（ステップＳ１９）。学習用データの生成を行っていない質問応答学習データが残っている場合（ステップＳ１９：否定）、学習用データ生成部２１は、ステップＳ１１へ戻る。

　これに対して、全ての質問応答学習データについて学習用データの生成が完了した場合（ステップＳ１９：肯定）、学習用データ生成部２１は、生成した学習用データを質問生成部２２へ出力する。質問生成部２２及びパラメータ更新部２３は、学習用データを用いて質問生成モデル２２２の学習を実行する（ステップＳ２０）。

［実験結果］
　次に、本実施形態に係る情報処理装置１による質問生成の実験について説明する。ここでは、人手及び観点分類器を用いて評価用コーパスを作成し、モデルの学習及び評価を行った。

　より具体的には以下の手順により評価用コーパスの生成を実施した。最初に、特定のウェブサイトから質問の生成元の文となる分析対象テキストを取得する。次に、取得した分析対象テキストに対して、人手で質問文を作成する。次に、作成した質問文の回答が分析対象テキストに存在する場合には、回答ありの場合の種別タイプである「抽出」のラベルを付与する。また、作成した質問文の回答が分析対象テキストに存在しない場合には、回答なしの場合の種別タイプである「質問」のラベルを人手で付与する。次に、回答ありの場合は、分析対象テキストから回答となる部分を「結果テキスト」として人手で抽出する。次に、作成した質問文に対して、観点を付与する。ここでは、実験用質問の観点として、実験用に機械的にキーワードベースの分類で作成した４分類及びその他１つの分類のための５つの観点を用いた。４つの観点は、お金、法律、性能及び理由である。お金は、いくら、料金、コスト及び報酬といったキーワードを含む分類である。法律は、違法、ルール、契約及び監査といったキーワードを含む分類である。性能は、評価、実験、能力、比べて及びパフォーマンスといったキーワードを含む観点である。理由は、なぜ、原因、どうして及び因果関係といったキーワードを含む観点である。ただし、この観点付与は人手で行ってもよい。これにより、評価用コーパスには、以上の手順で人手により作成されたテキスト及び質問のペアの全て又は一部を用いた。

　また、質問生成モデル１２２として、以下の２種類の言語生成モデルを用いた。１つは、ＮＴＴコミュニケーション科学基礎研究所が開発した対話モデルであるHobbyiestである（https://github.com/nttcslab/japanese-dialog-transformers/blob/main/README-jp.md）。他の１つは、Huggingface　model　hubのモデルである日本語Ｔ５である（https://huggingface.co/sonoisa/t5-base-japanese）。さらに、質問生成モデル１２２の学習に以下のモデル学習コーパスを用いた。質問応答学習データとして、１９５０５３件の機械読解コーパスを用いた。また、評価用の質問文と同じ人出で作成した９７５５件の質問文を用いた。このうち実際に使用したモデル学習コーパスの総数は、２０４３９４件である。

　そして、学習済みの質問生成モデル１２２に、評価用コーパスを用いて以下の評価実験を実施した。まず、評価用コーパスの中から「回答なし」すなわち種別タイプが「質問」となるデータを選択する。このデータには、人手により作成された質問、分析対象テキスト及び観点ラベルが含まれる。そして、観点ラベル及び分析対象テキストを質問生成モデル１２２に入力する。その後、質問生成モデル１２２の出力として質問が生成されるか、生成された質問は人手により生成された質問に近いかを検証した。

　次に、評価用コーパスの中から「回答あり」すなわち種別タイプが「抽出」となるデータを選択する。このデータには、人手により作成された質問、分析対象テキスト、観点ラベル及び回答文が含まれる。そして、観点ラベル及び分析対象テキストを質問生成モデル１２２に入力する。その後、質問生成モデル１２２の出力として評価用コーパスと同じ回答文が抽出できるかを検証した。

　評価基準として、質問正解率、質問平均ＢＥＲＴスコア、質問平均順位及び観点正解率を用いた。ここでは、評価が高い５つの出力結果を用いて評価を行った。質問正解率、質問平均ＢＥＲＴスコア及び質問平均順位は、評価用コーパスの中の「回答なし」のデータを用いた場合の評価基準である。また、観点正解率は、評価用コーパスの中の「回答あり」のデータを用いた場合の評価基準である。

　質問正解率は、結果テキストに正解である質問が含まれる割合である。言い換えれば、質問正解率は、質問生成モデル１２２が出力した結果テキストのうち、評価用コーパスにおける人手で作成された質問が含まれる割合である。

　また、質問平均ＢＥＲＴスコアは、人手で作成された質問と結果テキストの意味的類似度である。言い換えれば、質問ＢＥＲＴスコアは、テキスト類似度である。例えば、「ＤＴＣを実現するためのリソースはどのくらい見積もっていますか」といった質問文に対するＢＥＲＴスコアを考える。この場合、「いくら投資すればＤＴＣを実現できますか」といった質問文のＢＥＲＴスコアは、０．７７５である。また、「ＤＴＣは法的な問題はないのか」といった質問文のＢＥＲＴスコアは、０．７２１である。また、「ＮＴＴはＩＷＯＮを推進しているのですか」といった質問文のＢＥＲＴスコアは、０．６９３である。

　質問平均逆順位は、評価が高い５つの出力結果の中で最初に正解の質問が出た順位の逆数である。例えば、１番目に正解の質問が出た場合、質問平均逆順位は１である。また、２番目に正解の質問が出た場合、質問平均逆順位は１である。また、３番目に正解の質問が出た場合、質問平均逆順位は０．３３（＝１／３）である。すなわち、質問平均逆順位は、正解が上位にあるほどスコアが１に近くなり、その場合に評価が高くなる評価基準である。

　観点正解率は、正解と同じ観点の結果テキストが出力された割合である。観点正解率は、上述したように、評価用コーパスの中の「回答あり」のデータを用いた場合の評価に用いられる。

　図９は、実施形態に係る情報処理装置を用いた実験結果を示す図である。図９では、５つの各観点ラベルについて、質問生成モデル１２２として日本語Ｔ５を用いた場合及びHobbyiestを用いた場合のそれぞれの質問正解率、質問ＢＥＲＴスコア、質問逆順位及び観点正解率の値を示した。この場合、結果テキストが質問文及び抽出テキストのいずれの場合も、日本語Ｔ５の方が優位である。Hobbyiestは、N－best時に質問のみ又は観点のみが出力される場合が多い。これは、事前学習モデルの影響が大きい可能性が高い。日本語Ｔ５においては、比較的人手で作成された質問と近い内容の質問が生成された。

［実施形態の効果］
　以上に説明したように、本実施形態に係る情報処理装置１は、テキストデータＤＢ２に登録された分析対象テキストを取得して、種別タイプとともに質問文を生成する。これにより、作成した質問文に対する回答が分析対象テキストに含まれるか否かを判定することが可能となる。この判定結果を用いることで、回答が含まれないテキストを抽出することができ、既にテキスト中に答えが記載されている場合には質問文は生成せず、テキスト中に答えが記載されていない場合に質問文を生成することが可能となる。

　また、テキストから質問を生成する場合にどのようなテキストからも質問文を生成してしまうという課題をより確実に解決するために、本実施形態に係る情報処理装置１では、入力に「観点ラベル」を導入した。情報処理装置１は、テキストデータＤＢ２に登録された分析対象テキストを取得して、指定された観点ラベルの観点に応じて質問文を生成する。また、情報処理装置１は、指定された観点ラベルの観点に応じた記載を分析対象テキストから抽出して出力する。これにより、本実施形態に係る情報処理装置１は、入力した観点に関する記載がテキスト中に存在していなければ入力された観点に関する質問を生成し、すでに入力の観点に関する記述がテキスト中に存在する場合はテキスト中の当該箇所を抽出する形で本文を生成する。すなわち、より確実にテキスト中に答えが記載されていない質問文を生成することが可能となる。さらに、観点に基づいた文生成を行うことで、種別タイプが「抽出」である文が生成される場合に、その観点においてはテキスト中に必要な情報が存在すること及びそれがどのように書かれているかを知ることができる。したがって、何故質問文が生成されないのかなどの利用者の理解を助けることが可能となる。また、観点として、特定の人物を用いることで、その人物の想定質問集を作ることもできる。

　本実施形態に係る情報処理装置１及び機械学習装置２０は、テキストから質問を生成する際に、既にテキスト中に答えが記載されている質問文であっても生成してしまうような従来の質問生成技術に対して特定の改善を提供するものであり、テキスト中に回答が記載されているかが不明な場合の質問生成技術に係る技術分野の向上を示すものである。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。また、各装置にて行われる各処理機能は、ＧＰＵ（Graphics　Processing　Unit）を用いて実現されてもよい。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、情報処理装置１及び機械学習装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記の質問生成処理を実行する情報処理プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の情報処理プログラムをコンピュータに実行させることにより、コンピュータを情報処理装置１又は機械学習装置２０として機能させることができる。ここで言うコンピュータには、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、コンピュータにはスマートフォン、携帯電話機やＰＨＳ（Personal　Handy-phone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。情報処理装置１は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の管理処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図１０は、情報処理プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（BASIC　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０やキーボード１１２０などの入力部１２００に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０などの出力部１３００に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、情報処理装置１又は機械学習装置２０と同等の機能を持つ情報処理装置１又は機械学習装置２０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、情報処理装置１又は機械学習装置２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　（付記項１）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　分析対象文を入力として、予め学習済みの機械学習モデルを用いて、前記分析対象文の内容に関する文である生成文及び前記生成文が前記分析対象文に回答が含まれない情報についての質問文であるか否か示す情報である種別タイプを生成し、
　生成した前記生成文及び前記種別タイプを出力する
　情報処理装置。

　（付記項２）
　情報処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記情報処理は、
　分析対象文を入力として、予め学習済みの機械学習モデルを用いて、前記分析対象文の内容に関する文である生成文及び前記生成文が前記分析対象文に回答が含まれない情報についての質問文であるか否か示す情報である種別タイプを生成し、
　生成した前記生成文及び前記種別タイプを出力する
　非一時的記憶媒体。

　（付記項３）
　メモリと、
　前記メモリに接続された少なくとも１つのプロセッサと、
　を含み、
　前記プロセッサは、
　分析対象文、前記分析対象文の内容に関する質問文、及び、前記質問文に対する回答であって前記分析対象文に含まれる情報を含む回答文を取得し、前記分析対象文に回答が含まれない情報についての質問文であることを表す種別タイプを有する生成文を生成対象とする場合、前記分析対象文から前記質問文に対する回答となる情報を取り除き、且つ、前記質問文を正解生成文とし、前記分析対象文に回答が含まれない情報についての質問文でないことを表す前記種別タイプを有する前記生成文を生成対象とする場合、前記回答文を正解生成文として、前記分析対象文、前記種別タイプ及び前記正解生成文を含む学習用データを生成し、
　生成した前記学習用データを元に機械学習モデルの学習を行う
　情報処理装置。
　（ここで、質問文に対する回答であって分析対象文に含まれる情報を含む回答文とは、質問文に対する回答文であり且つ分析対象文に含まれる情報を含む回答文である。また、分析対象文に回答が含まれない情報についての質問文であることを表す種別タイプを有する生成文を生成対象とする場合とは、情報処理装置により生成される生成文が、分析対象文に含まれない情報についての質問文であることを表す種別タイプを有する場合である。同様に、分析対象文に回答が含まれない情報についての質問文でないことを表す種別タイプを有する生成文を生成対象とする場合とは、情報処理装置により生成される生成文が、分析対象文に含まれない情報についての質問文ではないことを表す種別タイプを有する場合である。）

　（付記項４）
　情報処理を実行するようにコンピュータによって実行可能なプログラムを記憶した非一時的記憶媒体であって、
　前記情報処理は、
　分析対象文、前記分析対象文の内容に関する質問文、及び、前記質問文に対する回答であって前記分析対象文に含まれる情報を含む回答文を取得し、前記分析対象文に回答が含まれない情報についての質問文であることを表す種別タイプを有する生成文を生成対象とする場合、前記分析対象文から前記質問文に対する回答となる情報を取り除き、且つ、前記質問文を正解生成文とし、前記分析対象文に回答が含まれない情報についての質問文でないことを表す前記種別タイプを有する前記生成文を生成対象とする場合、前記回答文を正解生成文として、前記分析対象文、前記種別タイプ及び前記正解生成文を含む学習用データを生成し、
　生成した前記学習用データを元に機械学習モデルの学習を行う
　非一時的記憶媒体。

　本明細書に記載された全ての文献、特許出願、及び技術規格は、個々の文献、特許出願、及び技術規格が参照により取り込まれることが具体的かつ個々に記載された場合と同程度に、本明細書中に参照により取り込まれる。

　１　情報処理装置
　２　テキストデータＤＢ
　１１　テキストデータＤＢ管理部
　１２　質問生成部
　１３　質問ファイル作成部
　２０　機械学習装置
　２１　学習用データ生成部
　２２　質問生成部
　２３　パラメータ更新部
　１２１　テキスト処理部
　１２２　質問生成モデル
　１２３　テキスト生成層
　２２１　テキスト処理部
　２２２　質問生成モデル
　２２３　テキスト生成層

Claims

　分析対象文を入力として、予め学習済みの機械学習モデルを用いて、前記分析対象文の内容に関する文である生成文及び前記生成文が前記分析対象文に回答が含まれない情報についての質問文であるか否か示す情報である種別タイプを生成する質問生成部と、
　前記質問生成部により生成された前記生成文及び前記種別タイプを出力する質問出力部と
　を備えたことを特徴とする情報処理装置。
　前記質問生成部は、前記生成文の記載内容の傾向を表す情報である観点を取得して、前記分析対象文及び前記観点を入力として、前記生成文及び前記種別タイプを生成することを特徴とする請求項１に記載の情報処理装置。
　前記質問出力部は、前記観点の情報を付加して前記生成文及び前記種別タイプを出力することを特徴とする請求項２に記載の情報処理装置。
　分析対象文を入力として、予め学習済みの機械学習モデルを用いて、前記分析対象文の内容に関する文である生成文及び前記生成文が前記分析対象文に回答が含まれない情報についての質問文であるか否か示す情報である種別タイプを生成し、
　生成した前記生成文及び前記種別タイプを出力する
　ことを特徴とする情報処理方法。
　分析対象文を入力として、予め学習済みの機械学習モデルを用いて、前記分析対象文の内容に関する文である生成文及び前記生成文が前記分析対象文に回答が含まれない情報についての質問文であるか否か示す情報である種別タイプを生成し、
　生成した前記生成文及び前記種別タイプを出力する
　処理をコンピュータに実行させることを特徴とする情報処理プログラム。
　分析対象文、前記分析対象文の内容に関する質問文、及び、前記質問文に対する回答であって前記分析対象文に含まれる情報を含む回答文を取得し、前記分析対象文に回答が含まれない情報についての質問文であることを表す種別タイプを有する生成文を生成対象とする場合、前記分析対象文から前記質問文に対する回答となる情報を取り除き、且つ、前記質問文を正解生成文とし、前記分析対象文に回答が含まれない情報についての質問文でないことを表す前記種別タイプを有する前記生成文を生成対象とする場合、前記回答文を正解生成文として、前記分析対象文、前記種別タイプ及び前記正解生成文を含む学習用データを生成する学習用データ生成部と、
　前記学習用データ生成部により生成された前記学習用データを元に機械学習モデルの学習を行う機械学習実行部と
　を備えたことを特徴とする情報処理装置。
　分析対象文、前記分析対象文の内容に関する質問文、及び、前記質問文に対する回答であって前記分析対象文に含まれる情報を含む回答文を取得し、前記分析対象文に回答が含まれない情報についての質問文であることを表す種別タイプを有する生成文を生成対象とする場合、前記分析対象文から前記質問文に対する回答となる情報を取り除き、且つ、前記質問文を正解生成文とし、前記分析対象文に回答が含まれない情報についての質問文でないことを表す前記種別タイプを有する前記生成文を生成対象とする場合、前記回答文を正解生成文として、前記分析対象文、前記種別タイプ及び前記正解生成文を含む学習用データを生成し、
　生成した前記学習用データを元に機械学習モデルの学習を行う
　ことを特徴とする情報処理方法。
　分析対象文、前記分析対象文の内容に関する質問文、及び、前記質問文に対する回答であって前記分析対象文に含まれる情報を含む回答文を取得し、前記分析対象文に回答が含まれない情報についての質問文であることを表す種別タイプを有する生成文を生成対象とする場合、前記分析対象文から前記質問文に対する回答となる情報を取り除き、且つ、前記質問文を正解生成文とし、前記分析対象文に回答が含まれない情報についての質問文でないことを表す前記種別タイプを有する前記生成文を生成対象とする場合、前記回答文を正解生成文として、前記分析対象文、前記種別タイプ及び前記正解生成文を含む学習用データを生成し、
　生成した前記学習用データを元に機械学習モデルの学習を行う
　処理をコンピュータに実行させることを特徴とする情報処理プログラム。