JPWO2019150583A1

JPWO2019150583A1 - 質問群抽出方法、質問群抽出装置および質問群抽出プログラム

Info

Publication number: JPWO2019150583A1
Application number: JP2019568547A
Authority: JP
Inventors: 綾子星野
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2021-01-14
Anticipated expiration: 2038-02-05
Also published as: JP6988924B2; US11416678B2; US20210034815A1; WO2019150583A1

Abstract

質問群抽出装置１０は、１つの課題を示す文である課題文と、１つの課題に対する質問を示す文である質問文と、質問に対する回答を示す文である回答文とで構成されている文の集合が１つ以上含まれている会話履歴を示すデータ内の課題文に課題状態を示すラベル、データ内の質問文に質問状態を示すラベル、およびデータ内の回答文に回答状態を示すラベルをそれぞれ付与する付与部１１と、１つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている文の集合を、データから抽出する抽出部１２とを備える。

Description

本発明は、質問群抽出方法、質問群抽出装置および記録媒体に関し、特にスロットフィル型対話システムにおける質問テンプレートを作成する手間を軽減できる質問群抽出方法、質問群抽出装置および記録媒体に関する。

チャットボットは、テキストや音声を通じて会話を自動的に行うことができるプログラムである。チャットボットを用いて顧客対応を行う企業が増えている。

チャットボットが用いられているシステムとして、例えばスロットフィル型対話システムがある。スロットフィル型対話システムは、任意の目的を達成するために、ユーザに質問する項目（スロット）のリスト（テンプレート）を保持し、まだ回答が得られていない項目をユーザに質問するタイプの対話システムである。なお、スロットの値は、スロットフィラーと呼ばれる。また、テンプレートは、フレームとも定義される。

図１３は、スロットフィル型対話システムで求められるテンプレートの例を示す説明図である。図１３に示すテンプレートは、ピザの注文が行われる際にスロットフィル型対話システムが使用するテンプレートである。

例えば、スロットフィル型対話システムは、ピザを注文する顧客に対して図１３に示すテンプレートに従って「パン生地」、「ピザの種類」、「トッピング」、「届け先」、「配達日時」の各項目を質問する。

スロットフィル型対話システムが使用される場合、管理者にとって、スロットフィル型対話システムで求められるテンプレートを予め作成する手間が掛かる。また、チャットボットが用いられている他のシステムが使用される場合も、管理者にとって、システムで求められる一連の会話の流れである会話フローを予め作成する手間が掛かる。

上記の課題に対して、テンプレートや会話フローを容易に生成できる技術が提示されている。例えば、特許文献１には、コンピュータと人間との間で自然な且つ知的な対話を行うことができるトピックス対話方法およびシステムが記載されている。

特許文献１に記載されているトピックス対話方法は、リレーショナル型データベース中のレコードを特定するために求められる情報アイテムが入力音声に含まれていない場合、含まれていない情報アイテムを利用者に聞き返す。聞き返すことによって、特許文献１に記載されているトピックス対話方法は、レコードの特定に求められる情報アイテムを全て聞き出す。

特許文献１に記載されているトピックス対話方法は、含まれていない情報アイテムの聞き返し工程において、「行先」、「目的」、「日数」等のスキーマの名称を聞き返し文に入れて質問する。すなわち、特許文献１に記載されているトピックス対話方法は、上記のテンプレートに記載される、レコードが特定されるための質問事項を自動で生成できる。

また、特許文献１に記載されているトピックス対話方法は、知識化データを特定するために求められる情報アイテムが入力音声に含まれていない場合、含まれていない情報アイテムを利用者に聞き返す。聞き返すことによって、特許文献１に記載されているトピックス対話方法は、知識化データの特定に求められる情報アイテムを全て聞き出す。

特許文献１に記載されているトピックス対話方法は、含まれていない情報アイテムの聞き返し工程において、アトリビュートの名称を聞き返し文に入れて質問する。アトリビュートは、文書が登録されているデータベースから抽出された頻出語である。すなわち、特許文献１に記載されているトピックス対話方法は、上記のテンプレートに記載される、知識化データが特定されるための質問事項を自動で生成できる。

また、特許文献２には、再入力が行われる場合が想定されて対話シナリオが記述されなくても、ユーザの再入力を適切に処理する対話システムが記載されている。

また、特許文献３には、入力されたユーザ発話の応答文として最も適切な応答候補文を対話コーパスから検索し、検索された応答候補文に修正を行い、入力されたユーザ発話に対する応答文として出力する応答文生成装置が記載されている。

また、非特許文献１には、「SEMAFOR 」という意味解析器の出力結果をランク付けすることによって、スロットの候補およびスロットフィラーの候補を抽出できる技術が記載されている。スロットの候補およびスロットフィラーの候補が抽出されれば、上記のテンプレートが生成可能になる。

また、非特許文献２には、単語間関係、意味ラベル間関係、単語−意味ラベル関係を利用することによって、スロットやスロット間の関係を抽出できる技術が記載されている。スロットやスロット間の関係が抽出されれば、上記のテンプレートが生成可能になる。

また、非特許文献３には、会議コーパスにおけるトピック毎に質問群と回答群とを対応付けることによって、質問−回答群を抽出し、かつ可視化するシステムが記載されている。

また、特許文献４には、過去の対話データから得られる統計的基準を用いることでユーザの情報要求内容を高精度に特定できるようにする統計情報を用いた対話方法が記載されている。

国際公開第２００２／０２９６３３号特開２００６−３４９９５４号公報特開２００７−１０２１０４号公報特開２００４−３５４７８７号公報

Yun-Nung Chen, William Yang Wang, and Alexander IRudnicky, "Unsupervised induction and filling of semantic slots for spoken dialogue systems using frame-semantic parsing," In Automatic Speech Recognition and Understanding(ASRU), 2013 IEEE Workshop on, pages 120-125. Yun-Nung Chen, William Yang Wang, and Alexander IRudnicky, "Jointly Modeling Inter-Slot Relations by Random Walk on Knowledge Graphs for Unsupervised Spoken Language Understanding," in Proceedings of NAACL-HLT, 2015, pages 619-629. 林佑磨、山名早人、「発話間関係の構造化による会議録からの議論マップ自動生成システム」、DEIM 2016

特許文献１に記載されているトピックス対話方法、特許文献２に記載されている対話システム、特許文献３に記載されている応答文生成装置、および非特許文献１〜非特許文献２に記載されている技術では、会話の中から任意のトピックに関連する質問群をグループ化した上で抽出することが想定されていない。

例えば、非特許文献２に記載されている技術は、文書内の単語の出現順序や隣接性を考慮しない。よって、非特許文献２に記載されている技術は、複数の話題が含まれる会話から、トピック毎に質問群を抽出できない。

非特許文献３に記載されている技術は、任意のトピックに関連する質問群をグループ化した上で抽出できる。しかし、非特許文献３に記載されている技術は、会議コーパスにおけるアノテーション（メタデータ）を用いてトピックを選択するため、アノテーションが存在しない会話履歴から任意のトピックに関連する質問群を抽出できない。

また、特許文献１〜特許文献３に記載されている各技術は、ユーザに質問できるが、質問へのユーザからの回答に基づいて判定された原因や回答（対処）をユーザに提供できない。

［発明の目的］
そこで、本発明は、上述した課題を解決する、会話履歴から任意のトピックに関連する質問群を容易に抽出できる質問群抽出方法、質問群抽出装置および記録媒体を提供することを目的とする。

本発明による質問群抽出方法は、１つの課題を示す文である課題文と、１つの課題に対する質問を示す文である質問文と、質問に対する回答を示す文である回答文とで構成されている文の集合が１つ以上含まれている会話履歴を示すデータ内の課題文に課題状態を示すラベル、データ内の質問文に質問状態を示すラベル、およびデータ内の回答文に回答状態を示すラベルをそれぞれ付与し、１つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている文の集合を、データから抽出することを特徴とする。

本発明による質問群抽出装置は、１つの課題を示す文である課題文と、１つの課題に対する質問を示す文である質問文と、質問に対する回答を示す文である回答文とで構成されている文の集合が１つ以上含まれている会話履歴を示すデータ内の課題文に課題状態を示すラベル、データ内の質問文に質問状態を示すラベル、およびデータ内の回答文に回答状態を示すラベルをそれぞれ付与する付与部と、１つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている文の集合を、データから抽出する抽出部とを備えることを特徴とする。

本発明による質問群抽出プログラムを記録した非一時的なコンピュータ読み取り可能な記録媒体は、コンピュータで実行されるときに、１つの課題を示す文である課題文と、１つの課題に対する質問を示す文である質問文と、質問に対する回答を示す文である回答文とで構成されている文の集合が１つ以上含まれている会話履歴を示すデータ内の課題文に課題状態を示すラベル、データ内の質問文に質問状態を示すラベル、およびデータ内の回答文に回答状態を示すラベルをそれぞれ付与し、１つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている文の集合を、データから抽出する質問群抽出プログラムを記憶する。

本発明によれば、会話履歴から任意のトピックに関連する質問群を容易に抽出できる。

本発明による質問群抽出装置の第１の実施形態の構成例を示すブロック図である。学習受付部１１１が受け付ける学習フェーズで使用される各種データの例を示す説明図である。各発話に対して状態ラベルが付与された会話履歴の例を示す説明図である。アラインメントの例を示す説明図である。第１の実施形態の生成確率算出部１２４による生成確率算出処理の動作を示すフローチャートである。アラインメントの他の例を示す説明図である。出力部１２５が出力するグループ化された質問群の例を示す説明図である。出力部１２５が出力するグループ化された質問群の他の例を示す説明図である。第１の実施形態の質問群抽出装置１００による出力確率学習処理の動作を示すフローチャートである。第１の実施形態の質問群抽出装置１００による質問群リスト出力処理の動作を示すフローチャートである。本発明による質問群抽出装置のハードウェア構成例を示す説明図である。本発明による質問群抽出装置の概要を示すブロック図である。スロットフィル型対話システムで求められるテンプレートの例を示す説明図である。

実施形態１．
［構成の説明］
以下、本発明の実施形態を、図面を参照して説明する。図１は、本発明による質問群抽出装置の第１の実施形態の構成例を示すブロック図である。

図１に示すように、本実施形態の質問群抽出装置１００は、学習受付部１１１と、学習ラベル付与部１１２と、アラインメント生成部１１３と、出力確率算出部１１４と、抽出受付部１２１と、抽出ラベル付与部１２２と、状態遷移モデル参照部１２３と、生成確率算出部１２４と、出力部１２５とを備える。

本実施形態の質問群抽出装置１００は、上述した対話システムで求められるテンプレートの準備の用途に利用される。質問群抽出装置１００には、会話履歴を示すデータである会話履歴データが入力される。会話履歴データが入力されると、質問群抽出装置１００は、テンプレートの元である会話履歴中の質問群を出力する。

本実施形態の質問群抽出装置１００は、例えば会話履歴から顧客の質問（課題）と、顧客の状況を明確にするためのオペレータの質問と、オペレータの質問に対する顧客の回答をグループ化した上で抽出する。

さらに、本実施形態の質問群抽出装置１００は、オペレータによる原因判定結果、および回答（対処）も会話履歴から抽出してグループに加える。すなわち、質問群抽出装置１００は、「顧客の課題」、「顧客の最初の質問」、「オペレータの最初の回答」、「顧客の次の質問」、「オペレータの次の回答」、・・・がまとめられたグループを会話履歴から抽出する。

よって、本実施形態の質問群抽出装置１００は、任意の目的に関連する質問群をグループ化した上で抽出できる。また、質問群抽出装置１００は、質問への回答に基づいた原因判定結果や対処もグループに含めた上で提供できる。

以下、本実施形態の質問群抽出装置１００の具体的な構成および機能を説明する。なお、本実施形態の質問群抽出装置１００には、隠れマルコフモデルの技術が使用されている。

図１に示すように、本実施形態の質問群抽出装置１００は、後述する状態遷移モデルの出力確率を学習する学習フェーズで動作する構成要素と、会話集合から質問群を抽出する抽出フェーズで動作する構成要素とで構成されている。最初に、学習フェーズで動作する構成要素の機能等を説明する。

学習受付部１１１は、学習フェーズで使用される各種データを受け付ける機能を有する。学習受付部１１１は、例えば、状態遷移モデル、ラベル付与パタン、および会話履歴データを受け付ける。

図２は、学習受付部１１１が受け付ける学習フェーズで使用される各種データの例を示す説明図である。図２（ａ）は、状態遷移モデルの例を示す。図２（ａ）に示す状態遷移モデルには、会話中の状態が定義されている。図２（ａ）に示す楕円が、会話中の状態を表す。

本実施形態では、基本的に以下のような内容の会話が顧客とオペレータとの間で行われると想定されている。

1.顧客が課題を含んだ要件(Query) を述べる
2.オペレータが顧客の状況を明確にするための質問をする
3.顧客が質問に答える
4.オペレータが顧客の課題に関して原因(Cause) を述べる
5.オペレータが顧客の課題に対する対処(Action)を行う

なお、会話の中で2.のオペレータによる質問と3.の顧客による返答は、複数回繰り返される可能性がある。

図２（ａ）に示す状態遷移モデルは、状態「U:Query 」、状態「O:Question」、状態「U:Answer」、状態「O:Diagnosis 」、および状態「O:Answer」を備える。各状態は、1.の顧客による質問（課題の提示）、2.のオペレータによる質問、3.の質問への顧客からの返答、4.のオペレータによる回答、および5.のオペレータによる対処の、会話中の各状態に相当する。なお、「U 」は顧客、「O 」はオペレータをそれぞれ意味する。

また、図２（ａ）に示す状態遷移モデルには、会話中の状態間の遷移も定義されている。図２（ａ）に示す矢印が、会話中の状態間の遷移を表す。

例えば、状態「U:Query 」には状態「O:Question」への遷移のみが定義されている。また、状態「U:Answer」には、状態「O:Question」への遷移と、状態「O:Diagnosis 」への遷移と、状態「O:Answer」への遷移とが定義されている。

すなわち、会話の中で2.の質問と3.の返答がそれぞれ複数存在する場合であっても、2.の質問はいずれも状態「O:Question」に対応し、3.の返答はいずれも状態「U:Answer」に対応する。

また、図２（ａ）に示す状態遷移モデルには、会話中の状態間の遷移確率も定義されている。図２（ａ）に示す矢印に付随する数値が、状態間の遷移確率を表す。

例えば、状態「U:Query 」は、状態「O:Question」へ「0.7 」の確率で遷移する。遷移確率は、例えば経験則等に基づいて手動で状態間の遷移に付与される。

図２（ｂ）は、ラベル付与パタンの例を示す。図２（ｂ）に示すラベル付与パタンは、状態ラベルと、パタンとで構成されている。

状態ラベルは、状態遷移モデルに定義されているいずれかの状態に対応するラベルである。パタンは、状態ラベルが付与される発話の条件を表すパタンである。例えば、パタンは、「.*ですか」のような正規表現が使用された条件を表す。条件「.*ですか」に該当する発話には、「質問」を表す状態ラベルが付与される。

図２（ｃ）は、会話履歴データの例を示す。会話履歴データは、顧客とオペレータとの間で行われた複数の会話の履歴データである。以下、会話履歴データが「会話集合Ｄ」を表しているとする。

なお、図２（ｃ）に示す１つの表が、１つの会話を表す。また、表内の１つの行が、１つの発話を表す。

なお、状態遷移モデルとラベル付与パタンは、学習受付部１１１を介して質問群抽出装置１００に予め設定されるデータである。また、会話履歴データは、出力確率が学習される際、および質問群が抽出される際に入力となるデータである。

学習ラベル付与部１１２は、ラベル付与パタンを用いて会話履歴データ中の各発話に対して状態ラベルを付与する機能を有する。学習ラベル付与部１１２は、例えば正規表現が使用された条件を表すパタンに従って、各発話に対して状態ラベルを付与する。

図３は、各発話に対して状態ラベルが付与された会話履歴の例を示す説明図である。図３に示す２列目には、「会話１」の会話履歴が記載されている。また、図３に示す３列目には、各発話に付与された状態ラベルが記載されている。なお説明の都合上、図３に示す１列目には、行番号が記載されている。

図３に示すように、各発話に対して状態ラベルが付与されている。なお、何の状態ラベルも記載されていない発話は、各パタンが表すどの条件にも該当しなかったために、学習ラベル付与部１１２により状態ラベルが付与されなかった発話である。

アラインメント生成部１１３は、学習ラベル付与部１１２から入力された状態ラベルが付与された会話履歴データであるラベル付与結果と状態遷移モデルとを参照して、アラインメントを生成する機能を有する。

アラインメントは、状態ラベルに基づいて各発話に状態遷移モデル中の各状態が割り当てられた会話履歴である。アラインメント生成部１１３は、ラベル付与結果内の各状態ラベルへの状態遷移モデル中の各状態の、考えられ得る全ての割り当てを行う。すなわち、アラインメント生成部１１３は、状態遷移モデルが示す状態遷移と状態ラベルの出現順が矛盾しないアラインメントを複数生成できる。

図４は、アラインメントの例を示す説明図である。図４に示す各表記の意味は、図３に示す表記の意味と同様である。

図３に示す状態ラベルと異なり、図４に示す状態ラベルには数字が付されている。同じ数字が付されている状態ラベルが付与されている各発話は、同一のトピックに関する状態遷移モデルに割り当てられている発話である。

例えば、１５行目〜２０行目の各発話の状態ラベルは、「U:Query 」→「O:Question」→「U:Answer」→「O:Question」→「U:Answer」→「O:Answer」の順に並んでいる。すなわち、状態ラベルの並び順が図２（ａ）に示す状態遷移モデル中の各状態の１つの遷移順に一致するため、１５行目〜２０行目の各発話に、同一のトピックに関する状態遷移モデルが割り当てられる。

他の発話に関しても、同様の手法で同一のトピックに関する状態遷移モデルが割り当てられる。すなわち、アラインメントに含まれる発話の集合には、状態遷移モデルに従って状態ラベルが示す状態が対応付けられている。

出力確率算出部１１４は、アラインメント生成部１１３から入力されたアラインメントを基に、状態遷移モデル中の任意の状態から発話中の形態素が得られる確率である出力確率を算出する機能を有する。状態S から発話中の形態素a が得られる確率である出力確率P は、例えば以下のように算出される。

出力確率P(形態素a|状態S) =
( 状態S →形態素a の対応頻度)/( 状態S →全形態素の対応頻度) ・・・式（１）

式（１）における「状態S →形態素a 」は、状態遷移モデル中の状態S に対応する発話から形態素a が得られることを意味する。また、「状態S →全形態素」は、状態遷移モデル中の状態S に対応する発話から全形態素が得られることを意味する。また、「| 」は、条件付確率を表す際に用いられる記号である。なお、出力確率算出部１１４は、式（１）以外の算出式で出力確率を算出してもよい。

上記のように、出力確率算出部１１４は、生成されたアラインメントと状態遷移モデルとに基づいて、発話中の形態素に関する出力確率を算出する。出力確率算出部１１４は、例えば、アラインメント生成部１１３が生成した全てのアラインメントに亘って出力確率の平均をとる。

すなわち、会話集合Ｄに関して上記の方法で算出された状態遷移モデルにおける出力確率が学習された後、出力確率算出部１１４が、状態遷移モデルを「学習済状態遷移モデル」として出力する。なお、算出された出力確率は、学習済状態遷移モデルに含まれている。

次に、抽出フェーズで動作する構成要素の機能等を説明する。抽出受付部１２１は、質問群の抽出対象である会話履歴データを受け付ける機能を有する。抽出受付部１２１は、受け付けられた会話履歴データを抽出ラベル付与部１２２に入力する。

抽出ラベル付与部１２２は、ラベル付与パタンを用いて会話履歴データ中の各発話に対して状態ラベルを付与する機能を有する。抽出ラベル付与部１２２が有する機能は、学習ラベル付与部１１２が有する機能と同様である。抽出ラベル付与部１２２は、ラベル付与結果を生成確率算出部１２４に入力する。

状態遷移モデル参照部１２３は、学習フェーズで出力確率が学習された学習済状態遷移モデルを参照する機能を有する。状態遷移モデル参照部１２３は、参照された学習済状態遷移モデルを生成確率算出部１２４に入力する。

生成確率算出部１２４は、質問群の抽出に使用される生成確率を各発話に関して算出する機能を有する。以下、生成確率算出部１２４が生成確率を算出する動作を図５を参照して説明する。図５は、第１の実施形態の生成確率算出部１２４による生成確率算出処理の動作を示すフローチャートである。

生成確率算出部１２４に、抽出ラベル付与部１２２から状態ラベルが付与された会話集合Ｄと、状態遷移モデル参照部１２３から出力確率が学習済みの学習済状態遷移モデルとがそれぞれ入力される（ステップS001）。

生成確率算出部１２４は、会話集合Ｄの中で、まだ生成確率が算出されていない会話履歴ｄを１つ選択する。すなわち、会話ループに入る（ステップS002）。

次いで、生成確率算出部１２４は、選択された会話履歴ｄの中で、まだ生成確率が算出されていない発話ｕを１つ選択する。すなわち、発話ループに入る（ステップS003）。

生成確率算出部１２４は、選択された発話ｕに付与された状態ラベルが示す状態が、学習済状態遷移モデル中のいずれかの状態に一致するか否かを確認する（ステップS004）。学習済状態遷移モデル中のいずれの状態にも一致しない場合（ステップS004におけるNo）、生成確率算出部１２４は、ステップS006の処理を行う。

学習済状態遷移モデル中のいずれかの状態に一致する場合（ステップS004におけるYes ）、生成確率算出部１２４は、会話履歴ｄ中の発話ｕ以降の各発話に対して、学習済状態遷移モデル中の任意の状態から発話中の形態素が生成される確率である生成確率を算出する（ステップS005）。

生成確率は、学習済状態遷移モデル中の任意の状態から形態素が生成される確率である。例えば、状態「U:Query 」から各形態素「商品Ａ」、「の」、「在庫」、「は」、「ある」、「ます」、「か」がそれぞれ生成される確率である。各発話の生成確率は、例えば以下のように算出される。

生成確率 = AVR(遷移確率P(状態S_t| 状態S_t-1) * AVR(出力確率P(形態素b|状態S_t)))
−c * ( 前状態に適合した発話からの距離の総和) ・・・式（２）

なお、式（２）におけるt は、時点を表す添字であり、S_tはt 時点の状態を意味する。例えば、t 時点の状態S_tが状態「O:Question」の時、(t-1) 時点の状態S_t-1は状態「U:Query 」である。

また、式（２）における「AVR(出力確率P(形態素b|状態S)) 」は、１つの発話中の全ての形態素に亘る、状態S から得られる出力確率の平均である。また、「遷移確率P(状態S_t| 状態S_t-1) 」は、状態S_t-1から状態S_tへの遷移確率である。また、最初の「AVR 」は、学習済状態遷移モデル中の全ての状態に亘って平均をとることを意味する。

また、「前状態に適合した発話からの距離」は、生成確率が算出される発話に対応する状態の前状態に適合した発話からの距離である。例えば、２つの発話の間に他の発話がなければ、距離は「１」になる。

また、２つの発話の間に１つの発話があれば、距離は「２」になる。「前状態」は複数存在するため、式（２）では複数の「前状態」に亘る距離の総和が計算される。また、c はパラメータである。

すなわち、生成確率算出部１２４は、生成確率の算出において状態遷移確率、出力確率、および前状態との距離をそれぞれ算出する。なお、前状態との距離は、発話間の隣接性を表す。

生成確率算出部１２４は、発話ｕ以降の各発話に対して生成確率を算出する。なお、生成確率算出部１２４は、式（２）以外の算出式で生成確率を算出してもよい。

生成確率算出部１２４は、選択された会話履歴ｄの中で生成確率が算出されていない発話が存在する間、ステップS004〜ステップS005の処理を繰り返し行う。会話履歴ｄの中の全ての発話の生成確率が算出されたとき、生成確率算出部１２４は、発話ループを抜ける（ステップS006）。

生成確率算出部１２４は、会話集合Ｄの中で生成確率が算出されていない会話履歴が存在する間、ステップS003〜ステップS006の処理を繰り返し行う。会話集合Ｄを構成する全ての会話履歴ｄの生成確率が算出されたとき、生成確率算出部１２４は、会話ループを抜け（ステップS007）、生成確率算出処理を終了する。

生成確率算出部１２４は、生成確率の算出結果を基に会話集合Ｄ中の各発話に対して状態ラベルを振り直す。生成確率算出部１２４は、状態遷移確率、出力確率、および隣接性を考慮して状態ラベルを振り直すことによって、新たなアラインメントを生成する。

例えば、生成確率算出部１２４は、算出された生成確率が所定値以上の発話の中で状態ラベルが付与されていない発話に、状態ラベルを振り直す。状態ラベルを振り直す際、生成確率算出部１２４は、更新されたラベル付与結果と学習済状態遷移モデルとを参照して、新たなアラインメントを生成する。

図６は、アラインメントの他の例を示す説明図である。図４に示すアラインメントと比べると、生成確率が所定値以上である１１行目の発話に状態ラベルとして「O:Question2 」が新たに付与されている。

また、図４に示すアラインメントと比べると、６行目の発話に付与されていた状態ラベル「O:Question2 」が削除され、７行目の発話に振り直されている。その理由は、６行目の発話の生成確率が所定値未満であり、７行目の発話の生成確率が所定値以上であるためである。生成確率算出部１２４は、生成された新たなアラインメントを出力部１２５に入力する。

出力部１２５は、入力されたアラインメント内の状態遷移モデル中の状態に対応した項目に対応する発話の部分（文、句等）を、話題（トピック）毎にグループ化して出力する機能を有する。出力部１２５は、例えば各状態に対応する発話のうち生成確率が閾値以上の発話を抽出し、質問群を生成する。

すなわち、出力部１２５は、会話集合Ｄから質問群を抽出している。なお、本実施形態において抽出される質問群には、後述するように質問以外にも課題や回答等が含まれている。出力部１２５は、生成された質問群を出力リストに加える。

図７は、出力部１２５が出力するグループ化された質問群の例を示す説明図である。図７に示す用件（Query ）は、顧客による質問（課題の提示）に相当する。図７に示すように、質問群には、オペレータによる質問１（Question）、オペレータによる質問２（Question）、顧客の課題に対するオペレータによる対処（Answer）、および生成確率が含まれる。

各質問には、会話の中で顧客から返答された回答が含まれる。また、質問群には、顧客の課題に対する、原因判定結果に相当するオペレータによる回答（Diagnosis ）が含まれてもよい。また、質問群には、顧客の課題を一意に識別する識別子が含まれてもよい。

また、図７に示す１行目の質問群は「会話１」からの抽出結果であり、２行目の質問群は「会話２」からの抽出結果である。すなわち、出力部１２５は、異なる会話履歴から抽出された同一の顧客の課題に関する複数の質問群を、図７に示すような形式でまとめて出力できる。

なお、異なる会話履歴から抽出された複数の質問群において、同様の意味の課題や質問が異なる言い回しで表現されている可能性がある。出力部１２５は、複数の質問群をそれぞれ抽出した後、含意クラスタリングのような技術を用いて同一の意味の質問をマージしてもよい。

図８は、出力部１２５が出力するグループ化された質問群の他の例を示す説明図である。図８（ａ）に示す質問群は、顧客の課題と、オペレータによる対処と、生成確率とだけが含まれる最も単純な形式の質問群である。

図８（ｂ）に示す質問群には、顧客の課題と、オペレータによる複数の質問と、オペレータによる対処と、生成確率とが含まれている。また、顧客からの返答内容と、オペレータによる対処の内容が記載されている。図８（ｂ）に示すように、本実施形態の質問群抽出装置１００が生成するテンプレートに記載される項目には、名詞句だけでなく、質問文も含まれる。

図８（ｃ）に示す質問群には、顧客の課題と、オペレータによる複数の質問と、オペレータによる回答と、オペレータによる対処と、生成確率とが含まれている。また、顧客からの返答内容と、オペレータによる対処の内容が記載されている。

出力部１２５は、図８に示すような質問群のリストを出力する。なお、出力部１２５は、図７〜図８に示す形式以外の形式で質問群を出力してもよい。

［動作の説明］
以下、本実施形態の質問群抽出装置１００が状態遷移モデルの出力確率を学習する動作を図９を参照して説明する。図９は、第１の実施形態の質問群抽出装置１００による出力確率学習処理の動作を示すフローチャートである。なお、本例において質問群抽出装置１００には、状態遷移モデルとラベル付与パタンとが事前に設定されている。

学習受付部１１１は、入力された会話履歴データを受け付ける（ステップS101）。次いで、学習受付部１１１は、受け付けられた会話履歴データを学習ラベル付与部１１２に入力する。

次いで、学習ラベル付与部１１２は、ラベル付与パタンを用いて入力された会話履歴データ中の各発話に対して状態ラベルを付与する（ステップS102）。学習ラベル付与部１１２は、状態ラベルが付与された会話履歴データであるラベル付与結果をアラインメント生成部１１３に入力する。

次いで、アラインメント生成部１１３は、学習ラベル付与部１１２から入力されたラベル付与結果と状態遷移モデルとを参照して、アラインメントを生成する（ステップS103）。アラインメント生成部１１３は、生成されたアラインメントを出力確率算出部１１４に入力する。

次いで、出力確率算出部１１４は、アラインメント生成部１１３から入力されたアラインメントを基に、任意の状態から各発話中の形態素が得られる確率である出力確率を算出する（ステップS104）。出力確率を算出した後、質問群抽出装置１００は、出力確率学習処理を終了する。

次に、本実施形態の質問群抽出装置１００が質問群のリストを出力する動作を図１０を参照して説明する。図１０は、第１の実施形態の質問群抽出装置１００による質問群リスト出力処理の動作を示すフローチャートである。

抽出受付部１２１は、入力された会話履歴データを受け付ける（ステップS201）。次いで、抽出受付部１２１は、受け付けられた会話履歴データを抽出ラベル付与部１２２に入力する。

次いで、抽出ラベル付与部１２２は、ラベル付与パタンを用いて入力された会話履歴データ中の各発話に対して状態ラベルを付与する（ステップS202）。抽出ラベル付与部１２２は、状態ラベルが付与された会話履歴データであるラベル付与結果を生成確率算出部１２４に入力する。

次いで、状態遷移モデル参照部１２３は、出力確率が学習された学習済状態遷移モデルを参照する（ステップS203）。状態遷移モデル参照部１２３は、参照された学習済状態遷移モデルを生成確率算出部１２４に入力する。

次いで、生成確率算出部１２４は、図５に示す生成確率算出処理を実行する（ステップS204）。生成確率算出処理が終了した後、生成確率算出部１２４は、算出された生成確率を基に、会話履歴データ中の各発話に対して状態ラベルを振り直す。

状態ラベルを振り直す際、生成確率算出部１２４は、更新されたラベル付与結果と学習済状態遷移モデルとを参照して、アラインメントを生成する（ステップS205）。生成確率算出部１２４は、状態ラベルが振り直された新たなアラインメントを出力部１２５に入力する。

次いで、出力部１２５は、入力されたアラインメントから、各状態に対応する発話のうち生成確率が閾値以上の発話を抽出し、質問群を生成する（ステップS206）。出力部１２５は、生成された質問群を出力リストに加える。

出力部１２５は、出力リスト内の同一の顧客の課題に関する複数の質問群をマージしてもよい。次いで、出力部１２５は、生成された質問群のリストを出力する（ステップS207）。質問群のリストを出力した後、質問群抽出装置１００は、質問群リスト出力処理を終了する。

［効果の説明］
本実施形態の質問群抽出装置１００は、会話履歴データから質問群を抽出する装置である。質問群抽出装置１００の学習ラベル付与部１１２は、会話履歴データ中の各発話に対して正規表現等を用いて状態ラベルを付与する。

また、アラインメント生成部１１３は、状態遷移モデルを用いて、状態ラベルが付与された会話履歴データを基にアラインメントを生成する。また、出力確率算出部１１４は、生成されたアラインメントを用いて状態遷移モデルに関する出力確率を学習する。

また、生成確率算出部１２４は、学習済状態遷移モデルを基に、入力された会話集合に関する生成確率を算出する。また、出力部１２５は、生成確率を基にアラインメントから抽出された各項目に対応する発話の部分を、話題（トピック）毎にグループ化して出力する。

特許文献１〜特許文献３に記載されている技術、および非特許文献１〜非特許文献２に記載されている技術は、文書中の頻度や一貫性スコアを用いて、スロット（質問）候補をランク付けし、スロットを抽出する。

しかし、文書内の出現順序や隣接性が考慮されないため、特許文献１〜特許文献３に記載されている技術、および非特許文献１〜非特許文献２に記載されている技術は、１つの会話中に複数のトピックが含まれる場合に質問群をトピック毎にグループ化して抽出できない。

本実施形態の質問群抽出装置１００は、生成確率算出部１２４が学習済状態遷移モデルを用いて出現順序や隣接性が考慮された生成確率を算出し、生成確率を基にアラインメントを生成する。次いで、出力部１２５が生成確率を基にアラインメントからトピック毎に質問群を抽出するため、質問群抽出装置１００は、質問群をトピック毎にグループ化して抽出できる。同一トピックに関する質問群は会話内で隣接しているため、隣接性が考慮される場合、より確実に質問群がトピック毎に抽出される。

また、非特許文献３に記載されている技術と異なり、本実施形態の質問群抽出装置１００は、ラベル付与パタンおよび状態遷移モデルを用いて質問群をトピック毎に抽出するため、アノテーションが存在しない会話履歴データからも質問群を抽出できる。

以下、本実施形態の質問群抽出装置１００のハードウェア構成の具体例を説明する。図１１は、本発明による質問群抽出装置のハードウェア構成例を示す説明図である。

図１１に示す質問群抽出装置１００は、ＣＰＵ（Central Processing Unit ）１０１と、主記憶部１０２と、通信部１０３と、補助記憶部１０４とを備える。また、ユーザが操作するための入力部１０５や、ユーザに処理結果または処理内容の経過を提示するための出力部１０６を備えてもよい。

主記憶部１０２は、データの作業領域やデータの一時退避領域として用いられる。主記憶部１０２は、例えばＲＡＭ（Random Access Memory）である。

通信部１０３は、有線のネットワークまたは無線のネットワーク（情報通信ネットワーク）を介して、周辺機器との間でデータを入力および出力する機能を有する。

補助記憶部１０４は、一時的でない有形の記憶媒体である。一時的でない有形の記憶媒体として、例えば磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ（Compact Disk Read Only Memory ）、ＤＶＤ−ＲＯＭ（Digital Versatile Disk Read Only Memory ）、半導体メモリが挙げられる。

入力部１０５は、データや処理命令を入力する機能を有する。入力部１０５は、例えばキーボードやマウス等の入力デバイスである。

出力部１０６は、データを出力する機能を有する。出力部１０６は、例えば液晶ディスプレイ装置等の表示装置、またはプリンタ等の印刷装置である。

また、図１１に示すように、質問群抽出装置１００において、各構成要素は、システムバス１０７に接続されている。

補助記憶部１０４は、例えば、図１に示す学習受付部１１１、学習ラベル付与部１１２、アラインメント生成部１１３、出力確率算出部１１４、抽出受付部１２１、抽出ラベル付与部１２２、状態遷移モデル参照部１２３、生成確率算出部１２４、および出力部１２５を実現するためのプログラムを記憶している。

また、学習受付部１１１、および抽出受付部１２１は、通信部１０３を介して、会話履歴データを受信してもよい。

なお、質問群抽出装置１００は、ハードウェアにより実現されてもよい。例えば、質問群抽出装置１００は、内部に図１に示すような機能を実現するプログラムが組み込まれたＬＳＩ（Large Scale Integration ）等のハードウェア部品が含まれる回路が実装されてもよい。

また、質問群抽出装置１００は、図１１に示すＣＰＵ１０１が図１に示す各構成要素が有する機能を提供するプログラムを実行することによって、ソフトウェアにより実現されてもよい。

ソフトウェアにより実現される場合、ＣＰＵ１０１が補助記憶部１０４に格納されているプログラムを、主記憶部１０２にロードして実行し、質問群抽出装置１００の動作を制御することによって、各機能がソフトウェアにより実現される。

また、各構成要素の一部または全部は、汎用の回路（circuitry ）または専用の回路、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。

各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

次に、本発明の概要を説明する。図１２は、本発明による質問群抽出装置の概要を示すブロック図である。本発明による質問群抽出装置１０は、１つの課題を示す文である課題文と、１つの課題に対する質問を示す文である質問文と、質問に対する回答を示す文である回答文とで構成されている文の集合が１つ以上含まれている会話履歴を示すデータ内の課題文に課題状態（例えば、状態「Query 」）を示すラベル、データ内の質問文に質問状態（例えば、状態「Question」）を示すラベル、およびデータ内の回答文に回答状態（例えば、状態「Answer」）を示すラベルをそれぞれ付与する付与部１１（例えば、抽出ラベル付与部１２２）と、１つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている文の集合（例えば、質問群）を、データから抽出する抽出部１２（例えば、生成確率算出部１２４）とを備える。

そのような構成により、質問群抽出装置は、会話履歴から任意のトピックに関連する質問群を容易に抽出できる。

なお、上記の文は、句点で区切られた表記に限られない。上記の文は、発話、フレーズ、チャットにおける１ポストでもよい。

また、抽出部１２は、会話履歴に含まれている文の集合の数だけ会話履歴を示すデータから文の集合を抽出してもよい。

そのような構成により、質問群抽出装置は、会話履歴からトピック毎に質問群を抽出できる。

また、質問群抽出装置１０は、会話履歴を示すデータ内の文に付与されたラベルを状態遷移モデルを用いて修正する修正部（例えば、生成確率算出部１２４）を備え、抽出部１２は、修正部によりラベルが修正されたデータから文の集合を抽出してもよい。

そのような構成により、質問群抽出装置は、よりトピックに関連する質問が含まれた質問群を抽出できる。

また、修正部は、状態遷移モデル中の任意の状態から文を構成する形態素が生成される確率である生成確率を基にラベルを修正してもよい。

また、質問群抽出装置１０は、状態遷移モデル中の任意の状態に文を構成する形態素が対応している度合いを学習する学習部（例えば、出力確率算出部１１４）を備え、修正部は、学習された度合いを用いて生成確率を算出してもよい。

そのような構成により、質問群抽出装置は、算出される生成確率の精度を向上できる。

また、修正部は、生成確率が算出される形態素が含まれる文と、文に付与されたラベルが示す状態への状態遷移モデルにおける遷移前の状態を示すラベルが付与された文との会話履歴中の距離を用いて生成確率を算出してもよい。

また、質問群抽出装置１０は、抽出された文の集合を出力する出力部（例えば、出力部１２５）を備え、出力部は、含まれている課題文が同一の課題を示す複数の文の集合をグループ化して出力してもよい。

そのような構成により、質問群抽出装置は、抽出された質問群をより分かりやすく利用者に提示できる。

また、状態遷移モデルには、結論状態（例えば、状態「Diagnosis 」）が含まれ、付与部１１は、会話履歴を示すデータ内の課題文が示す１つの課題に対する結論（例えば、オペレータによる回答）を示す文である結論文に結論状態を示すラベルを付与し、抽出部１２は、結論文が含まれる文の集合を抽出してもよい。

そのような構成により、質問群抽出装置は、質問群と併せて各課題に対する結論の候補も利用者に提示できる。

また、抽出部１２は、課題文が示す１つの課題に対応する対処内容（例えば、オペレータによる対処）を示す文を課題文が含まれている文の集合に含めた上で文の集合を抽出してもよい。

そのような構成により、質問群抽出装置は、質問群と併せて各課題に対する対処の候補も利用者に提示できる。

以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下に限られない。

（付記１）１つの課題を示す文である課題文と、前記１つの課題に対する質問を示す文である質問文と、前記質問に対する回答を示す文である回答文とで構成されている文の集合が１つ以上含まれている会話履歴を示すデータ内の前記課題文に課題状態を示すラベル、前記データ内の前記質問文に質問状態を示すラベル、および前記データ内の前記回答文に回答状態を示すラベルをそれぞれ付与し、１つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている前記文の集合を、前記データから抽出することを特徴とする質問群抽出方法。

（付記２）会話履歴に含まれている文の集合の数だけ前記会話履歴を示すデータから前記文の集合を抽出する付記１記載の質問群抽出方法。

（付記３）会話履歴を示すデータ内の文に付与されたラベルを状態遷移モデルを用いて修正し、ラベルが修正された前記データから文の集合を抽出する付記１または付記２記載の質問群抽出方法。

（付記４）状態遷移モデル中の任意の状態から文を構成する形態素が生成される確率である生成確率を基にラベルを修正する付記３記載の質問群抽出方法。

（付記５）状態遷移モデル中の任意の状態に文を構成する形態素が対応している度合いを学習し、学習された度合いを用いて生成確率を算出する付記４記載の質問群抽出方法。

（付記６）生成確率が算出される形態素が含まれる文と、前記文に付与されたラベルが示す状態への状態遷移モデルにおける遷移前の状態を示すラベルが付与された文との会話履歴中の距離を用いて前記生成確率を算出する付記４または付記５記載の質問群抽出方法。

（付記７）含まれている課題文が同一の課題を示す複数の文の集合をグループ化して出力する付記１から付記６のうちのいずれか１項に記載の質問群抽出方法。

（付記８）状態遷移モデルには、結論状態が含まれ、会話履歴を示すデータ内の課題文が示す１つの課題に対する結論を示す文である結論文に結論状態を示すラベルを付与し、結論文が含まれる文の集合を抽出する付記１から付記７のうちのいずれか１項に記載の質問群抽出方法。

（付記９）課題文が示す１つの課題に対応する対処内容を示す文を前記課題文が含まれている文の集合に含めた上で前記文の集合を抽出する付記１から付記８のうちのいずれか１項に記載の質問群抽出方法。

（付記１０）１つの課題を示す文である課題文と、前記１つの課題に対する質問を示す文である質問文と、前記質問に対する回答を示す文である回答文とで構成されている文の集合が１つ以上含まれている会話履歴を示すデータ内の前記課題文に課題状態を示すラベル、前記データ内の前記質問文に質問状態を示すラベル、および前記データ内の前記回答文に回答状態を示すラベルをそれぞれ付与する付与部と、１つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている前記文の集合を、前記データから抽出する抽出部とを備えることを特徴とする質問群抽出装置。

（付記１１）コンピュータで実行されるときに、１つの課題を示す文である課題文と、前記１つの課題に対する質問を示す文である質問文と、前記質問に対する回答を示す文である回答文とで構成されている文の集合が１つ以上含まれている会話履歴を示すデータ内の前記課題文に課題状態を示すラベル、前記データ内の前記質問文に質問状態を示すラベル、および前記データ内の前記回答文に回答状態を示すラベルをそれぞれ付与し、１つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている前記文の集合を、前記データから抽出する質問群抽出プログラムを記録した非一時的なコンピュータ読み取り可能な記録媒体。

１０、１００質問群抽出装置
１１付与部
１２抽出部
１０１ＣＰＵ
１０２主記憶部
１０３通信部
１０４補助記憶部
１０５入力部
１０６出力部
１０７システムバス
１１１学習受付部
１１２学習ラベル付与部
１１３アラインメント生成部
１１４出力確率算出部
１２１抽出受付部
１２２抽出ラベル付与部
１２３状態遷移モデル参照部
１２４生成確率算出部
１２５出力部

本発明は、質問群抽出方法、質問群抽出装置および質問群抽出プログラムに関し、特にスロットフィル型対話システムにおける質問テンプレートを作成する手間を軽減できる質問群抽出方法、質問群抽出装置および質問群抽出プログラムに関する。

［発明の目的］
そこで、本発明は、上述した課題を解決する、会話履歴から任意のトピックに関連する質問群を容易に抽出できる質問群抽出方法、質問群抽出装置および質問群抽出プログラムを提供することを目的とする。

本発明による質問群抽出プログラムは、コンピュータに、１つの課題を示す文である課題文と、１つの課題に対する質問を示す文である質問文と、質問に対する回答を示す文である回答文とで構成されている文の集合が１つ以上含まれている会話履歴を示すデータ内の課題文に課題状態を示すラベル、データ内の質問文に質問状態を示すラベル、およびデータ内の回答文に回答状態を示すラベルをそれぞれ付与する付与処理、および１つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている文の集合を、データから抽出する抽出処理を実行させることを特徴とする。

Claims

１つの課題を示す文である課題文と、前記１つの課題に対する質問を示す文である質問文と、前記質問に対する回答を示す文である回答文とで構成されている文の集合が１つ以上含まれている会話履歴を示すデータ内の前記課題文に課題状態を示すラベル、前記データ内の前記質問文に質問状態を示すラベル、および前記データ内の前記回答文に回答状態を示すラベルをそれぞれ付与し、
１つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている前記文の集合を、前記データから抽出する
ことを特徴とする質問群抽出方法。
会話履歴に含まれている文の集合の数だけ前記会話履歴を示すデータから前記文の集合を抽出する
請求項１記載の質問群抽出方法。
会話履歴を示すデータ内の文に付与されたラベルを状態遷移モデルを用いて修正し、
ラベルが修正された前記データから文の集合を抽出する
請求項１または請求項２記載の質問群抽出方法。
状態遷移モデル中の任意の状態から文を構成する形態素が生成される確率である生成確率を基にラベルを修正する
請求項３記載の質問群抽出方法。
状態遷移モデル中の任意の状態に文を構成する形態素が対応している度合いを学習し、
学習された度合いを用いて生成確率を算出する
請求項４記載の質問群抽出方法。
生成確率が算出される形態素が含まれる文と、前記文に付与されたラベルが示す状態への状態遷移モデルにおける遷移前の状態を示すラベルが付与された文との会話履歴中の距離を用いて前記生成確率を算出する
請求項４または請求項５記載の質問群抽出方法。
含まれている課題文が同一の課題を示す複数の文の集合をグループ化して出力する
請求項１から請求項６のうちのいずれか１項に記載の質問群抽出方法。
状態遷移モデルには、結論状態が含まれ、
会話履歴を示すデータ内の課題文が示す１つの課題に対する結論を示す文である結論文に結論状態を示すラベルを付与し、
結論文が含まれる文の集合を抽出する
請求項１から請求項７のうちのいずれか１項に記載の質問群抽出方法。
課題文が示す１つの課題に対応する対処内容を示す文を前記課題文が含まれている文の集合に含めた上で前記文の集合を抽出する
請求項１から請求項８のうちのいずれか１項に記載の質問群抽出方法。
１つの課題を示す文である課題文と、前記１つの課題に対する質問を示す文である質問文と、前記質問に対する回答を示す文である回答文とで構成されている文の集合が１つ以上含まれている会話履歴を示すデータ内の前記課題文に課題状態を示すラベル、前記データ内の前記質問文に質問状態を示すラベル、および前記データ内の前記回答文に回答状態を示すラベルをそれぞれ付与する付与部と、
１つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている前記文の集合を、前記データから抽出する抽出部とを備える
ことを特徴とする質問群抽出装置。
コンピュータで実行されるときに、
１つの課題を示す文である課題文と、前記１つの課題に対する質問を示す文である質問文と、前記質問に対する回答を示す文である回答文とで構成されている文の集合が１つ以上含まれている会話履歴を示すデータ内の前記課題文に課題状態を示すラベル、前記データ内の前記質問文に質問状態を示すラベル、および前記データ内の前記回答文に回答状態を示すラベルをそれぞれ付与し、
１つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている前記文の集合を、前記データから抽出する
質問群抽出プログラム
を記録した非一時的なコンピュータ読み取り可能な記録媒体。