JPWO2019150583A1 - 質問群抽出方法、質問群抽出装置および質問群抽出プログラム - Google Patents

質問群抽出方法、質問群抽出装置および質問群抽出プログラム Download PDF

Info

Publication number
JPWO2019150583A1
JPWO2019150583A1 JP2019568547A JP2019568547A JPWO2019150583A1 JP WO2019150583 A1 JPWO2019150583 A1 JP WO2019150583A1 JP 2019568547 A JP2019568547 A JP 2019568547A JP 2019568547 A JP2019568547 A JP 2019568547A JP WO2019150583 A1 JPWO2019150583 A1 JP WO2019150583A1
Authority
JP
Japan
Prior art keywords
sentence
state
question
task
indicating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019568547A
Other languages
English (en)
Other versions
JP6988924B2 (ja
Inventor
綾子 星野
綾子 星野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2019150583A1 publication Critical patent/JPWO2019150583A1/ja
Application granted granted Critical
Publication of JP6988924B2 publication Critical patent/JP6988924B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/226Validation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • G06F40/35Discourse or dialogue representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks

Abstract

質問群抽出装置10は、1つの課題を示す文である課題文と、1つの課題に対する質問を示す文である質問文と、質問に対する回答を示す文である回答文とで構成されている文の集合が1つ以上含まれている会話履歴を示すデータ内の課題文に課題状態を示すラベル、データ内の質問文に質問状態を示すラベル、およびデータ内の回答文に回答状態を示すラベルをそれぞれ付与する付与部11と、1つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている文の集合を、データから抽出する抽出部12とを備える。

Description

本発明は、質問群抽出方法、質問群抽出装置および記録媒体に関し、特にスロットフィル型対話システムにおける質問テンプレートを作成する手間を軽減できる質問群抽出方法、質問群抽出装置および記録媒体に関する。
チャットボットは、テキストや音声を通じて会話を自動的に行うことができるプログラムである。チャットボットを用いて顧客対応を行う企業が増えている。
チャットボットが用いられているシステムとして、例えばスロットフィル型対話システムがある。スロットフィル型対話システムは、任意の目的を達成するために、ユーザに質問する項目(スロット)のリスト(テンプレート)を保持し、まだ回答が得られていない項目をユーザに質問するタイプの対話システムである。なお、スロットの値は、スロットフィラーと呼ばれる。また、テンプレートは、フレームとも定義される。
図13は、スロットフィル型対話システムで求められるテンプレートの例を示す説明図である。図13に示すテンプレートは、ピザの注文が行われる際にスロットフィル型対話システムが使用するテンプレートである。
例えば、スロットフィル型対話システムは、ピザを注文する顧客に対して図13に示すテンプレートに従って「パン生地」、「ピザの種類」、「トッピング」、「届け先」、「配達日時」の各項目を質問する。
スロットフィル型対話システムが使用される場合、管理者にとって、スロットフィル型対話システムで求められるテンプレートを予め作成する手間が掛かる。また、チャットボットが用いられている他のシステムが使用される場合も、管理者にとって、システムで求められる一連の会話の流れである会話フローを予め作成する手間が掛かる。
上記の課題に対して、テンプレートや会話フローを容易に生成できる技術が提示されている。例えば、特許文献1には、コンピュータと人間との間で自然な且つ知的な対話を行うことができるトピックス対話方法およびシステムが記載されている。
特許文献1に記載されているトピックス対話方法は、リレーショナル型データベース中のレコードを特定するために求められる情報アイテムが入力音声に含まれていない場合、含まれていない情報アイテムを利用者に聞き返す。聞き返すことによって、特許文献1に記載されているトピックス対話方法は、レコードの特定に求められる情報アイテムを全て聞き出す。
特許文献1に記載されているトピックス対話方法は、含まれていない情報アイテムの聞き返し工程において、「行先」、「目的」、「日数」等のスキーマの名称を聞き返し文に入れて質問する。すなわち、特許文献1に記載されているトピックス対話方法は、上記のテンプレートに記載される、レコードが特定されるための質問事項を自動で生成できる。
また、特許文献1に記載されているトピックス対話方法は、知識化データを特定するために求められる情報アイテムが入力音声に含まれていない場合、含まれていない情報アイテムを利用者に聞き返す。聞き返すことによって、特許文献1に記載されているトピックス対話方法は、知識化データの特定に求められる情報アイテムを全て聞き出す。
特許文献1に記載されているトピックス対話方法は、含まれていない情報アイテムの聞き返し工程において、アトリビュートの名称を聞き返し文に入れて質問する。アトリビュートは、文書が登録されているデータベースから抽出された頻出語である。すなわち、特許文献1に記載されているトピックス対話方法は、上記のテンプレートに記載される、知識化データが特定されるための質問事項を自動で生成できる。
また、特許文献2には、再入力が行われる場合が想定されて対話シナリオが記述されなくても、ユーザの再入力を適切に処理する対話システムが記載されている。
また、特許文献3には、入力されたユーザ発話の応答文として最も適切な応答候補文を対話コーパスから検索し、検索された応答候補文に修正を行い、入力されたユーザ発話に対する応答文として出力する応答文生成装置が記載されている。
また、非特許文献1には、「SEMAFOR 」という意味解析器の出力結果をランク付けすることによって、スロットの候補およびスロットフィラーの候補を抽出できる技術が記載されている。スロットの候補およびスロットフィラーの候補が抽出されれば、上記のテンプレートが生成可能になる。
また、非特許文献2には、単語間関係、意味ラベル間関係、単語−意味ラベル関係を利用することによって、スロットやスロット間の関係を抽出できる技術が記載されている。スロットやスロット間の関係が抽出されれば、上記のテンプレートが生成可能になる。
また、非特許文献3には、会議コーパスにおけるトピック毎に質問群と回答群とを対応付けることによって、質問−回答群を抽出し、かつ可視化するシステムが記載されている。
また、特許文献4には、過去の対話データから得られる統計的基準を用いることでユーザの情報要求内容を高精度に特定できるようにする統計情報を用いた対話方法が記載されている。
国際公開第2002/029633号 特開2006−349954号公報 特開2007−102104号公報 特開2004−354787号公報
Yun-Nung Chen, William Yang Wang, and Alexander IRudnicky, "Unsupervised induction and filling of semantic slots for spoken dialogue systems using frame-semantic parsing," In Automatic Speech Recognition and Understanding(ASRU), 2013 IEEE Workshop on, pages 120-125. Yun-Nung Chen, William Yang Wang, and Alexander IRudnicky, "Jointly Modeling Inter-Slot Relations by Random Walk on Knowledge Graphs for Unsupervised Spoken Language Understanding," in Proceedings of NAACL-HLT, 2015, pages 619-629. 林佑磨、山名 早人、「発話間関係の構造化による会議録からの議論マップ自動生成システム」、DEIM 2016
特許文献1に記載されているトピックス対話方法、特許文献2に記載されている対話システム、特許文献3に記載されている応答文生成装置、および非特許文献1〜非特許文献2に記載されている技術では、会話の中から任意のトピックに関連する質問群をグループ化した上で抽出することが想定されていない。
例えば、非特許文献2に記載されている技術は、文書内の単語の出現順序や隣接性を考慮しない。よって、非特許文献2に記載されている技術は、複数の話題が含まれる会話から、トピック毎に質問群を抽出できない。
非特許文献3に記載されている技術は、任意のトピックに関連する質問群をグループ化した上で抽出できる。しかし、非特許文献3に記載されている技術は、会議コーパスにおけるアノテーション(メタデータ)を用いてトピックを選択するため、アノテーションが存在しない会話履歴から任意のトピックに関連する質問群を抽出できない。
また、特許文献1〜特許文献3に記載されている各技術は、ユーザに質問できるが、質問へのユーザからの回答に基づいて判定された原因や回答(対処)をユーザに提供できない。
[発明の目的]
そこで、本発明は、上述した課題を解決する、会話履歴から任意のトピックに関連する質問群を容易に抽出できる質問群抽出方法、質問群抽出装置および記録媒体を提供することを目的とする。
本発明による質問群抽出方法は、1つの課題を示す文である課題文と、1つの課題に対する質問を示す文である質問文と、質問に対する回答を示す文である回答文とで構成されている文の集合が1つ以上含まれている会話履歴を示すデータ内の課題文に課題状態を示すラベル、データ内の質問文に質問状態を示すラベル、およびデータ内の回答文に回答状態を示すラベルをそれぞれ付与し、1つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている文の集合を、データから抽出することを特徴とする。
本発明による質問群抽出装置は、1つの課題を示す文である課題文と、1つの課題に対する質問を示す文である質問文と、質問に対する回答を示す文である回答文とで構成されている文の集合が1つ以上含まれている会話履歴を示すデータ内の課題文に課題状態を示すラベル、データ内の質問文に質問状態を示すラベル、およびデータ内の回答文に回答状態を示すラベルをそれぞれ付与する付与部と、1つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている文の集合を、データから抽出する抽出部とを備えることを特徴とする。
本発明による質問群抽出プログラムを記録した非一時的なコンピュータ読み取り可能な記録媒体は、コンピュータで実行されるときに、1つの課題を示す文である課題文と、1つの課題に対する質問を示す文である質問文と、質問に対する回答を示す文である回答文とで構成されている文の集合が1つ以上含まれている会話履歴を示すデータ内の課題文に課題状態を示すラベル、データ内の質問文に質問状態を示すラベル、およびデータ内の回答文に回答状態を示すラベルをそれぞれ付与し、1つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている文の集合を、データから抽出する質問群抽出プログラムを記憶する。
本発明によれば、会話履歴から任意のトピックに関連する質問群を容易に抽出できる。
本発明による質問群抽出装置の第1の実施形態の構成例を示すブロック図である。 学習受付部111が受け付ける学習フェーズで使用される各種データの例を示す説明図である。 各発話に対して状態ラベルが付与された会話履歴の例を示す説明図である。 アラインメントの例を示す説明図である。 第1の実施形態の生成確率算出部124による生成確率算出処理の動作を示すフローチャートである。 アラインメントの他の例を示す説明図である。 出力部125が出力するグループ化された質問群の例を示す説明図である。 出力部125が出力するグループ化された質問群の他の例を示す説明図である。 第1の実施形態の質問群抽出装置100による出力確率学習処理の動作を示すフローチャートである。 第1の実施形態の質問群抽出装置100による質問群リスト出力処理の動作を示すフローチャートである。 本発明による質問群抽出装置のハードウェア構成例を示す説明図である。 本発明による質問群抽出装置の概要を示すブロック図である。 スロットフィル型対話システムで求められるテンプレートの例を示す説明図である。
実施形態1.
[構成の説明]
以下、本発明の実施形態を、図面を参照して説明する。図1は、本発明による質問群抽出装置の第1の実施形態の構成例を示すブロック図である。
図1に示すように、本実施形態の質問群抽出装置100は、学習受付部111と、学習ラベル付与部112と、アラインメント生成部113と、出力確率算出部114と、抽出受付部121と、抽出ラベル付与部122と、状態遷移モデル参照部123と、生成確率算出部124と、出力部125とを備える。
本実施形態の質問群抽出装置100は、上述した対話システムで求められるテンプレートの準備の用途に利用される。質問群抽出装置100には、会話履歴を示すデータである会話履歴データが入力される。会話履歴データが入力されると、質問群抽出装置100は、テンプレートの元である会話履歴中の質問群を出力する。
本実施形態の質問群抽出装置100は、例えば会話履歴から顧客の質問(課題)と、顧客の状況を明確にするためのオペレータの質問と、オペレータの質問に対する顧客の回答をグループ化した上で抽出する。
さらに、本実施形態の質問群抽出装置100は、オペレータによる原因判定結果、および回答(対処)も会話履歴から抽出してグループに加える。すなわち、質問群抽出装置100は、「顧客の課題」、「顧客の最初の質問」、「オペレータの最初の回答」、「顧客の次の質問」、「オペレータの次の回答」、・・・がまとめられたグループを会話履歴から抽出する。
よって、本実施形態の質問群抽出装置100は、任意の目的に関連する質問群をグループ化した上で抽出できる。また、質問群抽出装置100は、質問への回答に基づいた原因判定結果や対処もグループに含めた上で提供できる。
以下、本実施形態の質問群抽出装置100の具体的な構成および機能を説明する。なお、本実施形態の質問群抽出装置100には、隠れマルコフモデルの技術が使用されている。
図1に示すように、本実施形態の質問群抽出装置100は、後述する状態遷移モデルの出力確率を学習する学習フェーズで動作する構成要素と、会話集合から質問群を抽出する抽出フェーズで動作する構成要素とで構成されている。最初に、学習フェーズで動作する構成要素の機能等を説明する。
学習受付部111は、学習フェーズで使用される各種データを受け付ける機能を有する。学習受付部111は、例えば、状態遷移モデル、ラベル付与パタン、および会話履歴データを受け付ける。
図2は、学習受付部111が受け付ける学習フェーズで使用される各種データの例を示す説明図である。図2(a)は、状態遷移モデルの例を示す。図2(a)に示す状態遷移モデルには、会話中の状態が定義されている。図2(a)に示す楕円が、会話中の状態を表す。
本実施形態では、基本的に以下のような内容の会話が顧客とオペレータとの間で行われると想定されている。
1.顧客が課題を含んだ要件(Query) を述べる
2.オペレータが顧客の状況を明確にするための質問をする
3.顧客が質問に答える
4.オペレータが顧客の課題に関して原因(Cause) を述べる
5.オペレータが顧客の課題に対する対処(Action)を行う
なお、会話の中で2.のオペレータによる質問と3.の顧客による返答は、複数回繰り返される可能性がある。
図2(a)に示す状態遷移モデルは、状態「U:Query 」、状態「O:Question」、状態「U:Answer」、状態「O:Diagnosis 」、および状態「O:Answer」を備える。各状態は、1.の顧客による質問(課題の提示)、2.のオペレータによる質問、3.の質問への顧客からの返答、4.のオペレータによる回答、および5.のオペレータによる対処の、会話中の各状態に相当する。なお、「U 」は顧客、「O 」はオペレータをそれぞれ意味する。
また、図2(a)に示す状態遷移モデルには、会話中の状態間の遷移も定義されている。図2(a)に示す矢印が、会話中の状態間の遷移を表す。
例えば、状態「U:Query 」には状態「O:Question」への遷移のみが定義されている。また、状態「U:Answer」には、状態「O:Question」への遷移と、状態「O:Diagnosis 」への遷移と、状態「O:Answer」への遷移とが定義されている。
すなわち、会話の中で2.の質問と3.の返答がそれぞれ複数存在する場合であっても、2.の質問はいずれも状態「O:Question」に対応し、3.の返答はいずれも状態「U:Answer」に対応する。
また、図2(a)に示す状態遷移モデルには、会話中の状態間の遷移確率も定義されている。図2(a)に示す矢印に付随する数値が、状態間の遷移確率を表す。
例えば、状態「U:Query 」は、状態「O:Question」へ「0.7 」の確率で遷移する。遷移確率は、例えば経験則等に基づいて手動で状態間の遷移に付与される。
図2(b)は、ラベル付与パタンの例を示す。図2(b)に示すラベル付与パタンは、状態ラベルと、パタンとで構成されている。
状態ラベルは、状態遷移モデルに定義されているいずれかの状態に対応するラベルである。パタンは、状態ラベルが付与される発話の条件を表すパタンである。例えば、パタンは、「.*ですか」のような正規表現が使用された条件を表す。条件「.*ですか」に該当する発話には、「質問」を表す状態ラベルが付与される。
図2(c)は、会話履歴データの例を示す。会話履歴データは、顧客とオペレータとの間で行われた複数の会話の履歴データである。以下、会話履歴データが「会話集合D」を表しているとする。
なお、図2(c)に示す1つの表が、1つの会話を表す。また、表内の1つの行が、1つの発話を表す。
なお、状態遷移モデルとラベル付与パタンは、学習受付部111を介して質問群抽出装置100に予め設定されるデータである。また、会話履歴データは、出力確率が学習される際、および質問群が抽出される際に入力となるデータである。
学習ラベル付与部112は、ラベル付与パタンを用いて会話履歴データ中の各発話に対して状態ラベルを付与する機能を有する。学習ラベル付与部112は、例えば正規表現が使用された条件を表すパタンに従って、各発話に対して状態ラベルを付与する。
図3は、各発話に対して状態ラベルが付与された会話履歴の例を示す説明図である。図3に示す2列目には、「会話1」の会話履歴が記載されている。また、図3に示す3列目には、各発話に付与された状態ラベルが記載されている。なお説明の都合上、図3に示す1列目には、行番号が記載されている。
図3に示すように、各発話に対して状態ラベルが付与されている。なお、何の状態ラベルも記載されていない発話は、各パタンが表すどの条件にも該当しなかったために、学習ラベル付与部112により状態ラベルが付与されなかった発話である。
アラインメント生成部113は、学習ラベル付与部112から入力された状態ラベルが付与された会話履歴データであるラベル付与結果と状態遷移モデルとを参照して、アラインメントを生成する機能を有する。
アラインメントは、状態ラベルに基づいて各発話に状態遷移モデル中の各状態が割り当てられた会話履歴である。アラインメント生成部113は、ラベル付与結果内の各状態ラベルへの状態遷移モデル中の各状態の、考えられ得る全ての割り当てを行う。すなわち、アラインメント生成部113は、状態遷移モデルが示す状態遷移と状態ラベルの出現順が矛盾しないアラインメントを複数生成できる。
図4は、アラインメントの例を示す説明図である。図4に示す各表記の意味は、図3に示す表記の意味と同様である。
図3に示す状態ラベルと異なり、図4に示す状態ラベルには数字が付されている。同じ数字が付されている状態ラベルが付与されている各発話は、同一のトピックに関する状態遷移モデルに割り当てられている発話である。
例えば、15行目〜20行目の各発話の状態ラベルは、「U:Query 」→「O:Question」→「U:Answer」→「O:Question」→「U:Answer」→「O:Answer」の順に並んでいる。すなわち、状態ラベルの並び順が図2(a)に示す状態遷移モデル中の各状態の1つの遷移順に一致するため、15行目〜20行目の各発話に、同一のトピックに関する状態遷移モデルが割り当てられる。
他の発話に関しても、同様の手法で同一のトピックに関する状態遷移モデルが割り当てられる。すなわち、アラインメントに含まれる発話の集合には、状態遷移モデルに従って状態ラベルが示す状態が対応付けられている。
出力確率算出部114は、アラインメント生成部113から入力されたアラインメントを基に、状態遷移モデル中の任意の状態から発話中の形態素が得られる確率である出力確率を算出する機能を有する。状態S から発話中の形態素a が得られる確率である出力確率P は、例えば以下のように算出される。
出力確率P(形態素a|状態S) =
( 状態S →形態素a の対応頻度)/( 状態S →全形態素の対応頻度) ・・・式(1)
式(1)における「状態S →形態素a 」は、状態遷移モデル中の状態S に対応する発話から形態素a が得られることを意味する。また、「状態S →全形態素」は、状態遷移モデル中の状態S に対応する発話から全形態素が得られることを意味する。また、「| 」は、条件付確率を表す際に用いられる記号である。なお、出力確率算出部114は、式(1)以外の算出式で出力確率を算出してもよい。
上記のように、出力確率算出部114は、生成されたアラインメントと状態遷移モデルとに基づいて、発話中の形態素に関する出力確率を算出する。出力確率算出部114は、例えば、アラインメント生成部113が生成した全てのアラインメントに亘って出力確率の平均をとる。
すなわち、会話集合Dに関して上記の方法で算出された状態遷移モデルにおける出力確率が学習された後、出力確率算出部114が、状態遷移モデルを「学習済状態遷移モデル」として出力する。なお、算出された出力確率は、学習済状態遷移モデルに含まれている。
次に、抽出フェーズで動作する構成要素の機能等を説明する。抽出受付部121は、質問群の抽出対象である会話履歴データを受け付ける機能を有する。抽出受付部121は、受け付けられた会話履歴データを抽出ラベル付与部122に入力する。
抽出ラベル付与部122は、ラベル付与パタンを用いて会話履歴データ中の各発話に対して状態ラベルを付与する機能を有する。抽出ラベル付与部122が有する機能は、学習ラベル付与部112が有する機能と同様である。抽出ラベル付与部122は、ラベル付与結果を生成確率算出部124に入力する。
状態遷移モデル参照部123は、学習フェーズで出力確率が学習された学習済状態遷移モデルを参照する機能を有する。状態遷移モデル参照部123は、参照された学習済状態遷移モデルを生成確率算出部124に入力する。
生成確率算出部124は、質問群の抽出に使用される生成確率を各発話に関して算出する機能を有する。以下、生成確率算出部124が生成確率を算出する動作を図5を参照して説明する。図5は、第1の実施形態の生成確率算出部124による生成確率算出処理の動作を示すフローチャートである。
生成確率算出部124に、抽出ラベル付与部122から状態ラベルが付与された会話集合Dと、状態遷移モデル参照部123から出力確率が学習済みの学習済状態遷移モデルとがそれぞれ入力される(ステップS001)。
生成確率算出部124は、会話集合Dの中で、まだ生成確率が算出されていない会話履歴dを1つ選択する。すなわち、会話ループに入る(ステップS002)。
次いで、生成確率算出部124は、選択された会話履歴dの中で、まだ生成確率が算出されていない発話uを1つ選択する。すなわち、発話ループに入る(ステップS003)。
生成確率算出部124は、選択された発話uに付与された状態ラベルが示す状態が、学習済状態遷移モデル中のいずれかの状態に一致するか否かを確認する(ステップS004)。学習済状態遷移モデル中のいずれの状態にも一致しない場合(ステップS004におけるNo)、生成確率算出部124は、ステップS006の処理を行う。
学習済状態遷移モデル中のいずれかの状態に一致する場合(ステップS004におけるYes )、生成確率算出部124は、会話履歴d中の発話u以降の各発話に対して、学習済状態遷移モデル中の任意の状態から発話中の形態素が生成される確率である生成確率を算出する(ステップS005)。
生成確率は、学習済状態遷移モデル中の任意の状態から形態素が生成される確率である。例えば、状態「U:Query 」から各形態素「商品A」、「の」、「在庫」、「は」、「ある」、「ます」、「か」がそれぞれ生成される確率である。各発話の生成確率は、例えば以下のように算出される。
生成確率 = AVR(遷移確率P(状態St| 状態St-1) * AVR(出力確率P(形態素b|状態St)))
−c * ( 前状態に適合した発話からの距離の総和) ・・・式(2)
なお、式(2)におけるt は、時点を表す添字であり、Stはt 時点の状態を意味する。例えば、t 時点の状態Stが状態「O:Question」の時、(t-1) 時点の状態St-1は状態「U:Query 」である。
また、式(2)における「AVR(出力確率P(形態素b|状態S)) 」は、1つの発話中の全ての形態素に亘る、状態S から得られる出力確率の平均である。また、「遷移確率P(状態St| 状態St-1) 」は、状態St-1から状態Stへの遷移確率である。また、最初の「AVR 」は、学習済状態遷移モデル中の全ての状態に亘って平均をとることを意味する。
また、「前状態に適合した発話からの距離」は、生成確率が算出される発話に対応する状態の前状態に適合した発話からの距離である。例えば、2つの発話の間に他の発話がなければ、距離は「1」になる。
また、2つの発話の間に1つの発話があれば、距離は「2」になる。「前状態」は複数存在するため、式(2)では複数の「前状態」に亘る距離の総和が計算される。また、c はパラメータである。
すなわち、生成確率算出部124は、生成確率の算出において状態遷移確率、出力確率、および前状態との距離をそれぞれ算出する。なお、前状態との距離は、発話間の隣接性を表す。
生成確率算出部124は、発話u以降の各発話に対して生成確率を算出する。なお、生成確率算出部124は、式(2)以外の算出式で生成確率を算出してもよい。
生成確率算出部124は、選択された会話履歴dの中で生成確率が算出されていない発話が存在する間、ステップS004〜ステップS005の処理を繰り返し行う。会話履歴dの中の全ての発話の生成確率が算出されたとき、生成確率算出部124は、発話ループを抜ける(ステップS006)。
生成確率算出部124は、会話集合Dの中で生成確率が算出されていない会話履歴が存在する間、ステップS003〜ステップS006の処理を繰り返し行う。会話集合Dを構成する全ての会話履歴dの生成確率が算出されたとき、生成確率算出部124は、会話ループを抜け(ステップS007)、生成確率算出処理を終了する。
生成確率算出部124は、生成確率の算出結果を基に会話集合D中の各発話に対して状態ラベルを振り直す。生成確率算出部124は、状態遷移確率、出力確率、および隣接性を考慮して状態ラベルを振り直すことによって、新たなアラインメントを生成する。
例えば、生成確率算出部124は、算出された生成確率が所定値以上の発話の中で状態ラベルが付与されていない発話に、状態ラベルを振り直す。状態ラベルを振り直す際、生成確率算出部124は、更新されたラベル付与結果と学習済状態遷移モデルとを参照して、新たなアラインメントを生成する。
図6は、アラインメントの他の例を示す説明図である。図4に示すアラインメントと比べると、生成確率が所定値以上である11行目の発話に状態ラベルとして「O:Question2 」が新たに付与されている。
また、図4に示すアラインメントと比べると、6行目の発話に付与されていた状態ラベル「O:Question2 」が削除され、7行目の発話に振り直されている。その理由は、6行目の発話の生成確率が所定値未満であり、7行目の発話の生成確率が所定値以上であるためである。生成確率算出部124は、生成された新たなアラインメントを出力部125に入力する。
出力部125は、入力されたアラインメント内の状態遷移モデル中の状態に対応した項目に対応する発話の部分(文、句等)を、話題(トピック)毎にグループ化して出力する機能を有する。出力部125は、例えば各状態に対応する発話のうち生成確率が閾値以上の発話を抽出し、質問群を生成する。
すなわち、出力部125は、会話集合Dから質問群を抽出している。なお、本実施形態において抽出される質問群には、後述するように質問以外にも課題や回答等が含まれている。出力部125は、生成された質問群を出力リストに加える。
図7は、出力部125が出力するグループ化された質問群の例を示す説明図である。図7に示す用件(Query )は、顧客による質問(課題の提示)に相当する。図7に示すように、質問群には、オペレータによる質問1(Question)、オペレータによる質問2(Question)、顧客の課題に対するオペレータによる対処(Answer)、および生成確率が含まれる。
各質問には、会話の中で顧客から返答された回答が含まれる。また、質問群には、顧客の課題に対する、原因判定結果に相当するオペレータによる回答(Diagnosis )が含まれてもよい。また、質問群には、顧客の課題を一意に識別する識別子が含まれてもよい。
また、図7に示す1行目の質問群は「会話1」からの抽出結果であり、2行目の質問群は「会話2」からの抽出結果である。すなわち、出力部125は、異なる会話履歴から抽出された同一の顧客の課題に関する複数の質問群を、図7に示すような形式でまとめて出力できる。
なお、異なる会話履歴から抽出された複数の質問群において、同様の意味の課題や質問が異なる言い回しで表現されている可能性がある。出力部125は、複数の質問群をそれぞれ抽出した後、含意クラスタリングのような技術を用いて同一の意味の質問をマージしてもよい。
図8は、出力部125が出力するグループ化された質問群の他の例を示す説明図である。図8(a)に示す質問群は、顧客の課題と、オペレータによる対処と、生成確率とだけが含まれる最も単純な形式の質問群である。
図8(b)に示す質問群には、顧客の課題と、オペレータによる複数の質問と、オペレータによる対処と、生成確率とが含まれている。また、顧客からの返答内容と、オペレータによる対処の内容が記載されている。図8(b)に示すように、本実施形態の質問群抽出装置100が生成するテンプレートに記載される項目には、名詞句だけでなく、質問文も含まれる。
図8(c)に示す質問群には、顧客の課題と、オペレータによる複数の質問と、オペレータによる回答と、オペレータによる対処と、生成確率とが含まれている。また、顧客からの返答内容と、オペレータによる対処の内容が記載されている。
出力部125は、図8に示すような質問群のリストを出力する。なお、出力部125は、図7〜図8に示す形式以外の形式で質問群を出力してもよい。
[動作の説明]
以下、本実施形態の質問群抽出装置100が状態遷移モデルの出力確率を学習する動作を図9を参照して説明する。図9は、第1の実施形態の質問群抽出装置100による出力確率学習処理の動作を示すフローチャートである。なお、本例において質問群抽出装置100には、状態遷移モデルとラベル付与パタンとが事前に設定されている。
学習受付部111は、入力された会話履歴データを受け付ける(ステップS101)。次いで、学習受付部111は、受け付けられた会話履歴データを学習ラベル付与部112に入力する。
次いで、学習ラベル付与部112は、ラベル付与パタンを用いて入力された会話履歴データ中の各発話に対して状態ラベルを付与する(ステップS102)。学習ラベル付与部112は、状態ラベルが付与された会話履歴データであるラベル付与結果をアラインメント生成部113に入力する。
次いで、アラインメント生成部113は、学習ラベル付与部112から入力されたラベル付与結果と状態遷移モデルとを参照して、アラインメントを生成する(ステップS103)。アラインメント生成部113は、生成されたアラインメントを出力確率算出部114に入力する。
次いで、出力確率算出部114は、アラインメント生成部113から入力されたアラインメントを基に、任意の状態から各発話中の形態素が得られる確率である出力確率を算出する(ステップS104)。出力確率を算出した後、質問群抽出装置100は、出力確率学習処理を終了する。
次に、本実施形態の質問群抽出装置100が質問群のリストを出力する動作を図10を参照して説明する。図10は、第1の実施形態の質問群抽出装置100による質問群リスト出力処理の動作を示すフローチャートである。
抽出受付部121は、入力された会話履歴データを受け付ける(ステップS201)。次いで、抽出受付部121は、受け付けられた会話履歴データを抽出ラベル付与部122に入力する。
次いで、抽出ラベル付与部122は、ラベル付与パタンを用いて入力された会話履歴データ中の各発話に対して状態ラベルを付与する(ステップS202)。抽出ラベル付与部122は、状態ラベルが付与された会話履歴データであるラベル付与結果を生成確率算出部124に入力する。
次いで、状態遷移モデル参照部123は、出力確率が学習された学習済状態遷移モデルを参照する(ステップS203)。状態遷移モデル参照部123は、参照された学習済状態遷移モデルを生成確率算出部124に入力する。
次いで、生成確率算出部124は、図5に示す生成確率算出処理を実行する(ステップS204)。生成確率算出処理が終了した後、生成確率算出部124は、算出された生成確率を基に、会話履歴データ中の各発話に対して状態ラベルを振り直す。
状態ラベルを振り直す際、生成確率算出部124は、更新されたラベル付与結果と学習済状態遷移モデルとを参照して、アラインメントを生成する(ステップS205)。生成確率算出部124は、状態ラベルが振り直された新たなアラインメントを出力部125に入力する。
次いで、出力部125は、入力されたアラインメントから、各状態に対応する発話のうち生成確率が閾値以上の発話を抽出し、質問群を生成する(ステップS206)。出力部125は、生成された質問群を出力リストに加える。
出力部125は、出力リスト内の同一の顧客の課題に関する複数の質問群をマージしてもよい。次いで、出力部125は、生成された質問群のリストを出力する(ステップS207)。質問群のリストを出力した後、質問群抽出装置100は、質問群リスト出力処理を終了する。
[効果の説明]
本実施形態の質問群抽出装置100は、会話履歴データから質問群を抽出する装置である。質問群抽出装置100の学習ラベル付与部112は、会話履歴データ中の各発話に対して正規表現等を用いて状態ラベルを付与する。
また、アラインメント生成部113は、状態遷移モデルを用いて、状態ラベルが付与された会話履歴データを基にアラインメントを生成する。また、出力確率算出部114は、生成されたアラインメントを用いて状態遷移モデルに関する出力確率を学習する。
また、生成確率算出部124は、学習済状態遷移モデルを基に、入力された会話集合に関する生成確率を算出する。また、出力部125は、生成確率を基にアラインメントから抽出された各項目に対応する発話の部分を、話題(トピック)毎にグループ化して出力する。
特許文献1〜特許文献3に記載されている技術、および非特許文献1〜非特許文献2に記載されている技術は、文書中の頻度や一貫性スコアを用いて、スロット(質問)候補をランク付けし、スロットを抽出する。
しかし、文書内の出現順序や隣接性が考慮されないため、特許文献1〜特許文献3に記載されている技術、および非特許文献1〜非特許文献2に記載されている技術は、1つの会話中に複数のトピックが含まれる場合に質問群をトピック毎にグループ化して抽出できない。
本実施形態の質問群抽出装置100は、生成確率算出部124が学習済状態遷移モデルを用いて出現順序や隣接性が考慮された生成確率を算出し、生成確率を基にアラインメントを生成する。次いで、出力部125が生成確率を基にアラインメントからトピック毎に質問群を抽出するため、質問群抽出装置100は、質問群をトピック毎にグループ化して抽出できる。同一トピックに関する質問群は会話内で隣接しているため、隣接性が考慮される場合、より確実に質問群がトピック毎に抽出される。
また、非特許文献3に記載されている技術と異なり、本実施形態の質問群抽出装置100は、ラベル付与パタンおよび状態遷移モデルを用いて質問群をトピック毎に抽出するため、アノテーションが存在しない会話履歴データからも質問群を抽出できる。
以下、本実施形態の質問群抽出装置100のハードウェア構成の具体例を説明する。図11は、本発明による質問群抽出装置のハードウェア構成例を示す説明図である。
図11に示す質問群抽出装置100は、CPU(Central Processing Unit )101と、主記憶部102と、通信部103と、補助記憶部104とを備える。また、ユーザが操作するための入力部105や、ユーザに処理結果または処理内容の経過を提示するための出力部106を備えてもよい。
主記憶部102は、データの作業領域やデータの一時退避領域として用いられる。主記憶部102は、例えばRAM(Random Access Memory)である。
通信部103は、有線のネットワークまたは無線のネットワーク(情報通信ネットワーク)を介して、周辺機器との間でデータを入力および出力する機能を有する。
補助記憶部104は、一時的でない有形の記憶媒体である。一時的でない有形の記憶媒体として、例えば磁気ディスク、光磁気ディスク、CD−ROM(Compact Disk Read Only Memory )、DVD−ROM(Digital Versatile Disk Read Only Memory )、半導体メモリが挙げられる。
入力部105は、データや処理命令を入力する機能を有する。入力部105は、例えばキーボードやマウス等の入力デバイスである。
出力部106は、データを出力する機能を有する。出力部106は、例えば液晶ディスプレイ装置等の表示装置、またはプリンタ等の印刷装置である。
また、図11に示すように、質問群抽出装置100において、各構成要素は、システムバス107に接続されている。
補助記憶部104は、例えば、図1に示す学習受付部111、学習ラベル付与部112、アラインメント生成部113、出力確率算出部114、抽出受付部121、抽出ラベル付与部122、状態遷移モデル参照部123、生成確率算出部124、および出力部125を実現するためのプログラムを記憶している。
また、学習受付部111、および抽出受付部121は、通信部103を介して、会話履歴データを受信してもよい。
なお、質問群抽出装置100は、ハードウェアにより実現されてもよい。例えば、質問群抽出装置100は、内部に図1に示すような機能を実現するプログラムが組み込まれたLSI(Large Scale Integration )等のハードウェア部品が含まれる回路が実装されてもよい。
また、質問群抽出装置100は、図11に示すCPU101が図1に示す各構成要素が有する機能を提供するプログラムを実行することによって、ソフトウェアにより実現されてもよい。
ソフトウェアにより実現される場合、CPU101が補助記憶部104に格納されているプログラムを、主記憶部102にロードして実行し、質問群抽出装置100の動作を制御することによって、各機能がソフトウェアにより実現される。
また、各構成要素の一部または全部は、汎用の回路(circuitry )または専用の回路、プロセッサ等やこれらの組み合わせによって実現されてもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各構成要素の一部または全部は、上述した回路等とプログラムとの組み合わせによって実現されてもよい。
各構成要素の一部または全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントアンドサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。
次に、本発明の概要を説明する。図12は、本発明による質問群抽出装置の概要を示すブロック図である。本発明による質問群抽出装置10は、1つの課題を示す文である課題文と、1つの課題に対する質問を示す文である質問文と、質問に対する回答を示す文である回答文とで構成されている文の集合が1つ以上含まれている会話履歴を示すデータ内の課題文に課題状態(例えば、状態「Query 」)を示すラベル、データ内の質問文に質問状態(例えば、状態「Question」)を示すラベル、およびデータ内の回答文に回答状態(例えば、状態「Answer」)を示すラベルをそれぞれ付与する付与部11(例えば、抽出ラベル付与部122)と、1つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている文の集合(例えば、質問群)を、データから抽出する抽出部12(例えば、生成確率算出部124)とを備える。
そのような構成により、質問群抽出装置は、会話履歴から任意のトピックに関連する質問群を容易に抽出できる。
なお、上記の文は、句点で区切られた表記に限られない。上記の文は、発話、フレーズ、チャットにおける1ポストでもよい。
また、抽出部12は、会話履歴に含まれている文の集合の数だけ会話履歴を示すデータから文の集合を抽出してもよい。
そのような構成により、質問群抽出装置は、会話履歴からトピック毎に質問群を抽出できる。
また、質問群抽出装置10は、会話履歴を示すデータ内の文に付与されたラベルを状態遷移モデルを用いて修正する修正部(例えば、生成確率算出部124)を備え、抽出部12は、修正部によりラベルが修正されたデータから文の集合を抽出してもよい。
そのような構成により、質問群抽出装置は、よりトピックに関連する質問が含まれた質問群を抽出できる。
また、修正部は、状態遷移モデル中の任意の状態から文を構成する形態素が生成される確率である生成確率を基にラベルを修正してもよい。
そのような構成により、質問群抽出装置は、よりトピックに関連する質問が含まれた質問群を抽出できる。
また、質問群抽出装置10は、状態遷移モデル中の任意の状態に文を構成する形態素が対応している度合いを学習する学習部(例えば、出力確率算出部114)を備え、修正部は、学習された度合いを用いて生成確率を算出してもよい。
そのような構成により、質問群抽出装置は、算出される生成確率の精度を向上できる。
また、修正部は、生成確率が算出される形態素が含まれる文と、文に付与されたラベルが示す状態への状態遷移モデルにおける遷移前の状態を示すラベルが付与された文との会話履歴中の距離を用いて生成確率を算出してもよい。
そのような構成により、質問群抽出装置は、算出される生成確率の精度を向上できる。
また、質問群抽出装置10は、抽出された文の集合を出力する出力部(例えば、出力部125)を備え、出力部は、含まれている課題文が同一の課題を示す複数の文の集合をグループ化して出力してもよい。
そのような構成により、質問群抽出装置は、抽出された質問群をより分かりやすく利用者に提示できる。
また、状態遷移モデルには、結論状態(例えば、状態「Diagnosis 」)が含まれ、付与部11は、会話履歴を示すデータ内の課題文が示す1つの課題に対する結論(例えば、オペレータによる回答)を示す文である結論文に結論状態を示すラベルを付与し、抽出部12は、結論文が含まれる文の集合を抽出してもよい。
そのような構成により、質問群抽出装置は、質問群と併せて各課題に対する結論の候補も利用者に提示できる。
また、抽出部12は、課題文が示す1つの課題に対応する対処内容(例えば、オペレータによる対処)を示す文を課題文が含まれている文の集合に含めた上で文の集合を抽出してもよい。
そのような構成により、質問群抽出装置は、質問群と併せて各課題に対する対処の候補も利用者に提示できる。
以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
また、上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下に限られない。
(付記1)1つの課題を示す文である課題文と、前記1つの課題に対する質問を示す文である質問文と、前記質問に対する回答を示す文である回答文とで構成されている文の集合が1つ以上含まれている会話履歴を示すデータ内の前記課題文に課題状態を示すラベル、前記データ内の前記質問文に質問状態を示すラベル、および前記データ内の前記回答文に回答状態を示すラベルをそれぞれ付与し、1つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている前記文の集合を、前記データから抽出することを特徴とする質問群抽出方法。
(付記2)会話履歴に含まれている文の集合の数だけ前記会話履歴を示すデータから前記文の集合を抽出する付記1記載の質問群抽出方法。
(付記3)会話履歴を示すデータ内の文に付与されたラベルを状態遷移モデルを用いて修正し、ラベルが修正された前記データから文の集合を抽出する付記1または付記2記載の質問群抽出方法。
(付記4)状態遷移モデル中の任意の状態から文を構成する形態素が生成される確率である生成確率を基にラベルを修正する付記3記載の質問群抽出方法。
(付記5)状態遷移モデル中の任意の状態に文を構成する形態素が対応している度合いを学習し、学習された度合いを用いて生成確率を算出する付記4記載の質問群抽出方法。
(付記6)生成確率が算出される形態素が含まれる文と、前記文に付与されたラベルが示す状態への状態遷移モデルにおける遷移前の状態を示すラベルが付与された文との会話履歴中の距離を用いて前記生成確率を算出する付記4または付記5記載の質問群抽出方法。
(付記7)含まれている課題文が同一の課題を示す複数の文の集合をグループ化して出力する付記1から付記6のうちのいずれか1項に記載の質問群抽出方法。
(付記8)状態遷移モデルには、結論状態が含まれ、会話履歴を示すデータ内の課題文が示す1つの課題に対する結論を示す文である結論文に結論状態を示すラベルを付与し、結論文が含まれる文の集合を抽出する付記1から付記7のうちのいずれか1項に記載の質問群抽出方法。
(付記9)課題文が示す1つの課題に対応する対処内容を示す文を前記課題文が含まれている文の集合に含めた上で前記文の集合を抽出する付記1から付記8のうちのいずれか1項に記載の質問群抽出方法。
(付記10)1つの課題を示す文である課題文と、前記1つの課題に対する質問を示す文である質問文と、前記質問に対する回答を示す文である回答文とで構成されている文の集合が1つ以上含まれている会話履歴を示すデータ内の前記課題文に課題状態を示すラベル、前記データ内の前記質問文に質問状態を示すラベル、および前記データ内の前記回答文に回答状態を示すラベルをそれぞれ付与する付与部と、1つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている前記文の集合を、前記データから抽出する抽出部とを備えることを特徴とする質問群抽出装置。
(付記11)コンピュータで実行されるときに、1つの課題を示す文である課題文と、前記1つの課題に対する質問を示す文である質問文と、前記質問に対する回答を示す文である回答文とで構成されている文の集合が1つ以上含まれている会話履歴を示すデータ内の前記課題文に課題状態を示すラベル、前記データ内の前記質問文に質問状態を示すラベル、および前記データ内の前記回答文に回答状態を示すラベルをそれぞれ付与し、1つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている前記文の集合を、前記データから抽出する質問群抽出プログラムを記録した非一時的なコンピュータ読み取り可能な記録媒体。
10、100 質問群抽出装置
11 付与部
12 抽出部
101 CPU
102 主記憶部
103 通信部
104 補助記憶部
105 入力部
106 出力部
107 システムバス
111 学習受付部
112 学習ラベル付与部
113 アラインメント生成部
114 出力確率算出部
121 抽出受付部
122 抽出ラベル付与部
123 状態遷移モデル参照部
124 生成確率算出部
125 出力部
本発明は、質問群抽出方法、質問群抽出装置および質問群抽出プログラムに関し、特にスロットフィル型対話システムにおける質問テンプレートを作成する手間を軽減できる質問群抽出方法、質問群抽出装置および質問群抽出プログラムに関する。
[発明の目的]
そこで、本発明は、上述した課題を解決する、会話履歴から任意のトピックに関連する質問群を容易に抽出できる質問群抽出方法、質問群抽出装置および質問群抽出プログラムを提供することを目的とする。
本発明による質問群抽出プログラは、コンピューに、1つの課題を示す文である課題文と、1つの課題に対する質問を示す文である質問文と、質問に対する回答を示す文である回答文とで構成されている文の集合が1つ以上含まれている会話履歴を示すデータ内の課題文に課題状態を示すラベル、データ内の質問文に質問状態を示すラベル、およびデータ内の回答文に回答状態を示すラベルをそれぞれ付与する付与処理、および1つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている文の集合を、データから抽出する抽出処理を実行させることを特徴とする。

Claims (11)

  1. 1つの課題を示す文である課題文と、前記1つの課題に対する質問を示す文である質問文と、前記質問に対する回答を示す文である回答文とで構成されている文の集合が1つ以上含まれている会話履歴を示すデータ内の前記課題文に課題状態を示すラベル、前記データ内の前記質問文に質問状態を示すラベル、および前記データ内の前記回答文に回答状態を示すラベルをそれぞれ付与し、
    1つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている前記文の集合を、前記データから抽出する
    ことを特徴とする質問群抽出方法。
  2. 会話履歴に含まれている文の集合の数だけ前記会話履歴を示すデータから前記文の集合を抽出する
    請求項1記載の質問群抽出方法。
  3. 会話履歴を示すデータ内の文に付与されたラベルを状態遷移モデルを用いて修正し、
    ラベルが修正された前記データから文の集合を抽出する
    請求項1または請求項2記載の質問群抽出方法。
  4. 状態遷移モデル中の任意の状態から文を構成する形態素が生成される確率である生成確率を基にラベルを修正する
    請求項3記載の質問群抽出方法。
  5. 状態遷移モデル中の任意の状態に文を構成する形態素が対応している度合いを学習し、
    学習された度合いを用いて生成確率を算出する
    請求項4記載の質問群抽出方法。
  6. 生成確率が算出される形態素が含まれる文と、前記文に付与されたラベルが示す状態への状態遷移モデルにおける遷移前の状態を示すラベルが付与された文との会話履歴中の距離を用いて前記生成確率を算出する
    請求項4または請求項5記載の質問群抽出方法。
  7. 含まれている課題文が同一の課題を示す複数の文の集合をグループ化して出力する
    請求項1から請求項6のうちのいずれか1項に記載の質問群抽出方法。
  8. 状態遷移モデルには、結論状態が含まれ、
    会話履歴を示すデータ内の課題文が示す1つの課題に対する結論を示す文である結論文に結論状態を示すラベルを付与し、
    結論文が含まれる文の集合を抽出する
    請求項1から請求項7のうちのいずれか1項に記載の質問群抽出方法。
  9. 課題文が示す1つの課題に対応する対処内容を示す文を前記課題文が含まれている文の集合に含めた上で前記文の集合を抽出する
    請求項1から請求項8のうちのいずれか1項に記載の質問群抽出方法。
  10. 1つの課題を示す文である課題文と、前記1つの課題に対する質問を示す文である質問文と、前記質問に対する回答を示す文である回答文とで構成されている文の集合が1つ以上含まれている会話履歴を示すデータ内の前記課題文に課題状態を示すラベル、前記データ内の前記質問文に質問状態を示すラベル、および前記データ内の前記回答文に回答状態を示すラベルをそれぞれ付与する付与部と、
    1つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている前記文の集合を、前記データから抽出する抽出部とを備える
    ことを特徴とする質問群抽出装置。
  11. コンピュータで実行されるときに、
    1つの課題を示す文である課題文と、前記1つの課題に対する質問を示す文である質問文と、前記質問に対する回答を示す文である回答文とで構成されている文の集合が1つ以上含まれている会話履歴を示すデータ内の前記課題文に課題状態を示すラベル、前記データ内の前記質問文に質問状態を示すラベル、および前記データ内の前記回答文に回答状態を示すラベルをそれぞれ付与し、
    1つの課題状態と質問状態と回答状態とで構成され状態の遷移を表すモデルである状態遷移モデルに従ってラベルが示す状態が対応付けられている前記文の集合を、前記データから抽出する
    質問群抽出プログラム
    を記録した非一時的なコンピュータ読み取り可能な記録媒体。
JP2019568547A 2018-02-05 2018-02-05 質問群抽出方法、質問群抽出装置および質問群抽出プログラム Active JP6988924B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/003843 WO2019150583A1 (ja) 2018-02-05 2018-02-05 質問群抽出方法、質問群抽出装置および記録媒体

Publications (2)

Publication Number Publication Date
JPWO2019150583A1 true JPWO2019150583A1 (ja) 2021-01-14
JP6988924B2 JP6988924B2 (ja) 2022-01-05

Family

ID=67479599

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019568547A Active JP6988924B2 (ja) 2018-02-05 2018-02-05 質問群抽出方法、質問群抽出装置および質問群抽出プログラム

Country Status (3)

Country Link
US (1) US11416678B2 (ja)
JP (1) JP6988924B2 (ja)
WO (1) WO2019150583A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11783005B2 (en) * 2019-04-26 2023-10-10 Bank Of America Corporation Classifying and mapping sentences using machine learning
US11238076B2 (en) * 2020-04-19 2022-02-01 International Business Machines Corporation Document enrichment with conversation texts, for enhanced information retrieval
CN112966076A (zh) * 2021-02-25 2021-06-15 中国平安人寿保险股份有限公司 智能问答问题的生成方法、装置、计算机设备及存储介质
CN113705248B (zh) * 2021-07-21 2022-09-30 上海原圈网络科技有限公司 一种基于结果评价的话术训练数据处理方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004266551A (ja) * 2003-02-28 2004-09-24 Toshiba Corp ストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラム
JP2006349954A (ja) * 2005-06-15 2006-12-28 Fujitsu Ltd 対話システム
JP2018017936A (ja) * 2016-07-28 2018-02-01 国立研究開発法人情報通信研究機構 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW473675B (en) 2000-09-29 2002-01-21 C A I Co Ltd Topics dialog procedures and system
JP4246548B2 (ja) 2003-05-30 2009-04-02 日本電信電話株式会社 統計情報を用いた対話方法及びその装置と、対話プログラム及びそのプログラムを記録した記録媒体
JP4755478B2 (ja) 2005-10-07 2011-08-24 日本電信電話株式会社 応答文生成装置、応答文生成方法、そのプログラムおよび記憶媒体
US8315964B2 (en) * 2008-10-27 2012-11-20 Microsoft Corporation Comprehensive human computation framework
US9378273B2 (en) * 2014-03-13 2016-06-28 International Business Machines Corporation System and method for question answering by reformulating word problems
US10572806B2 (en) * 2015-02-17 2020-02-25 International Business Machines Corporation Question answering with time-based weighting
US10120864B2 (en) * 2016-03-29 2018-11-06 Conduent Business Services Llc Method and system for identifying user issues in forum posts based on discourse analysis
US10460398B1 (en) * 2016-07-27 2019-10-29 Intuit Inc. Method and system for crowdsourcing the detection of usability issues in a tax return preparation system
CN110019644B (zh) * 2017-09-06 2022-10-14 腾讯科技(深圳)有限公司 对话实现中的搜索方法、装置和计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004266551A (ja) * 2003-02-28 2004-09-24 Toshiba Corp ストリームデータ生成装置、ストリームデータ生成システム、ストリームデータ生成方法及びプログラム
JP2006349954A (ja) * 2005-06-15 2006-12-28 Fujitsu Ltd 対話システム
JP2018017936A (ja) * 2016-07-28 2018-02-01 国立研究開発法人情報通信研究機構 音声対話装置、サーバ装置、音声対話方法、音声処理方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
STOLCKE, ANDREAS ET AL.: ""Dialogue Act Modeling for Automatic Tagging and Recognition of Conversational Speech"", COMPUTATIONAL LINGUISTICS, vol. Volume 26, Issue 3, JPN7018001140, September 2000 (2000-09-01), pages 339 - 373, ISSN: 0004577498 *

Also Published As

Publication number Publication date
JP6988924B2 (ja) 2022-01-05
US11416678B2 (en) 2022-08-16
US20210034815A1 (en) 2021-02-04
WO2019150583A1 (ja) 2019-08-08

Similar Documents

Publication Publication Date Title
JP6719082B2 (ja) 決定木生成装置、決定木生成方法、決定木生成プログラム及び質問システム
JP6988924B2 (ja) 質問群抽出方法、質問群抽出装置および質問群抽出プログラム
CN106649742B (zh) 数据库维护方法和装置
JP5831951B2 (ja) 対話システム、冗長メッセージ排除方法および冗長メッセージ排除プログラム
US20180157959A1 (en) Intelligent interaction method and intelligent interaction system
CN112417102B (zh) 一种语音查询方法、装置、服务器和可读存储介质
US20060129396A1 (en) Method and apparatus for automatic grammar generation from data entries
KR102100951B1 (ko) 기계 독해를 위한 질의응답 데이터 생성 시스템
CN113627797B (zh) 入职员工画像生成方法、装置、计算机设备及存储介质
KR101677859B1 (ko) 지식 베이스를 이용하는 시스템 응답 생성 방법 및 이를 수행하는 장치
Alhassan et al. A novel framework for Arabic dialect chatbot using machine learning
US11669691B2 (en) Information processing apparatus, information processing method, and computer readable recording medium
US6965856B1 (en) Process for the automatic generation of a textual expression from a semantic representation using a computer system
JP6757840B2 (ja) 文抽出システム、文抽出方法、及びプログラム
JP2013250926A (ja) 質問応答装置、方法、及びプログラム
WO2020241039A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
CN114020888A (zh) 文本生成的方法、装置、设备以及存储介质
JP7013329B2 (ja) 学習装置、学習方法および学習プログラム
CN112685434A (zh) 一种基于知识图谱的运维问答方法
JP2021108033A (ja) 質問回答表示サーバ、質問回答表示方法及び質問回答表示プログラム
JP7216863B1 (ja) 情報処理装置、情報処理方法、及びプログラム
CN113743126B (zh) 一种基于用户情绪的智能交互方法和装置
CN111814433B (zh) 一种维吾尔语实体识别的方法、装置和电子设备
JP2013254421A (ja) 固有表現タイプ推定装置、方法、及びプログラム
JP2018028925A (ja) 次発話候補ランキング装置、方法、及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200731

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200731

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210824

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211020

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211115

R150 Certificate of patent or registration of utility model

Ref document number: 6988924

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150