WO2012070228A1

WO2012070228A1 - 対話テキスト解析装置、方法およびプログラム

Info

Publication number: WO2012070228A1
Application number: PCT/JP2011/006490
Authority: WO
Inventors: 晃裕田村; 石川　開
Original assignee: 日本電気株式会社
Priority date: 2010-11-22
Filing date: 2011-11-22
Publication date: 2012-05-31
Also published as: US20130238321A1; JPWO2012070228A1; JP5867410B2

Abstract

　対話テキスト解析装置は、対話テキストからテキスト処理用データを生成する。否定判定手段８１は、複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、その第一の発話より後に存在する第二の発話で否定されているか否かを判定する。テキスト処理用データ生成手段８２は、第一の発話の事象が第二の発話で否定されている場合、否定された第一の発話の事象を対話テキストから除いたデータであるテキスト処理用データを生成する。

Description

対話テキスト解析装置、方法およびプログラム

　本発明は、発話の内容を表す対話テキストを解析し、マイニングなどの分析や検索といったテキスト処理を行う際に用いられるテキスト処理用データを生成する対話テキスト解析装置、対話テキスト解析方法および対話テキスト解析プログラムに関する。

　テキストを対象として、分析や検索などの処理を正しく行うために、肯定の事実と否定の事実とを区別して分析することが望ましい。肯定の事実とは、事象が肯定で成り立っている事実である。言い換えると、肯定の事実は、事象に対して肯定的な内容を示す事実である。また、否定の事実は、事象が否定で成り立っている事実である。言い換えると、否定の事実とは、事象に対して否定的な内容を示す事実であるということもできる。例えば、「ネットに接続できている」という事象に対して、肯定の事実とは「ネットに接続できている」という事実であり、否定の事実とは「ネットに接続できていない」という事実である。

　例として、コールセンターに蓄積されたテキストを対象に、「ネットに接続できている」状況（肯定の事実）を表すテキストを検索する場合を考える。この際、テキストに記載されている事象が肯定か否定かを考慮せずに、単純に「ネット」や「接続」といった単語が含まれるテキストが検索されると、「ネットに接続できない」事例（否定の事実）も検索結果に含まれてしまう。その結果、検索精度が低くなる。

　従って、検索処理において、記載されている事象が肯定の事実か否定の事実かを分けて扱うことが望ましい。また、検索処理に限らず、テキストマイニングや要約などの多くのテキスト分析において、肯定の事実と否定の事実とを区別することは、精度よく分析を行う上で重要である。

　非特許文献１には、否定表現のバリエーションを吸収できるテキストマイニングが記載されている。非特許文献１に記載されたテキストマイニングでは、ユーザの質問文（クエリ）に相当する事例を検索する際に、テキストを形態素解析し、文節に、形容詞「ない」、助動詞「ぬ」、または形容動詞「不可能だ」が含まれる場合に、その文節に否定フラグが付与される。そして、検索の際に、否定フラグが付与されたデータを用いて、否定フラグまで含めたマッチングが行われことによって、クエリに適した事例が高い精度で検索される。

　非特許文献２には、事象の述語に対して肯定の事実か否定の事実かという事実性を判定する方法が記載されている。非特許文献２に記載された方法では、まず、事象を表す各述語に事実性が割り当てられた学習コーパスを用いて、学習アルゴリズムｆａｃｔｏｒｉａｌ　ＣＲＦ（Conditional random fields ）により、述語（事象）の事実性を推定するモデルが予め作成される。モデルの素性として、事象を表す述語、その述語が含まれる文節の前と後の文節内の形態素の情報、及び、係り先・係り元の文節内の形態素の情報と、予め作成された機能表現辞書に含まれる意味分類が用いられる。そして、解析対象の述語（事象）から素性が抽出され、その素性を予め作成された事実性を推定するモデルに入力することによって、解析対象の述語（事象）の事実性が判定される。

　なお、非特許文献３には、会話分析で用いられる隣接ペアが記載されている。隣接ペアは、質問と返答、誘いと受諾といった基本的な相互行為を達成する発話対である。２つの発話をＸ，Ｙとしたときに、隣接ペアは、（１）ＸとＹは隣接した位置にある、（２）ＸとＹは異なる話者が産出する、（３）第１部分Ｘは第２部分Ｙに先行する、（４）Ｘは決まった型のＹを要求する、といったルールに沿って決定される。

　また、非特許文献４には、隣接ペアを特定する具体的な方法が記載されている。非特許文献４に記載された方法の場合、前Ｎ発話のダイアログアクトや分析対象の発話の韻律情報、時間情報や参照情報によって、各発話のダイアログアクトが与えられるとともに、隣接ペアになっている発話が特定される。

"Text Mining Solution"、［online］、株式会社リッテル、［２０１０年１１月２日検索］、インターネット〈URL：http://littel.co.jp/textmine/textmine004.html〉森田啓，佐尾ちとせ，松吉俊，松本裕治，乾健太郎，"テキスト情報の事実性解析"，第7回情報科学技術フォーラム(FIT2008)，Vol.2，pp.259-260，2008. 石崎雅人, 伝康晴，"言語と計算３　談話と対話"，東京大学出版会，pp.140-150，2001. Yosuke Matsusaka, Mika Enomoto, and Yasuharu Den,"Simultaneous Prediction of Dialog Acts and Address Types in Three-party Conversations"，Proc. 9th International Conference on Multimodal Interfaces(ICMI 07)，pp.66-73，2007.

　様々な種類のテキストの中でも、発話の内容を表すテキスト（以下、対話テキストと記す。）では、発話が示す事象の事実性（すなわち、事象が肯定の事実を示すか否定の事実を示すか）が複数人による複数の発話によって決定されることが多い。図１８は、対話テキストの例を示す説明図である。図１８に示す対話テキストは、コールセンターの通話データの一例を示す。図１８に示す対話テキストは、話者とその話者の発言した内容を表す発言テキストとを含んでいる。これらの内容は発言インデックスが示す番号により特定される。以下、発話インデックス「Ｎ」で識別される発話を、単に、発話インデックス「Ｎ」の発話と記す。ここで、Ｎは、正の整数であるとする。

　図１８に示す発言インデックス「９」の「排水口で詰まる」という事象の事実性は、発言インデックス「９」の発話がされた時点では仮説の状態である。その後、発言インデックス「１０」の発話で、発言インデックス「９」の発話の内容が否定されることによって、初めて発言インデックス「９」の発話が否定の事実であることが分かる。

　また、対話テキストにおいて、一度、決定された事象の事実性が、確認や聞き返しにより、後で変更されることがある。例えば、図１８に示す発言インデックス「１４」の「Ａ社のプリンタである」という事象は、一度、肯定の事実として決定される。しかし、発言インデックス「１５」の発話における確認の発言と、その返答である発言インデックス「１６」の発話により、「Ａ社のプリンタである」という事象は否定の事実に変更される。

　特に、コールセンターでなされるオペレータと顧客との対話において、オペレータは、おうむ返しによって重要な部分の確認を行うことが多い。そのため、その確認に対する返答により、一度決定した事実性が変更される場合が多々存在する。以上のように、対話テキスト中において、事象の事実性は、後の発話との関係で決定されたり変更されたりする。

　しかし、非特許文献１に記載されたテキストマイニングや、非特許文献２に記載された方法では、事象が記述された一文の情報を手がかりとして、その事象の事実性が決定される。すなわち、マイニングなどの分析や検索といったテキスト処理に用いられるデータ（以下、テキスト処理用データと記す。）は、一文ごとに決定された事実性の集合になる。したがって、この場合のテキスト処理用データには、後の発話で決定される仮の事実や、後の発話で事実性が変更される事実など、実際の事実とは異なる事実もテキスト処理用データに含まれることになる。

　例えば、図１８に示す発言インデックス「９」の「排出口で詰まる」という仮の肯定の事実や、後で否定される発言インデックス「１４」の「Ａ社のプリンタである」という事実も、それぞれのテキストの解析で得られた肯定の事実として、テキスト処理用データに含まれてしまう。その結果、正しいテキスト処理を行うことができない。例えば、検索精度が悪くなったり、マイニング精度が悪くなったり、要約の精度が悪くなったりするという問題が生じてしまう。

　そこで、本発明は、事象の事実性が後の発話との関係で決定されたり変更されたりするような対話テキストから、マイニングなどの分析や検索といったテキスト処理を精度よく行なうためのテキスト処理用データを生成できる対話テキスト解析装置、対話テキスト解析方法および対話テキスト解析プログラムを提供することを目的とする。

　本発明による対話テキスト解析装置は、複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、その第一の発話より後に存在する第二の発話で否定されているか否かを判定する否定判定手段と、第一の発話の事象が第二の発話で否定されている場合、否定された第一の発話の事象を対話テキストから除いたデータであるテキスト処理用データを生成するテキスト処理用データ生成手段とを備えたことを特徴とする。

　本発明による対話テキスト解析方法は、複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、その第一の発話より後に存在する第二の発話で否定されているか否かを判定し、第一の発話の事象が第二の発話で否定されている場合、否定された第一の発話の事象を対話テキストから除いたデータであるテキスト処理用データを生成することを特徴とする。

　本発明による対話テキスト解析プログラムは、コンピュータに、複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、その第一の発話より後に存在する第二の発話で否定されているか否かを判定する否定判定処理、および、第一の発話の事象が第二の発話で否定されている場合、否定された第一の発話の事象を対話テキストから除いたデータであるテキスト処理用データを生成するテキスト処理用データ生成処理を実行させることを特徴とする。

　本発明によれば、マイニングなどの分析や検索といったテキスト処理を精度よく行なうためのテキスト処理用データを対話テキストから生成できる。

本発明の第１の実施形態における対話テキスト解析装置の例を示すブロック図である。第１の実施形態における対話テキスト解析装置の動作の例を示すフローチャートである。本発明の第２の実施形態における対話テキスト解析装置の例を示すブロック図である。第２の実施形態における対話テキスト解析装置の動作の例を示すフローチャートである。本発明の第３の実施形態における対話テキスト解析装置の例を示すブロック図である。第３の実施形態における対話テキスト解析装置の動作の例を示すフローチャートである。本発明の第４の実施形態における対話テキスト解析装置の例を示すブロック図である。第４の実施形態における対話テキスト解析装置の動作の例を示すフローチャートである。隣接ペアの例を示す説明図である。否定判定手段の例を示すブロック図である。否定発話データベースに記憶された情報の例を示す説明図である。否定判定手段の他の例を示すブロック図である。テキスト処理用データの例を示す説明図である。テキスト処理用データの例を示す説明図である。テキスト処理用データの例を示す説明図である。テキスト処理用データの例を示す説明図である。本発明による対話テキスト解析装置の最小構成の例を示すブロック図である。対話テキストの例を示す説明図である。

　以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
　図１は、本発明の第１の実施形態における対話テキスト解析装置の例を示すブロック図である。本実施形態における対話テキスト解析装置は、入力手段１０と、出力手段２０と、コンピュータ３０とを備えている。ここで、コンピュータ３０は、中央処理装置、プロセッサ、またはデータ処理装置等により実現される。

　入力手段１０は、分析対象として、複数の発話の内容を含むテキスト（すなわち、対話テキスト）をコンピュータ３０に入力する。また、出力手段２０は、コンピュータ３０が生成したテキスト処理用データを出力する。

　コンピュータ３０は、応答ペア特定手段３１と、否定判定手段３２と、テキスト処理用データ生成手段３３とを備えている。

　応答ペア特定手段３１は、入力された対話テキスト中の各発話から、対話の相手に尋ねる発話と、その発話の後方に存在し、その発話の回答になっている発話のペアである応答ペアの関係にある発話同士を特定する。以下の説明では、対話の相手に尋ねる発話のことを先行発話と記し、その発話に対応する発話のことを後続発話と記す。応答ペア特定手段３１は、疑問文を表す発話と発話の直後の発話とを応答ペアとして特定してもよい。また、応答ペア特定手段３１は、対話テキストから所定のルールに基づいて決定される隣接ペアを応答ペアとして特定してもよい。

　否定判定手段３２は、応答ペアの先行発話の事象が後続発話で否定されているか否かを判定する。事象は、発話の構文木や、動詞を中心とした構造（係り受け関係、格構造、構文木の部分木）で表わすことが可能な情報である。否定判定手段３２は、例えば、前方の発話の内容を否定する予め定められた発話（以下、否定発話と記す。）と後続発話とが一致する場合に、応答ペアの先行発話の事象が後続発話で否定されていると判定してもよい。他にも、否定判定手段３２は、否定発話の特徴と後続発話の特徴とが一致する場合、先行発話の事象が後続発話で否定されていると判定してもよい。ただし、否定判定手段３２が判定する方法は、これらの方法に限定されない。

　テキスト処理用データ生成手段３３は、先行発話の事象が後続発話で否定されている場合、否定された先行発話の事象を対話テキストから除いたデータをテキスト処理用データとして生成する。

　なお、本発明において、事実は、実際に生じた事柄を意味するだけでなく、その後の処理において事実性が変化し得る仮の内容や、実際には生じていない内容（すなわち、実際に生じた内容とは異なる内容）をも含む情報を意味する。例えば、事象の事実性に着目した時点で「肯定の事実」と判断された事実も、後の処理で「否定の事実」と判断され得る。

　なお、応答ペア特定手段３１と、否定判定手段３２と、テキスト処理用データ生成手段３３とは、プログラム（対話テキスト解析プログラム）に従って動作するコンピュータ３０（具体的には、コンピュータ３０のＣＰＵ）によって実現される。例えば、プログラムは、対話テキスト解析装置の記憶部（図示せず）に記憶される。ＣＰＵは、記憶部からプログラムを読み込み、プログラムに従って、応答ペア特定手段３１、否定判定手段３２およびテキスト処理用データ生成手段３３として動作してもよい。また、応答ペア特定手段３１と、否定判定手段３２と、テキスト処理用データ生成手段３３とは、それぞれが専用のハードウェアで実現されていてもよい。

　次に、対話テキスト解析装置の動作を説明する。図２は、第１の実施形態の対話テキスト解析装置の動作の例を示すフローチャートである。入力手段１０は、分析対象となる対話テキストを入力として受け付ける（ステップＡ１）。続いて、応答ペア特定手段３１は、入力された対話テキストの各発話から、対話の相手に尋ねる発話と、その発話の後方に存在し、その発話の回答になっている発話のペア（応答ペア）を特定する（ステップＡ２）。

　否定判定手段３２は、応答ペアにおける先行発話の事象が後続発話で否定されているか否か判定する（ステップＡ３）。

　テキスト処理用データ生成手段３３は、後に行われるマイニングなどの分析や検索といったテキスト処理を行う際に用いられるテキスト処理用データを生成する。具体的には、テキスト処理用データ生成手段３３は、ステップＡ３での判定結果（すなわち、応答ペアの後続発話が先行発話の事象を否定しているか否か）を否定判定手段３２から受け取る。そして、応答ペアにおける先行発話の事象が後続発話に否定されていると判定されていた場合、テキスト処理用データ生成手段３３は、その否定された事象を対話テキストから除外したテキスト処理用データを作成する（ステップＡ４）。すなわち、テキスト処理用データ生成手段３３は、後続発話によって否定される前に存在していた先行発話の事象を、否定された事象として対話テキストから除外しているということができる。最後に、出力手段２０は、ステップＡ４で生成されたテキスト処理用データを出力する（ステップＡ５）。

　以上のように、本実施形態では、否定判定手段３２が、対話テキストにおける先行発話の事象がその先行発話より後に存在する後続発話で否定されているか否かを判定する。そして、先行発話の事象が後続発話で否定されている場合、テキスト処理用データ生成手段３３が、否定された先行発話の事象を対話テキストから除いたテキスト処理用データを生成する。そのため、マイニングなどの分析や検索といったテキスト処理を精度よく行なうためのテキスト処理用データを対話テキストから生成できる。

　すなわち、ステップＡ４において、テキスト処理用データ生成手段３３が、応答ペアにおける先行発話の事象が後続発話で否定されている事象をテキスト処理用データから除外する。したがって、対話テキスト中の先行発話内での仮の事象や、応答ペアでのやり取りの結果否定される事象をテキスト処理用データから削除することができるため、最終的な結論に適したテキスト処理用データを生成することができる。結果として、生成されるテキスト処理用データが、マイニングなどの分析や検索といったテキスト処理を精度よく行うことができるデータになる。

実施形態２．
　図３は、本発明の第２の実施形態の対話テキスト解析装置の例を示すブロック図である。本実施形態の対話テキスト解析装置は、入力手段１１０と、出力手段１２０と、コンピュータ１３０とを備えている。コンピュータ１３０は、中央処理装置、プロセッサ、またはデータ処理装置等により実現される。なお、入力手段１１０および出力手段１２０は、第１の実施形態における入力手段１０および出力手段２０と同様であるため、説明を省略する。

　コンピュータ１３０は、応答ペア特定手段１３１と、否定判定手段１３２と、発話内事実性判定手段１３３と、テキスト処理用データ生成手段１３４とを備えている。応答ペア特定手段１３１および否定判定手段１３２は、第１の実施形態における応答ペア特定手段３１および否定判定手段３２と同様であるため、説明を省略する。

　発話内事実性判定手段１３３は、応答ペアにおける先行発話の事象が肯定の事実を示すか事象か、否定の事実を示す事象か（すなわち、事象の事実性）を、先行発話の情報から判定する。発話内事実性判定手段１３３は、例えば、非特許文献２に記載されたモデルを用いて、先行発話の事象の事実性を判定してもよい。

　テキスト処理用データ生成手段１３４は、先行発話の事象が後続発話に否定されている場合、否定された先行発話の事象を対話テキストから除くとともに、その先行発話の事象の事実性とは逆の事実性を示す事象を対話テキストに追加したデータをテキスト処理用データとして生成する。すなわち、テキスト処理用データ生成手段１３４は、先行発話の事象が後続発話に否定されている場合、否定されたと判定された事象が肯定の事実のときにはその事象を否定の事実に変更し、否定されたと判定された事実が否定の事実のときには、その事象を肯定の事実に変更し、それぞれ否定された先行発話の事象の代わりにテキスト処理用データに追加する。テキスト処理用データ生成手段１３４は、例えば、先行発話の事象に、その事象の事実性を付加した情報をテキスト処理用データに追加してもよい。

　なお、応答ペア特定手段１３１と、否定判定手段１３２と、発話内事実性判定手段１３３と、テキスト処理用データ生成手段１３４とは、プログラム（対話テキスト解析プログラム）に従って動作するコンピュータ１３０（具体的には、コンピュータ１３０のＣＰＵ）によって実現される。また、応答ペア特定手段１３１と、否定判定手段１３２と、発話内事実性判定手段１３３と、テキスト処理用データ生成手段１３４とは、それぞれが専用のハードウェアで実現されていてもよい。

　次に、対話テキスト解析装置の動作を説明する。図４は、第２の実施形態の対話テキスト解析装置の動作の例を示すフローチャートである。なお、入力手段１１０が対話テキストを入力として受け付け、応答ペア特定手段１３１が応答ペアを特定し、否定判定手段１３２が先行発話の事象が後続発話で否定されているか否かを判定するまでの、ステップＢ１～ステップＢ３－１の処理は、図２におけるステップＡ１～Ａ３の処理と同様である。

　ステップＢ２の処理が行われた後、発話内事実性判定手段１３３は、応答ペア内の先行発話を用いて、その先行発話の事象が肯定の事実か否定の事実か（すなわち、事実性）を判定する（ステップＢ３－２）。なお、ステップＢ３－２の処理は、ステップＢ３－１の処理と同時に行われてもよく、ステップＢ３－１の処理の前または後に行われてもよい。

　続いて、テキスト処理用データ生成手段１３４は、後に行われるマイニングなどの分析や検索といったテキスト処理を行う際に用いられるテキスト処理用データを生成する。具体的には、テキスト処理用データ生成手段１３４は、ステップＢ３－１で判定された、応答ペアにおける後続発話が先行発話の事象を否定しているか否かの結果を否定判定手段１３２から受け取る。また、テキスト処理用データ生成手段１３４は、ステップＢ３－２で判定された、先行発話の事象の事実性の判定結果を発話内事実性判定手段１３３から受け取る。

　応答ペアにおける先行発話の事象が後続発話に否定されていると判定されていた場合、テキスト処理用データ生成手段１３４は、その否定された事象を対話テキストから除外する。そして、テキスト処理用データ生成手段１３４は、ステップＢ３－２で判定された先行発話の事象の事実性とは逆の事実性を示す事象を、除外した事象の代わりにテキスト処理用データに追加する。つまり、テキスト処理用データ生成手段１３４は、ステップＢ３－２において判定された先行発話の事象が、肯定の事実のときにはその事象を否定の事実とし、否定の事実のときにはその事象を肯定の事実として、テキスト処理用データを生成する（ステップＢ４）。最後に、出力手段１２０は、ステップＢ４で生成されたテキスト処理用データを出力する（ステップＢ５）。

　以上のように、本実施形態では、テキスト処理用データ生成手段１３４が、否定された先行発話の事象の内容が肯定の事実を示す場合、その事象を否定の事実を示す事象としてテキスト処理用データに追加し、先行発話の事象の内容が否定の事実を示す場合、その事象を肯定の事実を示す事象としてテキスト処理用データに追加する。

　すなわち、ステップＢ４において、テキスト処理用データ生成手段１３４が応答ペアにおける先行発話の事象が後続発話に否定されている事象をテキスト処理用データから除外する。さらに、テキスト処理用データ生成手段１３４が、除外した事象の代わりに、ステップＢ３－２で判定された先行発話の事象の事実性とは逆の事実性を示す事象をテキスト処理用データに追加する。したがって、対話テキスト中の先行発話内での仮の事象や、応答ペアでのやり取りの結果否定される事象に対し、最終的な結論と一致するようにテキスト処理用データを生成することができる。結果として、生成されるテキスト処理用データが、マイニングなどの分析や検索といったテキスト処理を精度よく行うことができるデータになる。

実施形態３．
　図５は、本発明の第３の実施形態の対話テキスト解析装置の例を示すブロック図である。本実施形態の対話テキスト解析装置は、入力手段２１０と、出力手段２２０と、コンピュータ２３０とを備えている。コンピュータ２３０は、中央処理装置、プロセッサ、またはデータ処理装置等により実現される。なお、入力手段２１０および出力手段２２０は、第１の実施形態における入力手段１０および出力手段２０と同様であるため、説明を省略する。

　コンピュータ２３０は、応答ペア特定手段２３１と、否定判定手段２３２と、確認返答ペア判定手段２３３と、確認対象発話特定手段２３４と、テキスト処理用データ生成手段２３５とを備えている。応答ペア特定手段２３１および否定判定手段２３２は、第１の実施形態における応答ペア特定手段３１および否定判定手段３２と同様であるため、説明を省略する。

　確認返答ペア判定手段２３３は、応答ペアにおける先行発話がある事象の確認または聞き返しを示す事象であるか否か、および、その応答ペアにおける後続発話がその確認または聞き返しに対する返答を示す事象であるか否かを判定する。以下、応答ペアにおいて、先行発話が確認または聞き返しを示す事象であり、かつ、後続発話がその確認または聞き返しに対する返答を示す事象であるペアを、「確認（聞き返し）－返答」のペアと記す。具体的には、確認返答ペア判定手段２３３は、例えば、応答ペアにおける先行発話とその先行発話の前に存在する対話テキスト中の各発話との単語の共通度を比較する。そして、確認返答ペア判定手段２３３は、先行発話との単語の共通度が予め定められた閾値より高い発話がその先行発話の前に存在する場合、その応答ペアを「確認（聞き返し）－返答」のペアと判定する。

　確認対象発話特定手段２３４は、応答ペアが「確認（聞き返し）－返答」のペアである場合、対話テキスト中の発話の中で、先行発話の前方に存在する、先行発話が確認や聞き返す対象とした発話を特定する。言い換えると、確認対象発話特定手段２３４は、応答ペアが「確認（聞き返し）－返答」のペアである場合、対話テキスト中の発話の中で、先行発話よりも前に存在する発話のうち、その先行発話で確認または聞き返しが行われた原因の発話を特定しているということもできる。具体的には、確認対象発話特定手段２３４は、先行発話との単語の共通度が閾値より高い発話を、先行発話で確認または聞き返しの対象（原因）になった発話であると特定してもよい。

　テキスト処理用データ生成手段２３５は、先行発話の事象が後続発話に否定されている場合、否定された先行発話の事象を対話テキストから除くとともに、確認対象発話特定手段２３４が特定した発話（すなわち、その先行発話で確認または聞き返しが行われた原因の発話）の事象を対話テキストから除いたデータをテキスト処理用データとして生成する。

　なお、応答ペア特定手段２３１と、否定判定手段２３２と、確認返答ペア判定手段２３３と、確認対象発話特定手段２３４と、テキスト処理用データ生成手段２３５とは、プログラム（対話テキスト解析プログラム）に従って動作するコンピュータ２３０（具体的には、コンピュータ２３０のＣＰＵ）によって実現される。また、応答ペア特定手段２３１と、否定判定手段２３２と、確認返答ペア判定手段２３３と、確認対象発話特定手段２３４と、テキスト処理用データ生成手段２３５とは、それぞれが専用のハードウェアで実現されていてもよい。

　次に、対話テキスト解析装置の動作を説明する。図６は、第３の実施形態の対話テキスト解析装置の動作の例を示すフローチャートである。なお、入力手段２１０が対話テキストを入力として受け付け、応答ペア特定手段２３１が応答ペアを特定し、否定判定手段２３２が先行発話の事象が後続発話で否定されているか否かを判定するまでの、ステップＣ１～ステップＣ３の処理は、図２におけるステップＡ１～Ａ３の処理と同様である。

　ステップＣ２の処理が行われた後、確認返答ペア判定手段２３３は、応答ペアの先行発話の働きが確認や聞き返しで、後続発話の働きがその先行発話に対する返答であるか否かを判定する（ステップＣ４－１）。なお、ステップＣ４－１の処理は、ステップＣ３の処理と同時に行われてもよく、ステップＣ３の処理の前または後に行われてもよい。

　ステップＣ４－１で、応答ペアが「確認（聞き返し）－返答」のペアであると判定された場合、確認対象発話特定手段２３４は、対話テキスト中の発話の中で、先行発話の前方に存在する、先行発話が確認や聞き返す対象とした発話を特定する（ステップＣ４－２）。

　続いて、テキスト処理用データ生成手段２３５は、後に行われるマイニングなどの分析や検索といったテキスト処理を行う際に用いられるテキスト処理用データを生成する。具体的には、テキスト処理用データ生成手段２３５は、ステップＣ３で判定された、応答ペアにおける後続発話が先行発話の事象を否定しているか否かの結果を否定判定手段２３２から受け取る。また、テキスト処理用データ生成手段２３５は、ステップＣ４－２で特定された、応答ペアによる確認や聞き返しの元になった発話を確認対象発話特定手段２３４から受け取る。

　応答ペアにおける先行発話の事象が後続発話に否定されていると判定されていた場合、テキスト処理用データ生成手段２３５は、その否定された事象を対話テキストから除外する。さらに、テキスト処理用データ生成手段２３５は、その応答ペアに対して確認や聞き返しの元となった発話の事象も除外する（ステップＣ５）。最後に、出力手段２２０は、ステップＣ５で生成されたテキスト処理用データを出力する（ステップＣ６）。

　以上のように、本実施形態では、確認返答ペア判定手段２３３が、応答ペアが「確認（聞き返し）－返答」のペアの関係にあるか否かを判定する。その応答ペアが「確認（聞き返し）－返答」のペアの関係にある場合、確認対象発話特定手段２３４が、対話テキスト中の発話の中で、先行発話よりも前に存在する発話のうち、その先行発話で確認または聞き返しが行われた原因の発話を特定する。そして、先行発話の事象が後続発話により否定されている場合、テキスト処理用データ生成手段２３５が、特定された原因の発話における事象の事実を除いたテキスト処理用データを生成する。

　すなわち、ステップＣ５において、テキスト処理用データ生成手段２３５が応答ペアの先行発話の事象が後続発話に否定されている事象をテキスト処理用データから除外する。さらに、テキスト処理用データ生成手段２３５がその応答ペアに対して確認や聞き返しの元になった発話の事象もテキスト処理用データから除外する。したがって、一度は事実性が確定した事象に対しても、後の応答ペアによる確認や聞き返し及びその返答によって事実性が変更されることで、最終的な結論とは異なってしまった事象を、テキスト処理用データから削除することができる。結果として、生成されるテキスト処理用データが、マイニングなどの分析や検索といったテキスト処理を精度よく行うことができるデータになる。

実施形態４．
　図７は、本発明の第４の実施形態の対話テキスト解析装置の例を示すブロック図である。本実施形態の対話テキスト解析装置は、入力手段３１０と、出力手段３２０と、コンピュータ３３０とを備えている。コンピュータ３３０は、中央処理装置、プロセッサ、またはデータ処理装置等により実現される。なお、入力手段３１０および出力手段３２０は、第１の実施形態における入力手段１０および出力手段２０と同様であるため、説明を省略する。

　コンピュータ３３０は、応答ペア特定手段３３１と、否定判定手段３３２と、発話内事実性判定手段３３３と、確認返答ペア判定手段３３４と、確認対象発話特定手段３３５と、テキスト処理用データ生成手段３３６とを備えている。応答ペア特定手段３３１、否定判定手段３３２および発話内事実性判定手段３３３、第２の実施形態における応答ペア特定手段１３１、否定判定手段１３２および発話内事実性判定手段１３３と同様である。また、確認返答ペア判定手段３３４および確認対象発話特定手段３３５は、第３の実施形態における、確認返答ペア判定手段２３３および確認対象発話特定手段２３４と同様である。そのため、これらの内容については、説明を省略する。

　テキスト処理用データ生成手段３３６は、先行発話の事象が後続発話に否定されている場合、否定された先行発話の事象を対話テキストから除くとともに、その先行発話の事象の事実性とは逆の事実性を示す事象を対話テキストに追加したデータをテキスト処理用データとして生成する。

　さらに、テキスト処理用データ生成手段３３６は、確認対象発話特定手段３３５が特定した発話（すなわち、その先行発話で確認または聞き返しが行われた原因の発話）の事象の事実性を、対話テキストに追加した事象の事実性と一致するように変更する。具体的には、テキスト処理用データ生成手段３３６は、先行発話の事象が後続発話により否定された場合に、先行発話で確認または聞き返しが行われた原因の発話における事象の内容が肯定の事実を示すときには、その肯定の事実を示す事象を否定の事実を示す事象に変更してテキスト処理用データに追加する。同様に、テキスト処理用データ生成手段３３６は、先行発話で確認または聞き返しが行われた原因の発話における事象の内容が否定の事実を示す場合に、その否定の事実を示す事象を肯定の事実を示す事象に変更してテキスト処理用データに追加する。なお、事象の事実性とは逆の事実性を示す事象を対話テキストに追加する方法は、テキスト処理用データ生成手段１３４が先行発話の事象の事実性とは逆の事実性を示す事象を対話テキストに追加する方法と同様である。

　応答ペア特定手段３３１と、否定判定手段３３２と、発話内事実性判定手段３３３と、確認返答ペア判定手段３３４と、確認対象発話特定手段３３５と、テキスト処理用データ生成手段３３６とは、プログラム（対話テキスト解析プログラム）に従って動作するコンピュータ３３０（具体的には、コンピュータ３３０のＣＰＵ）によって実現される。また、応答ペア特定手段３３１と、否定判定手段３３２と、発話内事実性判定手段３３３と、確認返答ペア判定手段３３４と、確認対象発話特定手段３３５と、テキスト処理用データ生成手段３３６とは、それぞれが専用のハードウェアで実現されていてもよい。

　次に、対話テキスト解析装置の動作を説明する。図８は、第４の実施形態の対話テキスト解析装置の動作の例を示すフローチャートである。なお、入力手段３１０が対話テキストを入力として受け付け、応答ペア特定手段３３１が応答ペアを特定するまでのステップＤ１～ステップＤ２の処理は、図４におけるステップＢ１～Ｂ２の処理と同様である。

　続いて、否定判定手段３３２が先行発話の事象が後続発話で否定されているか否か判定する。発話内事実性判定手段３３３がその先行発話の事実性を判定するステップＤ３～Ｄ４の処理は、図４におけるステップＢ３－１～Ｂ３－２の処理と同様である。また、応答ペアが「確認（聞き返し）－返答」のペアか否かを確認返答ペア判定手段３３４が判定し、先行発話が確認や聞き返す対象とした発話を確認対象発話特定手段３３５が特定するステップＤ５－１～Ｄ５－２の処理は、図６におけるステップＣ４－１～Ｃ４－２の処理と同様である。

　なお、ステップＤ５－１の処理の後にステップＤ５－２の処理が行われれば、ステップＤ３、ステップＤ４、ステップＤ５－１およびステップＤ５－２の処理の順番は任意である。

　続いて、テキスト処理用データ生成手段３３６は、後に行われるマイニングなどの分析や検索といったテキスト処理を行う際に用いられるテキスト処理用データを生成する。具体的には、テキスト処理用データ生成手段３３６は、ステップＤ３で判定された、応答ペアにおける後続発話が先行発話の事象を否定しているか否かの結果を否定判定手段３３２から受け取る。また、テキスト処理用データ生成手段３３６は、ステップＤ４で判定された、先行発話の事象の事実性の判定結果を発話内事実性判定手段３３３から受け取る。さらに、テキスト処理用データ生成手段３３６は、ステップＤ５－２で特定された、応答ペアによる確認や聞き返しの元になった発話を確認対象発話特定手段３３５から受け取る。

　応答ペアにおける先行発話の事象が後続発話に否定されていると判定されていた場合、テキスト処理用データ生成手段３３６は、その否定された事象を対話テキストから除外する。そして、テキスト処理用データ生成手段３３６は、ステップＤ４で判定された先行発話の事象の事実性とは逆の事実性を示す事象を、除外した事象の代わりにテキスト処理用データに追加する。さらに、テキスト処理用データ生成手段３３６は、その応答ペアにより確認や聞き返しの元となった発話の事象の事実性も、追加した事象の事実性と一致するように変更する（ステップＤ６）。最後に、出力手段３２０は、ステップＤ６で生成されたテキスト処理用データを出力する（ステップＤ７）。

　以上のように、本実施形態では、ステップＤ６において、テキスト処理用データ生成手段３３６が応答ペアにおける先行発話の事象が後続発話に否定されている事象をテキスト処理用データから除外する。また、テキスト処理用データ生成手段３３６が、除外した事象の代わりに、ステップＤ４で判定された先行発話の事象の事実性とは逆の事実性を示す事象をテキスト処理用データに追加する。さらに、テキスト処理用データ生成手段３３６が、その応答ペアに対して確認や聞き返しの元になった発話の事象の事実性も、逆に変更して（すなわち、対話テキストに追加した事象の事実性と一致するように変更して）テキスト処理用データを生成する。

　したがって、一度は事実性が確定した事象に対しても、後の応答ペアによる確認や聞き返し及びその返答によって事実性が変更されることで、最終的な結論と異なってしまった事象に関しても、最終的な結論と一致するように修正されたテキスト処理用データを生成することができる。結果として、生成されるテキスト処理用データが、マイニングなどの分析や検索といったテキスト処理を精度よく行うことができるデータになる。

　以下、本発明の具体的な実施例を説明する。なお、本発明の範囲は以下に説明する内容に限定されない。まず。本発明の第１の実施例を説明する。第１の実施例の対話テキスト解析装置は、第１の実施形態の対話テキスト解析装置に対応する。

　以下の実施例の説明では、図１８に例示するコールセンターでの顧客とオペレータでなされた通話を示すテキストを対象とし、テキスト処理用データを作成する過程を、図２に例示するフローチャートに沿って説明する。なお、対象とする通話テキストは、図１８に示す例からも分かる通り、通話テキスト内の事象が後の発話で決定されたり、変更されたりするテキストである。また、事象とは、発話の構文木や、動詞を中心とした構造（係り受け関係、格構造、構文木の部分木）として機械的に捉えることが可能な情報である。

　まず、入力手段１０は、入力テキストとして、図１８に例示する対話テキストを受け付ける。ここで、対話テキストは、発話ごとに区切られているものとする。図１８に示す例では、一つの発言インデックが発話に相当する。

　ただし、対話テキストは、発話ごとに区切られているテキストに限定されない。発話ごとに区切られていないテキストの場合でも、例えば、発話のセパレータを予め定めておき、そのセパレータの出現場所で分割するという前処理が行われたテキストを対話テキストとして利用すればよい。なお、セパレータの例としては、「。」（句点）や「？」（クエスチョンマーク）などが挙げられる。

　また、元のテキストとして、音声データを利用してもよい。この場合、音声認識エンジンを用いてテキスト化したデータに対し、音声認識エンジンが検出した無音区間を利用して発話ごとに分割するという前処理が行われたテキストを対話テキストとして利用すればよい。

　また、対話テキストには、図１８に例示するように、各発話に発話者の情報が付与されていてもよいし、付与されていなくてもよい。図１８に示す例では、オペレータが発話したか、顧客が発話したかを示すタグが各発話に付与されている。また、対話テキストには、発話内容の他に、韻律情報や発話した時間情報など、音声から得られる情報が付与されていてもよい（以上、ステップＡ１）。

　続いて、応答ペア特定手段３１は、入力テキストの各発話から応答ペアの関係にある発話同士を特定する。応答ペアの特定は、例えば、疑問文とそれに対する回答の発話のペアを特定することで実現できる。

　例えば、応答ペア特定手段３１は、まず、各発話を形態素解析し、形態素解析した語と予め定めた疑問文の特徴とをマッチングさせて疑問文か否かを判定する。疑問文の特徴として、例えば、「疑問詞（「どうして」「どんな」「どういった」などの副詞や連体詞）を含む」、や「助動詞「か」「ね」「け」などの終助詞で終わる」が利用される。そして、応答ペア特定手段３１は、疑問文として判定された発話と、その直後の発話のペアを応答ペアとして特定する。

　応答ペア特定手段３１は、隣接ペアを応答ペアとして特定してもよい。隣接ペアは、非特許文献３に記載されているように、会話分析の世界で用いられている概念である。会話分析の分野では、先行発話が特定の種類の発話を要求し、後続発話が先行発話への応答になっているとき、それらの発話が隣接ペアとして定義される。そこで、応答ペア特定手段３１は、非特許文献３に記載された方法に基づいて、隣接ペアを特定し、その特定した隣接ペアを応答ペアとして特定してもよい。

　また、応答ペア特定手段３１は、非特許文献４に記載された手法を用いて隣接ペアを特定してもよい。なお、非特許文献４に記載された手法を用いることで、隣接ペアを形成する発話の種類（例えば、先行発話が「依頼」で後続発話が「承認／拒否」など）まで特定できる。ただし、応答ペア特定手段３１は、発話の種類の特定まで行わなくてもよく、隣接ペアとなっている発話同士を特定すればよい。

　図９は、図１８に例示する対話テキストをもとに特定された隣接ペアの例を示す説明図である。なお、図９に例示する隣接ペアにおいて、発話の種類の特定は省略されている。図９に示す例では、発言インデックス「４」と「５」、発言インデックス「７」と「８」、発言インデックス「９」と「１０」、発言インデックス「１２」と「１３」、発言インデックス「１５」と「１６」でそれぞれ特定される発話が隣接ペアである。応答ペア特定手段３１は、このような隣接ペアを応答ペアとして捉えることで応答ペアの関係にある発話同士を特定する（以上、ステップＡ２）。

　続いて、否定判定手段３２は、応答ペア内の前方の発話の事象が後方の発話で否定されているか否かを判定する。図１０は、否定判定手段３２の例を示すブロック図である。図１０に例示する否定判定手段３２は、後続発話特定手段４１と、エントリ比較手段４２と、判定手段４３とを備えている。また、前方の発話の内容を否定する発話（すなわち、否定発話）や、その否定発話の特徴（ルール）を予め定義した情報が否定発話データベース４４に登録される。否定発話の一部として、例えば、否定の助動詞と付属語からのみなる発話や、否定語と付属語からのみなる発話など、予め定めた発話が否定発話データベース４４に登録されていればよい。否定発話データベース４４は、例えば、対話テキスト解析装置が備える磁気ディスク等に記憶されていてもよく、対話テキスト解析装置とは別の装置に記憶されていてもよい。

　図１１は、否定発話データベースに記憶された情報の例を示す説明図である。図１１に示す例では、否定発話として、「いいえ。」，「いやだ。」，「違います。」，「ありません。」といった発話が記憶され、否定発話として登録された発話の文言から始まる発話、否定の助動詞と付属のみからなる発話が否定発話のルールとして記憶されている。

　後続発話特定手段４１は、応答ペアが否定判定手段３２に入力されると、応答ペアのうち後方にある発話を後続発話として特定する。図１０に示す例では、「プリンタの型番はＸＸですか？」と「違います。」とのペアが応答ペアとして入力されると、後続発話特定手段４１は、「違います。」を後続発話として特定する。

　エントリ比較手段４２は、否定発話データベース４４のデータを読み込み、後続発話と否定発話データベースの各エントリとを比較し、データベース内に該当するエントリが存在するか否かを判定する。図１０および図１１に示す例の場合、エントリ比較手段４２は、後続発話「違います。」が否定発話データベースの上から三番目のエントリに存在する（エントリと一致する）と判定する。このとき、エントリ比較手段４２は、後続発話「違います。」が否定発話データベースの上から五番目のエントリに存在する否定発話の特徴（ルール）と一致すると判定してもよい。

　判定手段４３は、後続発話に該当するエントリが否定発話データベース４４に存在する場合、応答ペア内の先行発話の事象が後続発話で否定されていると判定する。具体的には、判定手段４３は、否定発話と後続発話とが一致する場合、または、否定発話の特徴と後続発話の特徴とが一致する場合、先行発話の事象が後続発話で否定されていると判定する。図１０および図１１に示す例の場合、否定発話と後続発話とが一致するため、判定手段４３は、先行発話の事象が後続発話で否定されていると判定する。

　以上、否定判定手段３２が、後続発話特定手段４１、エントリ比較手段４２および判定手段４３を備えている構成の場合について説明したが、否定判定手段３２の構成は、図１０に例示する構成に限定されない。

　図１２は、否定判定手段３２の他の例を示すブロック図である。図１２に例示する否定判定手段３２は、先行発話特定手段５１と、後続発話特定手段５２と、先行発話役割解析手段５３と、後続発話役割解析手段５４と、動詞対義語判定手段５５と、背反語判定手段５６と、判定手段５７とを備えている。また、予め作成した動詞の対義語対が対義語データベース５８（以下、対義語ＤＢ５８と記す。）に登録される。さらに、予め作成した背反の単語対が背反語データベース５９（以下、背反語ＤＢ５９と記す。）に登録される。対義語ＤＢ５８および背反語ＤＢ５９は、例えば、対話テキスト解析装置が備える磁気ディスク等に記憶されていてもよく、対話テキスト解析装置とは別の装置に記憶されていてもよい。

　先行発話特定手段５１は、応答ペアの前方にある発話を先行発話として特定する。また、後続発話特定手段５２は、応答ペアの後方にある発話を後続発話として特定する。図１２に示す例では、「ランプは点灯していますか？」と「消えています。」とのペアが応答ペアとして入力されると、先行発話特定手段５１は、「ランプは点灯してますか？」を先行発話として特定し、後続発話特定手段５２は、「消えてます。」を後続発話として特定する。

　先行発話役割解析手段５３は、先行発話の各要素に対して、文における役割を解析する。同様に、後続発話役割解析手段５４は、後続発話の各要素に対して、文における役割を解析する。先行発話役割解析手段５３および後続発話役割解析手段５４は、文における役割として、例えば、「主語」「述語」「目的語」といった、文の文法的役割を解析してもよい。なお、解析する文における役割は、文の文法的役割に限定されない。先行発話役割解析手段５３および後続発話役割解析手段５４は、例えば、日本語の場合、「ガ格」「ハ格」「デ格」といった表層格を解析してもよく、「動作主」「道具」「対象」といった深層格を解析してもよい。

　この際、先行発話役割解析手段５３および後続発話役割解析手段５４は、例えば、文法規則であるＨＰＳＧ（Head-Driven Phrase Structure Grammar）を文に適用することで、文法的役割を解析してもよい。他にも、先行発話役割解析手段５３および後続発話役割解析手段５４は、フリーの日本語解析器であるＫＮＰを用いて、動詞およびその表層核を解析してもよい。

　動詞対義語判定手段５５は、先行発話と後続発話の動詞が対義語になっているか否かを判定する。動詞対義語判定手段５５は、例えば、予め作成した動詞の対義語対を格納してある対義語ＤＢ５８を用いて、先行発話の動詞および後続発話の動詞に該当する情報がデータベース内の対義語対に存在する場合に、それらの発話の動詞が対義語になっていると判定してもよい。図１２に示す例では、先行発話の動詞が「点灯する」、後続発話の動詞が「消える」である。対義語ＤＢ５８にこの対義語対が格納されている場合、動詞対義語判定手段５５は、これらの動詞が対義語になっていると判定する。

　また、動詞対義語判定手段５５は、先行発話および後続発話を形態素解析した結果を用いて、後続発話の動詞が先行発話と一致し、その動詞が後続発話内で否定の助動詞（「ない」など）で打ち消されている場合にも、それらの発話の動詞が対義語になっていると判定してもよい。例えば、先行発話の動詞が「点灯する」であり、後続発話が「点灯していません。」であったとする。この場合、先行発話と後続発話の動詞が「点灯する」で一致し、後続発話でその動詞が否定されているため、動詞対義語判定手段５５は、これらの発話の動詞が対義語になっていると判定する。

　背反語判定手段５６は、先行発話と後続発話で同じ役割の要素が背反になっているか否かを判定する。２つの要素が背反は、２つの要素が同時には成立しないことを意味する。つまり、一方の要素が他方の要素にはなり得ない場合に、それら２つの要素を背反と呼ぶ。背反語判定手段５６は、例えば、予め作成した背反の単語対を格納してある背反語ＤＢ５９を用いて、先行発話と後続発話で同じ役割の要素がデータベース内の背反の単語対として存在する場合に、それらの要素が背反語になっていると判定してもよい。

　また、背反語判定手段５６は、階層構造を持つ単語シソーラスのうち、同じ階層に存在し、同じ親ノードを持つノード同士の対を背反語と判定してもよい。例えば、否定判定手段３２に入力される応答ペアが図９に例示する発言インデックス「９」と「１０」のペアであるとする。この場合、先行発話役割解析手段５３が先行発話（発言インデックス「９」）のデ格の要素が「排出口」であると解析し、後続発話役割解析手段５４が後続発話（発言インデックス「１０」）のデ格の要素が「トレー部分」であると解析する。単語シソーラスにおいて、プリンタの構成部分として、「プリンタ」を親ノードとし、「排出口」、「トレー部分」がそれぞれ同じ階層に存在している場合、背反語判定手段５６は、先行発話と後続発話内で同じ役割のデ格の要素である「排出口」と「トレー部分」とを比較し、これらの単語対が背反語であると判定する。

　同様に、否定判定手段３２に入力される応答ペアが図９に例示する発言インデックス「１５」と「１６」のペアである場合、背反語判定手段５６は、先行発話と後続発話内で同じ深層格「動作主」である「Ａ社のプリンタ」と「Ｂ社（のプリンタ）」を比較し、背反語であると判定する。

　判定手段５７は、応答ペア内の後続発話で使用されている動詞が先行発話で使用されている動詞の対義語であってその他の要素が一致している場合、または、後続発話で使用されている要素の一部が先行発話内で同じ役割で使用されている要素と背反である場合に、先行発話の事象が後続発話で否定されていると判定する。

　上述したように、図１２に例示する「ランプは点灯してますか？」と「消えてます。」のペアは、応答ペア内の後続発話で使用されている動詞が先行発話で使用されている動詞の対義語であってその他の要素が一致しているという判定基準を満たす。また、図９に例示する発言インデックス「９」と「１０」のペア、発言インデックス「１５」と「１６」のペアのいずれのペアも、後続発話で使用されている要素の一部が先行発話内で同じ役割で使用されている要素と背反であるという判定基準を満たす。よって、判定手段５７は、それぞれの応答ペアに対して先行発話の事象が後続発話で否定されていると判定する（以上、ステップＡ３）。

　続いて、テキスト処理用データ生成手段３３は、応答ペアの先行発話の事象が後続発話で否定されている事象を除外して、テキスト処理用データを生成する。例えば、上述したように、否定判定手段３２が、図９に例示する発言インデックス「９」と「１０」のペア、及び、発言インデックス「１５」と「１６」のペアを、先行発話の事象が後続発話で否定されている、と判定したとする。この場合、テキスト処理用データ生成手段３３は、発言インデックス「９」の事象および発言インデックス「１５」の事象を、対話テキストから除外してテキスト処理用データを生成する。

　なお、テキスト処理用データは、後のテキスト処理の種類により様々な形態をとることができる。テキスト処理用データ生成手段３３は、例えば、入力テキスト（対話テキスト）の各発話を後のテキスト処理で使用される単位（形態素、形態素ｎグラム、係り受け、文節もしくは発話、または、これらの複数の組み合わせ）の要素に分割し、要素のリストをテキスト処理用データとして生成してもよい。

　図１３は、係り受け単位を要素としてテキスト処理用データが生成された例を示す説明図である。なお、図１３に例示するエントリの括弧内は、抽出元の発言インデックスを示す。図１３に示す例では、肯定の事実か否定の事実かを示す値がデータの各要素に付与されている。このように、テキスト処理用データ生成手段３３は、肯定の事実か否定の事実かを示す値をデータの各要素に含むテキスト処理用データを生成してもよい。また、図１３に示すように、テキスト処理用データからは、応答ペアの後続発話で否定された「排出口で詰まる」や「Ａ社のプリンタである」という事象に対応する事実は除外されている（以上、ステップＡ４）。

　最後に、出力手段２０は、テキスト処理用データ生成手段３３が生成したテキスト処理用データを出力する（ステップＡ５）。

　以上のように、本実施例の対話テキスト解析装置では、ステップＡ４の処理において、応答ペアの先行発話の事象の事実性が後続発話により決定されるため、最終的な結論とは異なる事象をテキスト処理用データから除外できる。

　例えば、図９に例示する対話テキストが入力された場合、「排出口で詰まる」という事象は、発言インデックス「９」の発話がされた時点では仮説の状態にある。その事象が発言インデックス「１０」の発話によって否定されることで、「排出口で詰まる」という事実が最終的には成立しないことがわかる。

　本実施例の対話テキスト解析装置では、否定判定手段３２が、発言インデックス「９」の発話の事象がその応答ペアの後続発話で否定されていると判断できる。そして、テキスト処理用データ生成手段３３が、「排出口で詰まる」という事象に対応する要素を除外してテキスト処理用データを生成する。よって、生成されたテキスト処理用データが、最終的な結論に適合したデータになる。すなわち、生成されたテキスト処理用データは、結果として、マイニングなどの分析や検索といったテキスト処理を精度よく行うことができるデータになる。

　例えば、その後の分析において「排出口が詰まる」という事例を検索するとする。このとき、図９に例示する対話テキストから生成されたテキスト処理用データには、「排出口で詰まる」という事象に対応する要素は除外されている。そのため、「排出口が詰まる」という事例を検索しても、図９に例示する対話テキストは該当せず、正しい検索が可能になる。

　次に、本発明の第２の実施例を説明する。第２の実施例の対話テキスト解析装置は、第２の実施形態の対話テキスト解析装置に対応する。以下の説明でも、図１８に例示するコールセンターでの顧客とオペレータでなされた通話を示すテキストを対象とする。また、テキスト処理用データを作成する過程を、図４に例示するフローチャートに沿って説明する。

　なお、入力手段１１０が対話テキストを入力として受け付け、応答ペア特定手段１３１が応答ペアを特定し、否定判定手段１３２が先行発話の事象が後続発話で否定されているか否かを判定するまでの、図４におけるステップＢ１～ステップＢ３－１の処理は、図２におけるステップＡ１～Ａ３の処理と同様であるため、説明を省略する。

　ステップＢ２の処理が行われた後、発話内事実性判定手段１３３は、応答ペア内の先行発話を用いて、その先行発話の事象が肯定の事実か否定の事実か（すなわち、事実性）を判定する。なお、ステップＢ３－２の処理は、ステップＢ３－１の処理と同時に行われてもよく、ステップＢ３－１の処理の前または後に行われてもよい。発話内事実性判定手段１３３は、例えば、非特許文献２に記載された事実性の判定方法を用いて、先行発話の事象の事実性を判定する。例えば、図９に例示する発言インデックス「９」の事象や、発言インデックス「１５」の事象は、肯定の事実と判定される（以上、ステップＢ３－２）。

　テキスト処理用データ生成手段１３４は、応答ペアにおける先行発話の事象が後続発話に否定されていると判定されていた場合、その否定された事象を対話テキストから除外する。そして、テキスト処理用データ生成手段１３４は、ステップＢ３－２で判定された先行発話の事象の事実性とは逆の事実性を示す事象を、除外した事象の代わりにテキスト処理用データに追加する。例えば、ステップＢ３－１において、否定判定手段１３２が、図９に例示する発言インデックス「９」と「１０」のペア、及び、発言インデックス「１５」と「１６」のペアを、先行発話の事象が後続発話で否定されている、と判定したとする。この場合、テキスト処理用データ生成手段１３４は、肯定の事実として存在した発言インデックス「９」の事象および発言インデックス「１５」の事象を、対話テキストから除外する。そして、テキスト処理用データ生成手段１３４は、除外した事象の代わりに、否定の事実として「排出口で詰まる」や、「Ａ社のプリンタである」といった事象を対話テキストに追加したテキスト処理用データを生成する。

　図１４は、テキスト処理用データ生成手段１３４が生成したテキスト処理用データの例を示す説明図である。なお、図１４に例示するエントリの括弧内は、抽出元の発言インデックスを示す。図１４に示す例では、「排出口で詰まる」や、「Ａ社のプリンタである」という否定の事実がテキスト処理用データに追加されている（以上、ステップＢ４）。

　最後に、出力手段１２０は、テキスト処理用データ生成手段１３４が生成したテキスト処理用データを出力する（ステップＢ５）。

　以上のように、本実施例における対話テキスト解析装置では、ステップＢ４の処理において、応答ペアの先行発話内での仮の事象や応答ペアでのやり取りの結果否定される事象が、最終的な結論と一致するように変更されたテキスト処理用データを生成することができる。

　例えば、図９に例示する対話テキストが入力された場合、発言インデックス「９」の「排出口で詰まる」という事象は、発言インデックス「１０」の発話によって否定されることで、最終的には否定の事実に置き換わっている。すなわち、発言インデックス「９」の発話がされた時点で仮の事象である「排出口で詰まる」という肯定の事実は除かれ、「排出口で詰まる」という事象を否定の事実としてテキスト処理用データに含むことができる。したがって、最終的な結論と一致するテキスト処理用データを生成することができる。すなわち、生成されたテキスト処理用データは、結果として、マイニングなどの分析や検索といったテキスト処理を精度よく行うことができるデータになる。

　例えば、その後の分析において「排出口が詰まっている」という事例や、「排出口が詰まっていない」という事例を検索するとする。このとき、図９に例示する対話テキストから生成されたテキスト処理用データには、「排出口で詰まる」が否定の事実であるという情報が含まれる。そのため、「排出口が詰まっている」という事例を検索しても、図９に例示する対話テキストは検索結果に出現しない。一方、「排出口が詰まっていない」という事例を検索した場合に、図９に例示する対話テキストが検索結果に出現するようになり、正しい検索が可能になる。

　次に、本発明の第３の実施例を説明する。第３の実施例の対話テキスト解析装置は、第３の実施形態の対話テキスト解析装置に対応する。以下の説明でも、図１８に例示するコールセンターでの顧客とオペレータでなされた通話を示すテキストを対象とする。また、テキスト処理用データを作成する過程を、図６に例示するフローチャートに沿って説明する。

　なお、入力手段２１０が対話テキストを入力として受け付け、応答ペア特定手段２３１が応答ペアを特定し、否定判定手段２３２が先行発話の事象が後続発話で否定されているか否かを判定するまでの、図６におけるステップＣ１～ステップＣ３の処理は、図２におけるステップＡ１～Ａ３の処理と同様であるため、説明を省略する。

　ステップＣ２の処理が行われた後、確認返答ペア判定手段２３３は、応答ペアの先行発話の働きが確認や聞き返しで、後続発話の働きが返答であるか否かを判定する（ステップＣ４－１）。なお、ステップＣ４－１の処理は、ステップＣ３の処理と同時に行われてもよく、ステップＣ３の処理の前または後に行われてもよい。

　具体的には、確認返答ペア判定手段２３３は、応答ペアにおける先行発話と、その先行発話の前方に存在する対話テキスト中の各発話とを比較し、含まれる単語の共通度が予め定められた閾値より高い発話が存在する場合、先行発話が確認や聞き返しを示す事象であり、その応答ペアの後続発話が返答を示す事象であると判定する。

　図９に例示する発言インデックス「１５」と「１６」の応答ペアを対象とした判定処理を説明する。確認返答ペア判定手段２３３は、先行発話の発言インデックス「１５」と、対話テキスト中の発言インデックス「１５」より前方に出現する各発話（発言インデックス「１」～「１４」）との比較を行う。

　なお、ここでは、先行発話の前方に存在する全ての発話と比較する場合について説明するが、先行発話から予め定めた距離（個数）だけ離れた発話までに限定して比較を行ってもよい。例えば、比較対象を距離３発話までの発話に限った場合、確認返答ペア判定手段２３３は、発言インデックス「１５」と、発言インデックス「１２」～「１４」の各発話との比較を行えばよい。

　また、入力される対話テキストに各発話の話者の情報が付与されている場合、確認返答ペア判定手段２３３は、先行発話の話者と異なる話者による発話に限って比較してもよい。図９に示す例では、先行発話（発話インデックス「１５」の発話）の話者がオペレータなので、オペレータ以外の話者により発せられた発話に比較対象を限定してもよい。また、確認返答ペア判定手段２３３は、後続発話と同じ話者に発せられた発話に限って比較してもよい。図９に示す例では、後続発話（発話インデックス「１６」の発話）の話者は顧客なので、顧客により発せられた発話に比較対象を限定してもよい。

　確認返答ペア判定手段２３３は、比較の際、前方の発話それぞれと先行発話との単語の共通度を計算する。確認返答ペア判定手段２３３は、例えば、共通単語数やコサイン類似度を用いて共通度を計算してもよい。

　共通度として共通単語数（ただし、単語は内容語に限定する。）を用いた場合、発言インデックス「１４」の発話と、先行発話との共通の単語は「Ａ社」，「プリンタ」の２語であるので、共通度は２になる。同様に、発言インデックス「６」および「７」の発話と、先行発話との共通の単語は「プリンタ」の１語であるので、共通度は１になり、それ以外の発話と先行発話との共通度は０になる。

　そして、計算した共通度が予め定められた閾値以上の発話が存在する場合、確認返答ペア判定手段２３３は、先行発話が確認や聞き返しを示す事象であると判定し、後続発話が返答を示す事象であると判定する。例えば、上記の例において、閾値が２と定められている場合、確認返答ペア判定手段２３３は、発言インデックス「１５」の発話は確認や聞き返しを示す事象であり、発言インデックス「１６」の発話は、発言インデックス「１５」の返答を示す事象であると判定する。

　なお、確認や聞き返しは、確認や聞き返す対象から離れてなされることは稀である。そこで、先行発話から離れれば離れるほど大きくなるように（すなわち、先行発話からの距離に比例するように）閾値の値を定めてもよい（以上、ステップＣ４－１）。

　ステップＣ４－１での処理の結果、応答ペアが「確認（聞き返し）－返答」のペアであると判定された場合、確認対象発話特定手段２３４は、応答ペアにより確認や聞き返す対象になった元の発話を特定する。具体的には、確認対象発話特定手段２３４は、ステップＣ４－１で計算された先行発話との単語の共通度が閾値より高い発話を、先行発話で確認または聞き返しの対象（原因）になった発話であると特定する。例えば、上記ステップＣ４－１の例の場合、確認対象発話特定手段２３４は、単語の共通度が閾値２以上である発言インデックス１４の発話を、先行発話で確認または聞き返しの対象（原因）になった発話であると特定する。

　続いて、テキスト処理用データ生成手段２３５は、応答ペアにおける先行発話の事象が後続発話に否定されている事象に加え、更に、その応答ペアにより確認や聞き返しの元となった発話の事象も除外したテキスト処理用データを生成する。

　例えば、図９に示す例では、発言インデックス「１４」の発話は、発言インデックス「１５」の発話により確認（聞き返し）がされており、発言インデックス「１５」の発話は、応答ペアにおける後続発話（発言インデックス「１６」の発話）により否定されていることが分かる。したがって、テキスト処理用データ生成手段２３５は、発言インデックス「１５」の事象に加え、「１４」の事象「Ａ社のプリンタです。」を除外したテキスト処理用データを生成する。図１５は、テキスト処理用データ生成手段２３５が生成したテキスト処理用データの例を示す説明図である。なお、図１５に例示するエントリの括弧内は、抽出元の発言インデックスを示す。図１５に示す例では、「Ａ社のプリンタです。」という発話が削除されている（以上、ステップＣ５）。

　最後に、出力手段２２０は、テキスト処理用データ生成手段２３５が生成したテキスト処理用データを出力する（ステップＣ６）。

　以上のように、本実施例の対話テキスト解析装置では、ステップＣ５の処理において、一度は事実性が確定した事象に対しても、後の応答ペアによる確認や聞き返しとその返答により事実性が変更され、最終的な結論とは異なってしまった事象を、テキスト処理用データから除外することができる。

　例えば、図９に例示する発言インデックス「１４」の事象は、「Ａ社のプリンタです。」という肯定の事実で一度確定している。しかし、その後の発言インデックス「１５」と「１６」の応答ペアによる確認（聞き返し）により、その事実が変更されている。したがって、発言インデックス「１４」の事象である「Ａ社のプリンタである」を除外したテキスト処理用データを生成することができる。

　すなわち、第３の実施形態の対話テキスト解析装置では、第１の実施形態や第２の実施形態の効果に加え、確認や聞き返しの元となった事象が最終的な結論と異なっている場合、その事象をテキスト処理用データから除外することができる。したがって、生成されたテキスト処理用データは、結果として、マイニングなどの分析や検索といったテキスト処理をより精度よく行うことができるデータになる。

　第１の実施形態の対話テキスト解析装置では、テキスト処理用データから、応答ペアの後続発話で否定された「Ａ社のプリンタである」という事象（発言インデックス「１５」の事象）に対応する事実を除外することができる。さらに、第３の実施形態の対話テキスト解析装置では、図９に例示する対話テキストから生成されたテキスト処理用データから、発言インデックス「１４」の事象に対応する要素をさらに除外することができる。よって、そのため、「Ａ社のプリンタ」という事例を検索しても、図９に例示する対話テキストは該当せず、第１の実施形態の対話テキスト解析装置よりも、より正しい検索が可能になる。

　次に、本発明の第４の実施例を説明する。第４の実施例の対話テキスト解析装置は、第４の実施形態の対話テキスト解析装置に対応する。以下の説明でも、図１８に例示するコールセンターでの顧客とオペレータでなされた通話を示すテキストを対象とする。また、テキスト処理用データを作成する過程を、図８に例示するフローチャートに沿って説明する。

　なお、入力手段３１０が対話テキストを入力として受け付け、応答ペア特定手段３３１が応答ペアを特定するまでのステップＤ１～ステップＤ２の処理は、図４におけるステップＢ１～Ｂ２の処理と同様である。また、否定判定手段３３２が先行発話の事象が後続発話で否定されているか否かを判定し、発話内事実性判定手段３３３がその先行発話の事実性を判定するステップＤ３～Ｄ４の処理は、図４におけるステップＢ３－１～Ｂ３－２の処理と同様である。さらに、応答ペアが「確認（聞き返し）－返答」のペアか否かを確認返答ペア判定手段３３４が判定し、先行発話が確認や聞き返す対象とした発話を確認対象発話特定手段３３５が特定するステップＤ５－１～Ｄ５－２の処理は、図６におけるステップＣ４－１～Ｃ４－２の処理と同様である。なお、ステップＤ５－１の処理の後にステップＤ５－２の処理が行われれば、ステップＤ３、ステップＤ４、ステップＤ５－１およびステップＤ５－２の処理の順番は任意である。

　テキスト処理用データ生成手段３３６は、応答ペアにおける先行発話の事象が後続発話に否定された事象を対話テキストから除外する。そして、テキスト処理用データ生成手段３３６は、ステップＤ３で判定された先行発話の事象の事実性とは逆の事実性を示す事象を、除外した事象の代わりにテキスト処理用データに追加する。さらに、テキスト処理用データ生成手段３３６は、確認対象発話特定手段３３５が特定した発話（すなわち、その先行発話で確認または聞き返しが行われた原因の発話）の事象の事実性を、対話テキストに追加した事象の事実性と一致するように（すなわち、もとの事実性と逆になるように）変更する。

　例えば、図９に示す例では、発言インデックス「１４」の発話は、発言インデックス「１５」の発話により確認（聞き返し）がされており、発言インデックス「１５」の発話は、応答ペアにおける後続発話（発言インデックス「１６」の発話）により否定されていることが分かる。したがって、テキスト処理用データ生成手段３３６は、肯定の事実である発言インデックス「１５」の事象「Ａ社のプリンタです。」を対話テキストから除外する。そして、テキスト処理用データ生成手段３３６は、除外した事象の代わりに、否定の事実「Ａ社のプリンタである」を対話テキストに追加したテキスト処理用データを生成する。さらに、テキスト処理用データ生成手段３３６は、発言インデックス「１４」の事象「Ａ社のプリンタです。」を肯定の事実から否定の事実に変更する。

　図１６は、テキスト処理用データ生成手段３３６が生成したテキスト処理用データの例を示す説明図である。なお、図１６に例示するエントリの括弧内は、抽出元の発言インデックスを示す。図１６に示す例では、発言インデックス「１４」の事実性が、否定の事実に変更されている（以上、ステップＤ６）。

　最後に、出力手段３２０は、テキスト処理用データ生成手段３３６が生成したテキスト処理用データを出力する（ステップＤ７）。

　以上のように、本実施例の対話テキスト解析装置では、ステップＤ６の処理において、一度は事実性が確定した事象に対しても、後の応答ペアによる確認や聞き返しとその返答により事実性が変更することができる。そのため、最終的な結論とは異なってしまった事象に関しても、最終的な結論と一致するように事実性を変更した事象をテキスト処理用データとすることができる。

　例えば、図９に例示する発言インデックス「１４」の事象は、「Ａ社のプリンタです。」という肯定の事実で一度確定している。しかし、その後の発言インデックス「１５」と「１６」の応答ペアによる確認（聞き返し）により、発言インデックス「１４」の事象「Ａ社のプリンタです。」が、肯定の事実から否定の事実に変更されている。したがって、第３の実施形態の効果に加え、確認や聞き返しの元となった事象も有効に活用することが可能になる。

　すなわち、第４の実施形態の対話テキスト解析装置では、第１の実施形態や第２の実施形態の効果に加え、確認や聞き返しの元となった事象が最終的な結論と異なっている場合、その事象を最終的な結論と一致するように変更することができる。したがって、生成されたテキスト処理用データは、結果として、マイニングなどの分析や検索といったテキスト処理をより精度よく行うことができるデータになる。

　例えば、その後の分析において「Ａ社のプリンタである」という事例や、「Ａ社のプリンタでない」という事例を検索するとする。このとき、図９に例示する対話テキストから生成されたテキスト処理用データには、「Ａ社のプリンタでない」という事例が含まれる。そのため、「Ａ社のプリンタである」という事例を検索しても、図９に例示する対話テキストは検索結果に出現しない。一方、「Ａ社のプリンタでない」という事例を検索した場合に、図９に例示する対話テキストが検索結果に出現する。このように、正しい検索が可能になる。

　以上説明したように、コールセンターにおけるオペレータと顧客のやりとりでは、オペレータは、応対において重要な部分や、顧客の発言で曖昧な部分に対して確認や聞き返しをすることが多い。そのため、聞き返しや確認に着目した本発明の第３の実施形態や第４の実施形態の対話テキスト解析装置は、分析対象がコールセンターでの対話テキストの場合、特に効果を発揮する。

　次に、本発明の最小構成の例を説明する。図１７は、本発明による対話テキスト解析装置の最小構成の例を示すブロック図である。本発明による対話テキスト解析装置は、複数の発話の内容を含むテキストである対話テキストにおける第一の発話（例えば、先行発話）の事象が、その第一の発話より後に存在する第二の発話（例えば、後続発話）で否定されているか否かを判定する否定判定手段８１（例えば、否定判定手段３２）と、第一の発話の事象が第二の発話で否定されている場合、否定された第一の発話の事象を対話テキストから除いたデータであるテキスト処理用データを生成するテキスト処理用データ生成手段８２（例えば、テキスト処理用データ生成手段３３）とを備えている。

　そのような構成により、マイニングなどの分析や検索といったテキスト処理を精度よく行なうためのテキスト処理用データを対話テキストから生成できる。

　また、入力された対話テキスト中の各発話から、対話の相手に尋ねる内容を示す第一の発話とその第一の発話より後に存在し、その第一の発話の回答になっている第二の発話のペアである応答ペアを特定する応答ペア特定手段（例えば、応答ペア特定手段３１）を備えていてもよい。このとき、否定判定手段８１は、応答ペア中の第一の発話の事象が第二の発話で否定されているか否かを判定してもよい。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。

（付記１）複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、当該第一の発話より後に存在する第二の発話で否定されているか否かを判定する否定判定手段と、前記第一の発話の事象が前記第二の発話で否定されている場合、否定された第一の発話の事象を前記対話テキストから除いたデータであるテキスト処理用データを生成するテキスト処理用データ生成手段とを備えたことを特徴とする対話テキスト解析装置。

（付記２）入力された対話テキスト中の各発話から、対話の相手に尋ねる内容を示す第一の発話と当該第一の発話より後に存在し、当該第一の発話の回答になっている第二の発話のペアである応答ペアを特定する応答ペア特定手段を備え、否定判定手段は、前記応答ペア中の第一の発話の事象が第二の発話で否定されているか否かを判定する付記１記載の対話テキスト解析装置。

（付記３）テキスト処理用データ生成手段は、第二の発話で否定された第一の発話における事象の内容が肯定の事実を示す場合、当該肯定の事実を示す事象を否定の事実を示す事象に変更してテキスト処理用データに追加し、前記第一の発話における事象の内容が否定の事実を示す場合、当該否定の事実を示す事象を肯定の事実を示す事象に変更してテキスト処理用データに追加する付記１または付記２記載の対話テキスト解析装置。

（付記４）否定判定手段は、前方の発話の内容を否定する予め定められた発話である否定発話と第二の発話とが一致する場合、または、前記否定発話の特徴と第二の発話の特徴とが一致する場合、第一の発話の事象が第二の発話で否定されていると判定する付記１から付記３のうちのいずれか１つに記載の対話テキスト解析装置。

（付記５）否定判定手段は、第二の発話で使用されている動詞が第一の発話で使用されている動詞の対義語であってその他の要素が一致している場合、または、第二の発話で使用されている要素の一部が第一の発話で使用されている要素の一部と同時には成り立たない関係にある要素の場合、第一の発話の事象が第二の発話により否定されていると判定する付記１から付記３のうちのいずれか１つに記載の対話テキスト解析装置。

（付記６）入力された対話テキスト中の各発話から、対話の相手に尋ねる内容を示す第一の発話と当該第一の発話より後に存在し、当該第一の発話の回答になっている第二の発話のペアである応答ペアを特定する応答ペア特定手段と、前記応答ペアにおける第一の発話が確認または聞き返しを示す事象であり、当該応答ペアにおける第二の発話がその確認または聞き返しに対する返答を示す事象の関係にある確認返答ペアか否かを判定する確認返答ペア判定手段と、応答ペアが前記確認返答ペアである場合、対話テキスト中の発話の中で、第一の発話よりも前に存在する発話のうち、当該第一の発話で確認または聞き返しが行われた原因の発話を特定する確認対象発話特定手段とを備え、否定判定手段は、前記応答ペア中の第一の発話の事象が第二の発話で否定されているか否かを判定し、テキスト処理用データ生成手段は、第一の発話の事象が第二の発話により否定されている場合、特定された原因の発話における事象の事実を除いたテキスト処理用データを生成する付記１から付記５のうちのいずれか１つに記載の対話テキスト解析装置。

（付記７）テキスト処理用データ生成手段は、第一の発話の事象が第二の発話により否定された場合、当該第一の発話で確認または聞き返しが行われた原因の発話における事象の内容が肯定の事実を示す場合、当該肯定の事実を示す事象を否定の事実を示す事象に変更してテキスト処理用データに追加し、前記原因の発話における事象の内容が否定の事実を示す場合、当該否定の事実を示す事象を肯定の事実を示す事象に変更してテキスト処理用データに追加する付記６記載の対話テキスト解析装置。

（付記８）確認返答ペア判定手段は、応答ペアにおける第一の発話と当該先行発話の前に存在する対話テキスト中の各発話との単語の共通度を比較し、当該共通度が予め定められた閾値より高い発話が前記第一の発話の前に存在する場合、当該応答ペアを確認返答ペアと判定する付記６または付記７記載の対話テキスト解析装置。

（付記９）複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、当該第一の発話より後に存在する第二の発話で否定されているか否かを判定し、前記第一の発話の事象が前記第二の発話で否定されている場合、否定された第一の発話の事象を前記対話テキストから除いたデータであるテキスト処理用データを生成することを特徴とする対話テキスト解析方法。

（付記１０）入力された対話テキスト中の各発話から、対話の相手に尋ねる内容を示す第一の発話と当該第一の発話より後に存在し、当該第一の発話の回答になっている第二の発話のペアである応答ペアを特定し、前記応答ペア中の第一の発話の事象が第二の発話で否定されているか否かを判定する付記９記載の対話テキスト解析方法。

（付記１１）コンピュータに、複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、当該第一の発話より後に存在する第二の発話で否定されているか否かを判定する否定判定処理、および、前記第一の発話の事象が前記第二の発話で否定されている場合、否定された第一の発話の事象を前記対話テキストから除いたデータであるテキスト処理用データを生成するテキスト処理用データ生成処理を実行させるための対話テキスト解析プログラム。

（付記１２）コンピュータに、入力された対話テキスト中の各発話から、対話の相手に尋ねる内容を示す第一の発話と当該第一の発話より後に存在し、当該第一の発話の回答になっている第二の発話のペアである応答ペアを特定する応答ペア特定処理を実行させ、否定判定処理で、前記応答ペア中の第一の発話の事象が第二の発話で否定されているか否かを判定させる付記１１記載の対話テキスト解析プログラム。

　以上、実施形態および実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１０年１１月２２日に出願された日本特許出願２０１０－２５９６７３を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、事象の事実性が、後の発話との関係で決定されたり、変更されたりするような対話テキストを対象にテキスト処理をする際に、そのテキスト処理用データを生成するのに効果を発揮する。したがって、例えば、コールセンターにおけるオペレータと顧客のやりとり（対話）や、会議でのやりとり、店頭での店員とお客様のやりとり等、これらのやりとりを音声認識した結果のテキストや書き起しテキストを対象にしてテキストマイニングや要約などの分析や検索を行う対話テキスト解析装置に好適に適用される。また、チャットやツイッター（登録商標）や掲示板を対象にして、テキストマイニングや要約などの分析や検索を行う対話テキスト解析装置にも好適に適用される。

　１０，１１０，２１０，３１０　入力手段
　２０，１２０，２２０，３２０　出力手段
　３０，１３０，２３０，３３０　コンピュータ
　３１，１３１，２３１，３３１　応答ペア特定手段
　３２，１３２，２３２，３３２　否定判定手段
　３３，１３４，２３５，３３６　テキスト処理用データ生成手段
　１３３，３３３　発話内事実性判定手段
　２３３，３３４　確認返答ペア判定手段
　２３４，３３５　確認対象発話特定手段
　４１，５２　後続発話特定手段
　４２　エントリ比較手段
　４３，５７　判定手段
　４４　否定発話データベース
　５１　先行発話特定手段
　５３　先行発話役割解析手段
　５４　後続発話役割解析手段
　５５　動詞対義語判定手段
　５６　背反語判定手段
　５８　対義語データベース
　５９　背反語データベース

Claims

　複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、当該第一の発話より後に存在する第二の発話で否定されているか否かを判定する否定判定手段と、
　前記第一の発話の事象が前記第二の発話で否定されている場合、否定された第一の発話の事象を前記対話テキストから除いたデータであるテキスト処理用データを生成するテキスト処理用データ生成手段とを備えた
　ことを特徴とする対話テキスト解析装置。
　入力された対話テキスト中の各発話から、対話の相手に尋ねる内容を示す第一の発話と当該第一の発話より後に存在し、当該第一の発話の回答になっている第二の発話のペアである応答ペアを特定する応答ペア特定手段を備え、
　否定判定手段は、前記応答ペア中の第一の発話の事象が第二の発話で否定されているか否かを判定する
　請求項１記載の対話テキスト解析装置。
　テキスト処理用データ生成手段は、第二の発話で否定された第一の発話における事象の内容が肯定の事実を示す場合、当該肯定の事実を示す事象を否定の事実を示す事象に変更してテキスト処理用データに追加し、前記第一の発話における事象の内容が否定の事実を示す場合、当該否定の事実を示す事象を肯定の事実を示す事象に変更してテキスト処理用データに追加する
　請求項１または請求項２記載の対話テキスト解析装置。
　否定判定手段は、前方の発話の内容を否定する予め定められた発話である否定発話と第二の発話とが一致する場合、または、前記否定発話の特徴と第二の発話の特徴とが一致する場合、第一の発話の事象が第二の発話で否定されていると判定する
　請求項１から請求項３のうちのいずれか１項に記載の対話テキスト解析装置。
　否定判定手段は、第二の発話で使用されている動詞が第一の発話で使用されている動詞の対義語であってその他の要素が一致している場合、または、第二の発話で使用されている要素の一部が第一の発話で使用されている要素の一部と同時には成り立たない関係にある要素の場合、第一の発話の事象が第二の発話により否定されていると判定する
　請求項１から請求項３のうちのいずれか１項に記載の対話テキスト解析装置。
　入力された対話テキスト中の各発話から、対話の相手に尋ねる内容を示す第一の発話と当該第一の発話より後に存在し、当該第一の発話の回答になっている第二の発話のペアである応答ペアを特定する応答ペア特定手段と、
　前記応答ペアにおける第一の発話が確認または聞き返しを示す事象であり、当該応答ペアにおける第二の発話がその確認または聞き返しに対する返答を示す事象の関係にある確認返答ペアか否かを判定する確認返答ペア判定手段と、
　応答ペアが前記確認返答ペアである場合、対話テキスト中の発話の中で、第一の発話よりも前に存在する発話のうち、当該第一の発話で確認または聞き返しが行われた原因の発話を特定する確認対象発話特定手段とを備え、
　否定判定手段は、前記応答ペア中の第一の発話の事象が第二の発話で否定されているか否かを判定し、
　テキスト処理用データ生成手段は、第一の発話の事象が第二の発話により否定されている場合、特定された原因の発話における事象の事実を除いたテキスト処理用データを生成する
　請求項１から請求項５のうちのいずれか１項に記載の対話テキスト解析装置。
　テキスト処理用データ生成手段は、第一の発話の事象が第二の発話により否定された場合、当該第一の発話で確認または聞き返しが行われた原因の発話における事象の内容が肯定の事実を示す場合、当該肯定の事実を示す事象を否定の事実を示す事象に変更してテキスト処理用データに追加し、前記原因の発話における事象の内容が否定の事実を示す場合、当該否定の事実を示す事象を肯定の事実を示す事象に変更してテキスト処理用データに追加する
　請求項６記載の対話テキスト解析装置。
　確認返答ペア判定手段は、応答ペアにおける第一の発話と当該先行発話の前に存在する対話テキスト中の各発話との単語の共通度を比較し、当該共通度が予め定められた閾値より高い発話が前記第一の発話の前に存在する場合、当該応答ペアを確認返答ペアと判定する
　請求項６または請求項７記載の対話テキスト解析装置。
　複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、当該第一の発話より後に存在する第二の発話で否定されているか否かを判定し、
　前記第一の発話の事象が前記第二の発話で否定されている場合、否定された第一の発話の事象を前記対話テキストから除いたデータであるテキスト処理用データを生成する
　ことを特徴とする対話テキスト解析方法。
　コンピュータに、
　複数の発話の内容を含むテキストである対話テキストにおける第一の発話の事象が、当該第一の発話より後に存在する第二の発話で否定されているか否かを判定する否定判定処理、および、
　前記第一の発話の事象が前記第二の発話で否定されている場合、否定された第一の発話の事象を前記対話テキストから除いたデータであるテキスト処理用データを生成するテキスト処理用データ生成処理
　を実行させるための対話テキスト解析プログラム。