WO2016147219A1

WO2016147219A1 - テキスト可視化システム、テキスト可視化方法、及び、記録媒体

Info

Publication number: WO2016147219A1
Application number: PCT/JP2015/001510
Authority: WO
Inventors: 貴士大西; 康高山本; 正明土田; 享赤峯
Original assignee: 日本電気株式会社
Priority date: 2015-03-18
Filing date: 2015-03-18
Publication date: 2016-09-22
Also published as: JP6508327B2; US10489514B2; JPWO2016147219A1; US20180089181A1

Abstract

　複数のカテゴリを含む文書に対するクラスタリングにおいて、カテゴリ間での観点の関連性を把握できるクラスタリングシステムを提供する。　複数の文書の各々は複数のカテゴリの各々のテキストを含み、当該複数のカテゴリの各々について、複数の文書に含まれるテキストの内の代表テキストと当該代表テキストを含意する要素テキストとが設定されている。代表テキスト表示部（５１）は、複数のカテゴリの内の１以上のカテゴリの各々の複数の代表テキストを表示する。代表テキスト表示部（５１）は、受付部（５５）が特定のカテゴリの代表テキストの指定を受け付けたことに応じて、他のカテゴリの複数の代表テキストから、当該特定のカテゴリの代表テキストを含意する要素テキストを含む文書に含まれる、当該他のカテゴリの要素テキストを含意する代表テキストを抽出して表示する。

Description

テキスト可視化システム、テキスト可視化方法、及び、記録媒体

　本発明は、テキスト可視化システム、テキスト可視化方法、及び、記録媒体に関し、特に、テキストのクラスタリングを行うテキスト可視化システム、テキスト可視化方法、及び、記録媒体に関する。

　大量の文書データの概要を把握するための技術として、複数のテキストに含まれる観点を抽出し、当該複数のテキストを抽出した観点毎に分類する、クラスタリング技術がある。

　このようなテキストクラスタリング技術として、例えば、非特許文献１には、テキストに含まれるキーワードをベースに、複数のテキストに含まれる意図を抽出する技術が開示されている。

　キーワードをベースにしたクラスタリング技術では、例えば、テキスト間のキーワードの共有度合いをもとに、分類が行われる。しかしながら、一般に、クラスタリング対象の各テキストには、複数の観点が混在していることがある。このため、キーワードの共有度合いをもとに分類を行っても、観点の見落とし、或いは、異なる観点のテキストの同じクラスタへの分類等により、各クラスタの観点が不明確になることがある。この場合、ユーザは、観点を明確にするために、複数のクラスタのテキストを確認し、テキストの再分類を行うといった煩雑な作業が強いられる。

　また、テキストクラスタリングの他の技術として、非特許文献２には、テキスト間の含意関係を抽出し、含意関係があるテキストを同じクラスタに分類する、含意クラスタリング技術が開示されている。

　含意クラスタリングとは、テキスト間の意味の関係である、含意関係をもとにしたクラスタリングである。含意クラスタリングを用いることにより、分析対象のテキストに含まれる観点をもれなく、かつ、クラスタ内のテキストが共通に含意し、クラスタの概要を表す代表テキストとともに抽出できる。

　なお、関連技術として、特許文献１には、テキスト間の含意関係をもとに、含意関係を表す含意グラフを生成する技術が開示されている。また、特許文献２には、製品の不具合に係る「現象」、「原因」、「処置」、「対策」等の不具合情報の閲覧や集計を行う技術が開示されている。

特許第５４９４９９９号公報特開２００３－２１６２２２号公報

「テキストマイニング・ソリューション～IBM Content Analyzer V8.4～ご紹介と活用事例」、[online]、日本アイ・ビー・エム株式会社、[2015年2月17日検索]、インターネット<URL:http://www.ibm.com/developerworks/jp/data/library/ecm/j-d_icaseminar01/pdf/ica01.pdf> 「NEC、大量の文書データを同じ意味で自動グループ化する技術を開発」、[online]、日本電気株式会社、[2015年2月17日検索]、インターネット<URL:http://jpn.nec.com/press/201411/20141118_02.html>

　クラスタリング対象の文書は、複数のカテゴリのテキストを含む可能性がある。この場合、複数のカテゴリの各々に対して、上述の非特許文献２の技術を適用することで、各カテゴリの話題の観点を抽出することが考えられる。

　ここで、クラスタリング対象の文書によっては、現象、原因、対策のように、カテゴリ間の話題に何らかの関連性が存在する場合がある。しかしながら、複数のカテゴリの各々に対して含意クラスタリングを行っただけでは、カテゴリ間での観点の関連性を把握できないという技術課題があった。

　本発明の目的は、上述の技術課題を解決し、複数のカテゴリを含む文書に対するクラスタリングにおいて、カテゴリ間での観点の関連性を把握できる、テキスト可視化システム、テキスト可視化方法、及び、記録媒体を提供することである。

　本発明の一態様におけるテキスト可視化システムは、複数の文書の各々に含まれる複数のカテゴリの各々のテキスト、及び、当該複数のカテゴリの各々について、前記複数の文書に含まれるテキストの内の代表テキストと当該代表テキストを含意する要素テキストとを示す情報、を記憶する記憶手段にアクセス可能に接続され、前記複数のカテゴリの内の１以上のカテゴリの各々の複数の代表テキストを表示する第１の表示手段と、前記１以上のカテゴリの各々の複数の代表テキストの内の、特定のカテゴリの代表テキストの指定を受け付ける受付手段と、を含み、前記第１の表示手段は、前記特定のカテゴリの代表テキストの指定を受け付けたことに応じて、他のカテゴリの複数の代表テキストから、当該特定のカテゴリの代表テキストを含意する要素テキストを含む文書に含まれる、当該他のカテゴリの要素テキストを含意する代表テキストを抽出して表示する。

　本発明の一態様におけるテキスト可視化方法は、複数の文書の各々が複数のカテゴリの各々のテキストを含み、当該複数のカテゴリの各々について、前記複数の文書に含まれるテキストの内の代表テキストと当該代表テキストを含意する要素テキストが設定されている場合に、前記複数のカテゴリの内の１以上のカテゴリの各々の複数の代表テキストを表示し、前記１以上のカテゴリの各々の複数の代表テキストの内の、特定のカテゴリの代表テキストの指定を受け付け、前記特定のカテゴリの代表テキストの指定を受け付けたことに応じて、他のカテゴリの複数の代表テキストから、当該特定のカテゴリの代表テキストを含意する要素テキストを含む文書に含まれる、当該他のカテゴリの要素テキストを含意する代表テキストを抽出して表示する。

　本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、コンピュータに、複数の文書の各々が複数のカテゴリの各々のテキストを含み、当該複数のカテゴリの各々について、前記複数の文書に含まれるテキストの内の代表テキストと当該代表テキストを含意する要素テキストが設定されている場合に、前記複数のカテゴリの内の１以上のカテゴリの各々の複数の代表テキストを表示し、前記１以上のカテゴリの各々の複数の代表テキストの内の、特定のカテゴリの代表テキストの指定を受け付け、前記特定のカテゴリの代表テキストの指定を受け付けたことに応じて、他のカテゴリの複数の代表テキストから、当該特定のカテゴリの代表テキストを含意する要素テキストを含む文書に含まれる、当該他のカテゴリの要素テキストを含意する代表テキストを抽出して表示する、処理を実行させるプログラムを格納する。

　本発明の技術効果は、複数のカテゴリを含む文書に対するクラスタリングにおいて、カテゴリ間での観点の関連性を把握できることである。

本発明の第１の実施の形態の基本的な構成を示すブロック図である。本発明の第１の実施の形態における、クラスタリングシステム１の構成を示すブロック図である。本発明の第１の実施の形態における、コンピュータにより実現されたクラスタリングシステム１の構成を示すブロック図である。本発明の第１の実施の形態における、クラスタリングシステム１の動作を示すフローチャートである。本発明の第１の実施の形態における、クラスタリング対象のテキストデータの例を示す図である。本発明の第１の実施の形態における、含意関係の抽出結果の例を示す図である。本発明の第１の実施の形態における、クラスタリング結果の例を示す図である。本発明の第１の実施の形態における、クラスタリング画面８０（代表テキスト指定前）の例を示す図である。本発明の第１の実施の形態における、クラスタリング画面８０（現象カテゴリの代表テキスト指定時）の例を示す図である。本発明の第１の実施の形態における、クラスタリング画面８０（現象カテゴリ及び原因カテゴリの代表テキスト指定時）の例を示す図である。本発明の第１の実施の形態における、クラスタリング画面８０（原因カテゴリの代表テキスト指定時）の例を示す図である。本発明の第２の実施の形態における、クラスタリングシステム１の構成を示すブロック図である。本発明の第２の実施の形態における、分析画面９０の例を示す図である。本発明の実施の形態における、代表テキストと要素テキストの関係の例を示す図である。

　はじめに、本発明の実施の形態で用いるテキストのクラスタリング手法である、含意クラスタリングについて説明する。含意クラスタリングでは、非特許文献２に記載されているように、テキスト間の意味の関係である、含意関係をもとにクラスタリングを行う。本発明の実施の形態では、含意関係を、特許文献１と同様に、次のように定義する。すなわち、第１のテキストの内容が真であるならば第２のテキストの内容が真である場合、第１のテキストが第２のテキストを含意（entailment）すると定義する。また、第１のテキストの内容から第２のテキストの内容が読み取れる場合、第１のテキストが第２のテキストを含意すると定義してもよい。

　含意関係の理解を容易にするため、具体例を用いて説明する、
　＜具体例１＞
第１のテキスト：オバマ大統領はホワイトハウスに住んでいる。
第２のテキスト：オバマ大統領はアメリカに住んでいる。

　この場合、第１のテキストの内容が真であるならば第２のテキストの内容が真であるので、第１のテキストが第２のテキストを含意するといえる。

　＜具体例２＞
第１のテキスト：犬養毅首相は海軍将校らに暗殺された。
第２のテキスト：犬養毅首相は亡くなった
　この場合、第１のテキストの内容が真であるならば第２のテキストの内容が真であるので、第１のテキストが第２のテキストを含意するといえる。

　ここで、「代表テキスト」と「要素テキスト」を定義する。テキストの集合に対して含意クラスタリング処理を実行すると、代表テキストと要素テキストとが決定される。代表テキストと要素テキストとの関係は、要素テキストの内容が真であるならば代表テキストの内容が真である、という関係である。すなわち、代表テキストと要素テキストとの関係は、要素テキストは代表テキストを含意するという関係である。

　図１４は、本発明の実施の形態における、代表テキストと要素テキストの関係の例を示す図である。代表テキストと要素テキストの理解を容易にするため、図１４を用いて説明する。図１４は、Ｔ１からＴ１１までの１１個のテキストについて、含意クラスタリング処理を実行した様子を示す。図１４における円形のシンボルは一つのテキストを示す。図１４における矢印は、矢印の元のテキストが矢印の先のテキストを含意することを示す。図１４において、テキストＴ６、Ｔ７、Ｔ１１が、テキストＴ１を含意している。同様に、テキストＴ２、Ｔ３、Ｔ７、Ｔ１０が、テキストＴ５を含意しており、テキストＴ２、Ｔ４、Ｔ７、Ｔ８が、テキストＴ９を含意している。このとき、テキストＴ６、Ｔ７、Ｔ１１は、代表テキストＴ１の要素テキストである。同様に、テキストＴ２、Ｔ３、Ｔ７、Ｔ１０は、代表テキストＴ５の要素テキストである。同様に、テキストＴ２、Ｔ４、Ｔ７、Ｔ８は、代表テキストＴ９の要素テキストである。

　ここで、代表テキスト自身が要素テキストとして扱われてもよい。例えば、テキストＴ１、Ｔ６、Ｔ７、Ｔ１１が代表テキストＴ１の要素テキストでもよい。

　（第１の実施の形態）
　次に、本発明の第１の実施の形態について説明する。

　はじめに、本発明の第１の実施の形態の構成を説明する。

　図２は、本発明の第１の実施の形態における、クラスタリングシステム１の構成を示すブロック図である。

　図２を参照すると、本発明の第１の実施の形態におけるクラスタリングシステム１は、記憶部１０、含意関係抽出部２０、クラスタリング部３０、及び、表示制御部５０を含む。クラスタリングシステム１は、本発明のテキスト可視化システムの一実施形態である。

　記憶部１０は、クラスタリング対象の文書に含まれる複数のカテゴリの各々のテキストを示すテキストデータ、及び、各カテゴリのテキスト間のクラスタリングの結果（クラスタリング結果）を記憶する。

　図５は、本発明の第１の実施の形態における、テキストデータの例を示す図である。図５の例は、クラスタリング対象のテキストが、ＰＣ（パーソナルコンピュータ）の不具合報告に係る文書から抽出された、現象、原因、対策に係る自然言語のテキストである場合の例である。図５の例では、テキストデータは、文書の識別子（Ｄ１、Ｄ２、…）、文書の取得日時を含む。テキストデータは、さらに、各カテゴリ（現象、原因、対策）について、当該文書に含まれるテキストを含む。なお、テキストの前の括弧内の符号は、テキストの識別子を示す。

　テキストは、例えば、所定の形式に従って、複数のカテゴリ（現象、原因、対策）毎に記載された文書から、各カテゴリに対する記載を取得することにより抽出される。また、テキストは、自由形式で記述された文書から、各カテゴリに係る記載部分を特定することにより抽出されてもよい。また、文書は、例えば、コールセンタ等における会話を音声認識することにより生成した、コールログであってもよい。

　含意関係抽出部２０は、クラスタリング対象の文書に含まれる各カテゴリのテキスト間の含意関係を抽出する。

　クラスタリング部３０は、抽出された含意関係をもとに、各カテゴリについて、テキストに対する含意クラスタリングを行う。そして、クラスタリング部３０は、代表テキスト、及び、当該代表テキストを含意する要素テキストが設定されたクラスタを複数生成する。

　表示制御部５０は、クラスタリング結果をもとに、各カテゴリの代表テキスト、及び、表示対象の文書（以下、対象文書とも記載する）の要素テキストを表示するためのクラスタリング画面８０を生成し、ユーザ等に表示（出力）する。

　図８は、本発明の第１の実施の形態における、クラスタリング画面８０（代表テキスト指定前）の例を示す図である。

　クラスタリング画面８０は、代表テキスト表示領域８１（８１ａ、８１ｂ、８１ｃ）、及び、要素テキスト表示領域８２を含む。

　代表テキスト表示領域８１の「クラスタ」欄には、各カテゴリの代表テキストが表示される。また、「件数」欄には、対象文書の内、各代表テキストを含意する要素テキストを含む文書の数が表示される。代表テキスト表示領域８１の代表テキストは、「件数」欄に示される文書の数の大きい（または小さい）順に表示されてもよい。

　要素テキスト表示領域８２の「詳細テキスト」欄には、各対象文書の各カテゴリの要素テキストが、文書識別子、及び、取得日時に関連付けられて、例えば、時系列順で表示される。

　表示制御部５０は、代表テキスト表示部５１（または、第１の表示部）、要素テキスト表示部５２（または、第２の表示部）、及び、受付部５５を含む。

　受付部５５は、代表テキスト表示領域８１において、ユーザ等から、対象文書に係る条件（以下、表示条件とも記載する）の指定を受け付ける。本発明の実施の形態では、表示条件として、１以上のカテゴリの各々の代表テキスト（クラスタ）の組み合わせ（ＡＮＤ条件）が指定される。この場合、対象文書は、クラスタリング対象の全文書の内、表示条件で指定された１以上のカテゴリの各々の代表テキストを含意する（代表テキストのクラスタに属する）要素テキストを、当該１以上のカテゴリの全てについて含む文書である。

　要素テキスト表示部５２は、クラスタリング対象の文書から、表示条件に応じた対象文書を抽出し（絞り込み）、当該抽出した文書の各カテゴリの要素テキストを、要素テキスト表示領域８２に表示する。

　代表テキスト表示部５１は、各カテゴリの代表テキストを、代表テキスト表示領域８１に表示する。また、代表テキスト表示部５１は、表示条件で指定されたカテゴリとは異なるカテゴリの代表テキストから、表示条件に応じた関連代表テキストを抽出し（絞り込み）、代表テキスト表示領域８１に表示する。ここで、関連代表テキストとは、表示条件で指定された１以上のカテゴリとは異なるカテゴリの代表テキストであって、対象文書に含まれる要素テキストが含意する代表テキストである。

　なお、クラスタリングシステム１は、ＣＰＵ（Central Processing Unit）とプログラムを記憶した記憶媒体を含み、プログラムにもとづく制御によって動作するコンピュータであってもよい。

　図３は、本発明の第１の実施の形態における、コンピュータにより実現されたクラスタリングシステム１の構成を示すブロック図である。

　クラスタリングシステム１は、ＣＰＵ２、ＨＤＤ（ハードディスクドライブ）やメモリ等の記憶デバイス（記憶媒体）３、他の装置等と通信を行う通信デバイス４、マウスやキーボード等の入力デバイス５、及び、ディスプレイ等の出力デバイス６を含む。

　ＣＰＵ２は、含意関係抽出部２０、クラスタリング部３０、及び、表示制御部５０の機能を実現するためのコンピュータプログラムを実行する。記憶デバイス３は、記憶部１０のデータを記憶する。出力デバイス６は、ユーザ等へ、クラスタリング画面８０を出力する。入力デバイス５は、ユーザ等から、表示条件の指定を受け付ける。また、通信デバイス４が、他の装置へクラスタリング画面８０を出力し、他の装置から表示条件の指定を受け付けてもよい。

　また、図２に示されたクラスタリングシステム１の各構成要素は、独立した論理回路でもよい。また、図２に示されたクラスタリングシステム１の各構成要素は、有線または無線で接続された複数の物理的な装置に分散的に配置されていてもよい。

　次に、本発明の第１の実施の形態の動作を説明する。

　ここでは、図５のようなテキストデータが、記憶部１０に記憶されていると仮定する。

　図４は、本発明の第１の実施の形態における、クラスタリングシステム１の動作を示すフローチャートである。

　はじめに、含意関係抽出部２０は、記憶部１０に記憶された、クラスタリング対象の文書の各カテゴリのテキスト間の含意関係を抽出する（ステップＳ１０１）。

　ここで、含意関係抽出部２０は、例えば、特許文献１と同様の判定処理を行うことにより、テキスト間の含意関係を抽出する。この場合、含意関係抽出部２０は、テキストに含まれる内容語を比較し、被覆率を算出することにより、含意関係の有無を判定する。なお、含意関係抽出部２０は、テキスト間の含意関係を抽出できれば、特許文献１と異なる判定処理により、テキスト間の含意関係を判定してもよい。

　図６は、本発明の第１の実施の形態における、含意関係の抽出結果の例を示す図である。図６において、矢印の元のテキストは、先のテキストを含意することを示す。図６の例では、例えば、カテゴリ「現象」について、テキストＴ２ａ、Ｔ７ａが、テキストＴ１ａを含意している。

　例えば、含意関係抽出部２０は、図５の各カテゴリのテキストに対して、図６に示すように、含意関係を抽出する。

　クラスタリング部３０は、記憶部１０に記憶された、クラスタリング対象の文書の各カテゴリのテキストに対して、含意クラスタリングを行う（ステップＳ１０２）。

　ここで、クラスタリング部３０は、例えば、非特許文献２の技術と同様に、含意関係抽出部２０により抽出された含意関係をもとに、含意クラスタリングを行う。クラスタリングの結果、テキストが複数の代表テキストを含意する場合、当該テキストは、複数のクラスタの要素テキストに設定される。なお、本発明の実施の形態では、あるクラスタの代表テキストに設定されたテキスト自身も、当該クラスタの代表テキストを含意する要素テキストとして設定される。クラスタリング部３０は、各カテゴリについて、各クラスタの代表テキストの識別子を当該クラスタの要素テキストの識別子と関連付けたクラスタリング結果を、記憶部１０に保存する。

　図７は、本発明の第１の実施の形態における、クラスタリング結果の例を示す図である。図７の例では、例えば、現象カテゴリについて、テキストＴ１ａ、Ｔ４ａ、及び、Ｔ５ａが、それぞれ、クラスタＡ１、Ａ２、及び、Ａ３の代表テキストに設定されている。また、テキストＴ１ａとテキストＴ１ａを含意するテキストＴ２ａ、Ｔ７ａが、クラスタＡ１の要素テキストに設定されている。

　例えば、クラスタリング部３０は、図６の含意関係をもとに、図７に示すようなクラスタリング結果を生成する。

　なお、クラスタリング部３０は、さらに、各カテゴリにおいて、異なる二つのクラスタ間の要素テキストの重複の度合いをもとに、当該二つのクラスタを一つのクラスタに統合してもよい。

　次に、表示制御部５０の代表テキスト表示部５１は、記憶部１０に記憶されたクラスタリング結果をもとに、各カテゴリの代表テキストを、クラスタリング画面８０の代表テキスト表示領域８１に表示する（ステップＳ１０３）。

　例えば、代表テキスト表示部５１は、図７のクラスタリング結果をもとに、現象カテゴリについて、図８のように、代表テキスト表示領域８１ａに、代表テキストＴ１ａ、Ｔ４ａ、Ｔ５ａを表示する。同様に、代表テキスト表示部５１は、代表テキスト表示領域８１ｂに、原因クラスタについて、代表テキストＴ１ｂ、Ｔ５ｂ、Ｔ４ｂを表示し、代表テキスト表示領域８１ｃに、対策クラスタについて、代表テキストＴ１ｃ、Ｔ５ｃ、Ｔ３ｃを表示する。

　要素テキスト表示部５２は、表示条件に応じて、クラスタリング対象の文書から対象文書を抽出し、当該抽出した文書の各カテゴリの要素テキストを、要素テキスト表示領域８２に表示する（ステップＳ１０４）。なお、最初の時点では、表示条件が指定されていないため、例えば、クラスタリング対象の全文書が、対象文書として用いられる。

　例えば、要素テキスト表示部５２は、図８のように、要素テキスト表示領域８２に、クラスタリング対象の全文書Ｄ１～Ｄ７について、各カテゴリの要素テキストを表示する。

　代表テキスト表示部５１は、表示条件に応じて、関連代表テキストを抽出し、代表テキスト表示領域８１に表示する（ステップＳ１０５）。また、同時に、代表テキスト表示部５１は、代表テキスト表示領域８１の文書の数を、対象文書に応じて更新する。なお、最初の時点では、表示条件が指定されていないため、関連代表テキストの抽出は省略される。

　例えば、代表テキスト表示部５１は、図８のように、代表テキスト表示領域８１ａ～８１ｃに、クラスタリング対象の全文書Ｄ１～Ｄ７の内、各代表テキストを含意する要素テキストを含む文書の数を表示する。

　ユーザ等は、図８のクラスタリング画面８０の代表テキスト表示領域８１を参照し、概要レベルで、全体的な現象、原因、対策や、それらの発生数を把握できる。

　次に、受付部５５は、クラスタリング画面８０において、表示条件（代表テキスト）の指定を受け付ける（ステップＳ１０６）。

　ここで、受付部５５は、例えば、代表テキスト表示領域８１に表示されている代表テキストの、マウスによるクリックを検出することにより、代表テキストの指定を受け付ける。

　以降、ステップＳ１０４からの処理が繰り返され、表示条件を受け付けるたびに、当該表示条件に応じて、クラスタリング画面８０が更新される。

　以下、表示条件のいくつかの例を用いて、ステップＳ１０４～Ｓ１０６の動作を説明する。

　＜表示条件として現象カテゴリの代表テキストが指定された場合＞
　ユーザ等が、図８の代表テキスト表示領域８１において、概要レベルの現象「起動しない」について、関連する原因や対策を分析する場合を考える。例えば、受付部５５は、図８の代表テキスト表示領域８１ａにおいて、ユーザ等から、現象カテゴリの代表テキストＴ１ａ「起動しない」の指定を受け付ける。

　図９は、本発明の第１の実施の形態における、クラスタリング画面８０（現象カテゴリの代表テキスト指定時）の例を示す図である。

　この場合、表示条件（代表テキストＴ１ａ）に応じた対象文書は、代表テキストＴ１ａを含意する要素テキストＴ１ａ、Ｔ２ａ、Ｔ７ａを含む文書Ｄ１、Ｄ２、Ｄ７である。

　要素テキスト表示部５２は、図９のように、要素テキスト表示領域８２に、対象文書である文書Ｄ１、Ｄ２、Ｄ７の要素テキストを表示する。

　代表テキスト表示部５１は、代表テキストＴ１ａに対する原因カテゴリの関連代表テキストとして、図９のように、代表テキスト表示領域８１ｂに、対象文書Ｄ１、Ｄ２、Ｄ７に含まれる要素テキストが含意する、代表テキストＴ１ｂ、Ｔ５ｂを表示する。また、代表テキスト表示部５１は、代表テキストＴ１ａに対する対策カテゴリの関連代表テキストとして、代表テキスト表示領域８１ｃに、対象文書Ｄ１、Ｄ２、Ｄ７に含まれる要素テキストが含意する、代表テキストＴ１ｃ、Ｔ５ｃを表示する。さらに、代表テキスト表示部５１は、図９のように、代表テキスト表示領域８１の各代表テキストに対する文書の数を、対象文書Ｄ１、Ｄ２、Ｄ７の内の、各代表テキストを含意する要素テキストを含む文書の数で更新する。

　ユーザ等は、図９のクラスタリング画面８０の代表テキスト表示領域８１を参照し、概要レベルで、指定した現象に関連する原因、対策や、それらの発生数を把握できる。また、要素テキスト表示領域８２を参照し、指定した現象や当該現象に関連する原因、対策の詳細を把握できる。

　＜表示条件として現象カテゴリ及び原因カテゴリの代表テキストが指定された場合＞
　ユーザ等が、図９の代表テキスト表示領域８１において、概要レベルの現象「起動しない」、及び、原因「ＨＤＤが壊れた」について、関連する対策を分析する場合を考える。例えば、受付部５５は、さらに、図９の代表テキスト表示領域８１ｂにおいて、ユーザ等から、原因カテゴリの代表テキストＴ５ｂ「ＨＤＤが壊れた」の指定を受け付ける。

　図１０は、本発明の第１の実施の形態における、クラスタリング画面８０（現象カテゴリ及び原因カテゴリの代表テキスト指定時）の例を示す図である。

　この場合、表示条件（代表テキストＴ１ａ及びＴ５ｂの組み合わせ）に応じた対象文書は、代表テキストＴ１ａを含意する要素テキストＴ２ａ、及び、代表テキストＴ５ｂを含意する要素テキストＴ２ｂを含む文書Ｄ２である。

　要素テキスト表示部５２は、図１０のように、要素テキスト表示領域８２に対象文書である文書Ｄ２の要素テキストを表示する。

　代表テキスト表示部５１は、代表テキストＴ１ａ及びＴ５ｂの組み合わせに対する対策カテゴリの関連代表テキストとして、図１０のように、代表テキスト表示領域８１ｃに、対象文書Ｄ２に含まれる要素テキストが含意する、代表テキストＴ５ｃを表示する。

　＜表示条件として原因カテゴリの代表テキストが指定された場合＞
　ユーザ等が、図８の代表テキスト表示領域８１において、概要レベルの現象「メインボードが故障」について、関連する現象や対策を分析する場合を考える。例えば、受付部５５は、図８の代表テキスト表示領域８１ｂにおいて、ユーザ等から、原因カテゴリの代表テキストＴ４ｂ「メインボードが故障」の指定を受け付ける。

　図１１は、本発明の第１の実施の形態における、クラスタリング画面８０（原因カテゴリの代表テキスト指定時）の例を示す図である。

　この場合、表示条件（代表テキストＴ４ｂ）に応じた対象文書は、代表テキストＴ４ｂを含意する要素テキストＴ３ｂ、Ｔ４ｂ、Ｔ６ｂを含む文書Ｄ３、Ｄ４、Ｄ６である。

　要素テキスト表示部５２は、図１１のように、要素テキスト表示領域８２に、対象文書である文書Ｄ３、Ｄ４、Ｄ６の要素テキストを表示する。

　代表テキスト表示部５１は、代表テキストＴ４ｂに対する現象カテゴリの関連代表テキストとして、図１１のように、代表テキスト表示領域８１ａに、対象文書Ｄ３、Ｄ４、Ｄ６に含まれる要素テキストが含意する、代表テキストＴ４ａ、Ｔ５ａを表示する。また、代表テキスト表示部５１は、代表テキストＴ１ａに対する対策カテゴリの関連代表テキストとして、代表テキスト表示領域８１ｃに、対象文書Ｄ３、Ｄ４、Ｄ６に含まれる要素テキストが含意する、代表テキストＴ３ｃを表示する。さらに、代表テキスト表示部５１は、図１１のように、代表テキスト表示領域８１の各代表テキストに対する文書の数を、対象文書Ｄ３、Ｄ４、Ｄ６の内の、各代表テキストを含意する要素テキストを含む文書の数で更新する。

　ユーザ等は、図１１のクラスタリング画面８０の代表テキスト表示領域８１を参照し、概要レベルで、指定した原因に関連する現象、対策や、それらの発生数を把握できる。また、要素テキスト表示領域８２を参照し、指定した原因や当該原因に関連する現象、対策の詳細を把握できる。

　なお、ここでは、表示条件が「現象カテゴリの代表テキスト」、「現象カテゴリ及び原因カテゴリの代表テキスト」、「原因カテゴリの代表テキスト」の場合を例に説明した。しかしながら、これに限らず、表示条件として、現象、原因、対策の内の１以上の任意の組み合わせについて、各カテゴリの代表テキストが指定されてもよい。

　以上により、本発明の第１の実施の形態の動作が完了する。

　なお、本発明の第１の実施の形態では、クラスタリング対象のテキストのカテゴリが、ＰＣの不具合に係る現象、原因、対策である場合を例に説明した。しかしながら、これに限らず、クラスタリング対象のカテゴリは、他の製品や、サービス等の課題に係る、現象、原因、対策でもよい。また、クラスタリング対象のカテゴリは、顧客からの苦情の対象、苦情の内容、要望でもよい。また、クラスタリング対象のカテゴリは、各文書に含まれる互いに関連するカテゴリであれば、どのようなカテゴリでもよい。

　また、本発明の第１の実施の形態では、要素テキスト表示部５２は、表示条件が指定されていない段階では、クラスタリング対象の全文書を対象文書として、当該対象文書の要素テキストを要素テキスト表示領域８２に表示した。これに限らず、要素テキスト表示部５２は、表示条件が指定されていない段階では、対象文書の要素テキストの表示を省略してもよい。

　また、本発明の第１の実施の形態では、要素テキスト表示部５２は、対象文書の全カテゴリの要素テキストを要素テキスト表示領域８２に表示した。これに限らず、要素テキスト表示部５２は、対象文書の特定のカテゴリの要素テキストのみを表示してもよい。

　また、本発明の第１の実施の形態では、代表テキスト表示部５１は、表示条件が指定されていない段階で、全カテゴリの全代表テキストを、代表テキスト表示領域８１に表示した。これに限らず、代表テキスト表示部５１は、表示条件が指定されていない段階では、表示条件としての指定を受け付けるカテゴリの代表テキストのみを表示してもよい。

　また、本発明の第１の実施の形態では、要素テキスト表示部５２は、抽出した対象文書の要素テキストの表示方法として、抽出した対象文書の要素テキストのみを要素テキスト表示領域８２に表示した。これに限らず、要素テキスト表示部５２は、クラスタリング対象の全文書、或いは、特定の文書の要素テキストを表示したまま、抽出した対象文書の要素テキストのみを強調表示してもよい。

　また、本発明の第１の実施の形態では、代表テキスト表示部５１は、各カテゴリの抽出した代表テキストの表示方法として、抽出した代表テキストのみを代表テキスト表示領域８１に表示した。これに限らず、代表テキスト表示部５１は、各カテゴリの全代表テキスト、或いは、特定の代表テキストを表示したまま、抽出した代表テキストのみを強調表示してもよい。

　次に、本発明の第１の実施の形態の基本的な構成を説明する。

　図１は、本発明の第１の実施の形態の基本的な構成を示すブロック図である。図１を参照すると、本発明のクラスタリングシステム１（テキスト可視化システム）は、代表テキスト表示部５１（第１の表示部）、及び、受付部５５を含む。クラスタリングシステム１は、記憶部にアクセス可能に接続される。記憶部は、複数の文書の各々に含まれる複数のカテゴリの各々のテキストを記憶する。記憶部は、さらに、複数のカテゴリの各々について、複数の文書に含まれるテキストの内の代表テキストと当該代表テキストを含意する要素テキストとを示す情報を記憶する。代表テキスト表示部５１は、複数のカテゴリの内の１以上のカテゴリの各々の複数の代表テキストを表示する。受付部５５は、１以上のカテゴリの各々の複数の代表テキストの内の、特定のカテゴリの代表テキストの指定を受け付ける。代表テキスト表示部５１は、他のカテゴリの複数の代表テキストから、指定された特定のカテゴリの代表テキストを含意する要素テキストを含む文書に含まれる、当該他のカテゴリの要素テキストを含意する代表テキストを抽出して表示する。

　次に、本発明の第１の実施の形態の効果を説明する。

　本発明の第１の実施の形態によれば、複数のカテゴリを含む文書に対するクラスタリングにおいて、カテゴリ間での観点の関連性を把握できる。その理由は、以下の通りである。すなわち、代表テキスト表示部５１は、複数のカテゴリの各々の代表テキストを表示する。そして、代表テキスト表示部５１は、他のカテゴリの複数の代表テキストから、指定された特定のカテゴリの代表テキストを含意する要素テキストを含む文書に含まれる、当該他のカテゴリの要素テキストを含意する代表テキストを抽出して表示する。

　これにより、ユーザは、最初に、各カテゴリの代表テキストにより、概要レベルで各カテゴリの観点を把握でき、次に、特定のカテゴリの観点の代表テキストを指定することで、当該観点に関連する他のカテゴリの観点を把握できる。

　（第２の実施の形態）
　次に、本発明の第２の実施の形態について説明する。

　本発明の第２の実施の形態では、表示制御部５０が分析テーブル９１を表示する点において、本発明の第１の実施の形態と異なる。

　はじめに、本発明の第２の実施の形態の構成を説明する。

　図１２は、本発明の第２の実施の形態における、クラスタリングシステム１の構成を示すブロック図である。

　図１２を参照すると、本発明の第２の実施の形態のクラスタリングシステム１は、本発明の第１の実施の形態のクラスタリングシステム１の構成に加えて、表示制御部５０に、さらに、分析結果表示部５６（または、第３の表示部）を含む。

　分析結果表示部５６は、二つのカテゴリの代表テキストの関係性（相関）を表す分析テーブル９１を生成し、表示する。

　次に、本発明の第２の実施の形態の動作を説明する。

　上述のステップＳ１０６で、表示制御部５０の受付部５５は、分析テーブル９１の作成指示を受け付ける。分析結果表示部５６は、クラスタリング結果をもとに、二つのカテゴリ毎に分析テーブル９１を生成する。分析結果表示部５６は、二つのカテゴリの各代表テキストのペアについて、クラスタリング対象の文書の内、当該二つのカテゴリの要素テキストが、それぞれ、当該ペアの代表テキストを含意する文書の数を集計する。分析結果表示部５６は、集計結果を表す集計表を、分析テーブル９１として生成する。

　図１３は、本発明の第２の実施の形態における、分析画面９０の例を示す図である。分析画面９０は、分析テーブル９１（９１ａ、ｂ、ｃ）を含む。分析テーブル９１ａ、ｂ、ｃは、それぞれ、現象と原因カテゴリ、原因と対策カテゴリ、現象と対策カテゴリについての、分析テーブル９１である。

　例えば、分析結果表示部５６は、図７のクラスタリング結果をもとに、図１３のような分析テーブル９１ａ、ｂ、ｃを生成し、分析画面９０に表示する。

　ユーザ等は、図１３の分析画面９０を参照し、概要レベルの現象、原因、対策の内の二つのカテゴリ間で、それらのカテゴリの各観点のペアの発生数を、容易に把握できる。

　なお、分析結果表示部５６は、上述の集計表の各セルについて、さらに、調整済み標準化残差等を算出したテーブルを、カテゴリ間の相関を表す分析テーブル９１として生成してもよい。また、分析結果表示部５６は、カテゴリ間の関係性を算出できれば、他の方法により算出された関係性を表すテーブルを分析テーブル９１として生成してもよい。例えば、分析結果表示部５６は、調整済み標準化残差の代わりに、上述の集計表の各セルについて、標準化残差や、単に残差を算出したテーブルを生成してもよい。また、分析結果表示部５６は、カイ二乗値や対数尤度比（log-likelihood ratio）により、カテゴリ間の関係性を示してもよい。

　以上により、本発明の第２の実施の形態の動作が完了する。

　次に、本発明の第２の実施の形態の効果を説明する。

　本発明の第２の実施の形態によれば、複数のカテゴリを含む文書に対するクラスタリングにおいて、二つのカテゴリ間の、観点の関係性を容易に把握できる。その理由は、分析結果表示部５６が、二つのカテゴリについて、文書に含まれる当該二つのカテゴリの要素テキストがそれぞれ含意する代表テキストの関係性を表す分析テーブル９１を生成し、表示するためである。なお、上述のキーワードをベースにしたクラスタリングでは、各クラスタの観点が不明確となるため、このようにカテゴリ間のクラスタの関係性を表すテーブルを生成しても、意味のある結果を得ることができない。

　以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　本発明は、大量文書データをクラスタリングするシステムに適用できる。例えば、本発明は、製品やサービスの改善、マーケティング、営業活動の効率化のために、コールログや顧客の意見等を分析するシステムに適用できる。また、本発明は、製品の不具合や製品に対する評価や要望を分析するシステム、学術文献等を分析するシステムにも適用できる。また、本発明は、カスタマーサポートに対する質問を分析して、ＦＡＱ（Frequently Asked Questions）を生成するシステムにも適用できる。

　１　　クラスタリングシステム
　２　　ＣＰＵ
　３　　記憶デバイス
　４　　通信デバイス
　５　　入力デバイス
　６　　出力デバイス
　１０　　記憶部
　２０　　含意関係抽出部
　３０　　クラスタリング部
　５０　　表示制御部
　５１　　代表テキスト表示部
　５２　　要素テキスト表示部
　５５　　受付部
　５６　　分析結果表示部
　８０　　クラスタリング画面
　８１　　代表テキスト表示領域
　８２　　要素テキスト表示領域
　９０　　分析画面
　９１　　分析テーブル

Claims

　複数の文書の各々に含まれる複数のカテゴリの各々のテキスト、及び、当該複数のカテゴリの各々について、前記複数の文書に含まれるテキストの内の代表テキストと当該代表テキストを含意する要素テキストとを示す情報、を記憶する記憶手段にアクセス可能に接続され、
　前記複数のカテゴリの内の１以上のカテゴリの各々の複数の代表テキストを表示する第１の表示手段と、
　前記１以上のカテゴリの各々の複数の代表テキストの内の、特定のカテゴリの代表テキストの指定を受け付ける受付手段と、を備え、
　前記第１の表示手段は、前記特定のカテゴリの代表テキストの指定を受け付けたことに応じて、他のカテゴリの複数の代表テキストから、当該特定のカテゴリの代表テキストを含意する要素テキストを含む文書に含まれる、当該他のカテゴリの要素テキストを含意する代表テキストを抽出して表示する、
　テキスト可視化システム。
　さらに、前記特定のカテゴリの代表テキストの指定を受け付けたことに応じて、前記複数の文書から、当該特定のカテゴリの代表テキストを含意する要素テキストを含む文書を抽出し、当該抽出した文書に含まれる、前記複数のカテゴリの内の１以上のカテゴリの各々の要素テキストを表示する第２の表示手段を備える、
　請求項１に記載のテキスト可視化システム。
　前記受付手段は、前記１以上のカテゴリの各々の複数の代表テキストの内の、複数の特定のカテゴリの各々の代表テキストの指定を受け付け、
　前記第１の表示手段は、前記複数の特定のカテゴリの各々の代表テキストの指定を受け付けたことに応じて、当該複数の特定のカテゴリの各々の代表テキストを含意する要素テキストを当該複数の特定のカテゴリの全てについて含む文書に含まれる、他のカテゴリの要素テキストを含意する代表テキストを抽出して表示する、
　請求項１に記載のテキスト可視化システム。
　さらに、前記複数の特定のカテゴリの各々の代表テキストの指定を受け付けたことに応じて、前記複数の文書から、当該複数の特定のカテゴリの各々の代表テキストを含意する要素テキストを当該複数の特定のカテゴリの全てについて含む文書を抽出し、当該抽出した文書に含まれる、前記複数のカテゴリの内の１以上のカテゴリの各々の要素テキストを表示する第２の表示手段を備える、
　請求項３に記載のテキスト可視化システム。
　さらに、前記複数のカテゴリの内の二つのカテゴリについて、文書に含まれる当該二つのカテゴリの要素テキストがそれぞれ含意する代表テキストの関係性を表すテーブルを表示する第３の表示手段を備える、
　請求項１乃至４のいずれかに記載のテキスト可視化システム。
　複数の文書の各々が複数のカテゴリの各々のテキストを含み、当該複数のカテゴリの各々について、前記複数の文書に含まれるテキストの内の代表テキストと当該代表テキストを含意する要素テキストが設定されている場合に、
　前記複数のカテゴリの内の１以上のカテゴリの各々の複数の代表テキストを表示し、
　前記１以上のカテゴリの各々の複数の代表テキストの内の、特定のカテゴリの代表テキストの指定を受け付け、
　前記特定のカテゴリの代表テキストの指定を受け付けたことに応じて、他のカテゴリの複数の代表テキストから、当該特定のカテゴリの代表テキストを含意する要素テキストを含む文書に含まれる、当該他のカテゴリの要素テキストを含意する代表テキストを抽出して表示する、
　テキスト可視化方法。
　コンピュータに、
　複数の文書の各々が複数のカテゴリの各々のテキストを含み、当該複数のカテゴリの各々について、前記複数の文書に含まれるテキストの内の代表テキストと当該代表テキストを含意する要素テキストが設定されている場合に、
　前記複数のカテゴリの内の１以上のカテゴリの各々の複数の代表テキストを表示し、
　前記１以上のカテゴリの各々の複数の代表テキストの内の、特定のカテゴリの代表テキストの指定を受け付け、
　前記特定のカテゴリの代表テキストの指定を受け付けたことに応じて、他のカテゴリの複数の代表テキストから、当該特定のカテゴリの代表テキストを含意する要素テキストを含む文書に含まれる、当該他のカテゴリの要素テキストを含意する代表テキストを抽出して表示する、
　処理を実行させるプログラムを格納する、コンピュータが読み取り可能な記録媒体。