JPWO2016013175A1

JPWO2016013175A1 - テキスト処理システム、テキスト処理方法およびテキスト処理プログラム

Info

Publication number: JPWO2016013175A1
Application number: JP2016521798A
Authority: JP
Inventors: 正明土田; 石川　開; 開石川; 貴士大西; 康高山本
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-07-22
Filing date: 2015-07-10
Publication date: 2017-04-27
Anticipated expiration: 2035-07-10
Also published as: US9916302B2; WO2016013175A1; JP6008067B2; US20170124066A1

Abstract

複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係がないと判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができるテキスト処理システムを提供する。含意認識手段７１は、与えられたテキストに対してテキスト間の含意認識を行う。グループ生成手段７２は、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成する。グループ統合手段７３は、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合する。

Description

本発明は、テキストをグループ化するテキスト処理システム、テキスト処理方法およびテキスト処理プログラムに関する。

テキストに対する処理の一つとして含意認識がある。含意認識の例が非特許文献１に記載されている。

含意認識は、“Ａ”、“Ｂ”をそれぞれテキストとした場合に、「ＡはＢを含意する。」という関係の有無を判定する処理である。また、「ＡはＢを含意する。」とは、Ａが真であるならばＢも真であることである。以下、１つのテキストが他のテキストを含意する関係を、含意関係と呼ぶ場合がある。

非特許文献１に記載された含意認識の方法は、単語の重要度を考慮し、テキストＢ内の単語の重要度の総和と、テキストＡ側で意味的に出現している単語の重要度の和とを求め、前者に対する後者の割合が閾値以上であれば、ＡはＢを含意するとみなす方法である。

非特許文献１の他に、含意認識の例は、非特許文献２，３等にも記載されている。

また、テキストをグループ化する方法として、テキスト内で使用されている単語の類似性に基づいてテキストをクラスタリングする方法が考えられる。

Masaaki Tsuchida, Kai Ishikawa, "IKOMA at TAC2011: A Method for Recognizing Textual Entailment using Lexical-level and Sentence Structure-level features", [online], ［２０１４年７月１０日検索］、インターネット<URL：http://www.nist.gov/tac/publications/2011/participant.papers/IKOMA.proceedings.pdf> Alexander Volokh, 外２名、"Combining Deterministic Dependency Parsing and Linear Classification for Robust RTE", [online], ［２０１４年７月１０日検索］、インターネット<URL：http://www.nist.gov/tac/publications/2010/participant.papers/DFKI.proceedings.pdf> Alexander Volokh, 外１名、"Using MT-Based Metrics for RTE", [online], ［２０１４年７月１０日検索］、インターネット<URL：http://www.nist.gov/tac/publications/2011/participant.papers/DFKI.proceedings.pdf>

含意認識に、言い換えルールを適用することが考えられる。例えば、図１３に例示する５つのテキストを対象に含意認識を行うとする。なお、図１３において、テキストの前に示す数字は、テキストのＩＤである。本例において、ＡがＢを含意するか否かを判定する際に、Ｂに相当するテキストに言い換えルールを適用して文言を言い換え、Ｂに相当するテキストの全ての内容語が、Ａに相当するテキストに出現していれば、ＡはＢを含意すると判定する。また、言い換えルールとして、以下の言い換えルールが存在しているとする。

［言い換えルール］
「premier」を「prime minister」に言い換える。
「“X” cabinet starts」を「“X” is premier」に言い換える。

この場合、テキスト１，２，４，５がそれぞれテキスト２を含意しているという結果や、テキスト１，２，３，４，５がそれぞれテキスト３を含意しているという結果等が得られる。ここで、テキストの意味を考慮すれば、テキスト３はテキスト２を含意していると言えるが、テキスト３がテキスト２を含意しているという判定はなされない。この場合、例えば、上記の言い換えルールに、さらに以下の言い換えルールを追加すれば、テキスト３がテキスト２を含意しているという判定がなされる。

［言い換えルール］
「Premier is “A”」を「“A” cabinet starts」に言い換える。

このように、言い換えルールを追加することで、含意認識の精度も向上する。しかし、含意認識の精度を向上させるためには、言い換えルールを増加させなければならず、言い換えルールを準備する負担が大きくなる。

また、同じ意味を含むテキストを同じグループと解釈して、そのグループを通してテキストの概観を把握できることが好ましい。

ここで、含意認識の結果、含意関係を有していないと判定されたテキストの組であっても、意味的には含意関係があれば、同じグループに含めることが好ましい。

グループ内の各テキストを参照しても、そのグループを解釈できなければ、グループの概観を把握できない。テキスト内で使用されている単語の類似性に基づいてテキストをクラスタリングする方法では、概観を把握できないクラスタが生成されがちである。図１４は、単語の類似性に基づいてテキストをクラスタリングした場合に得られたクラスタの一例を示す模式図である。図１４に示すように、単に単語の類似性に基づいてクラスタリングした結果得られたクラスタでは、特に読み取れる知見はない。

そこで、本発明は、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係がないと判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができるテキスト処理システム、テキスト処理方法およびテキスト処理プログラムを提供することを目的とする。

本発明によるテキスト処理システムは、与えられたテキストに対してテキスト間の含意認識を行う含意認識手段と、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成するグループ生成手段と、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合するグループ統合手段とを備えることを特徴とする。

また、本発明によるテキスト処理方法は、与えられたテキストに対してテキスト間の含意認識を行い、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成し、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合することを特徴とする。

また、本発明によるテキスト処理プログラムは、コンピュータに、与えられたテキストに対してテキスト間の含意認識を行う含意認識処理、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成するグループ生成処理、および、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合するグループ統合処理を実行させることを特徴とする。

本発明によれば、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係がないと判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができる。

本発明の第１の実施形態のテキスト処理システムの例を示すブロック図である。含意認識部による含意認識の結果の例を示す模式図である。初期グループの例を示す模式図である。本発明の第１の実施形態の処理経過の例を示すフローチャートである。統合の例を示す模式図である。所定割合以上のメンバが他のグループのメンバとなっているグループを削除する例を示す模式図である。本発明の第２の実施形態のテキスト処理システムの例を示すブロック図である。本発明の第３の実施形態のテキスト処理システムの例を示すブロック図である。統合後のグループの一例を示す模式図である。分析部による分析結果の表示例を示す模式図である。本発明の各実施形態に係るコンピュータの構成例を示す概略ブロック図である。本発明のテキスト処理システムの最小構成の例を示すブロック図である。含意認識の対象となるテキストの例を示す模式図である。単語の類似性に基づいてテキストをクラスタリングした場合に得られたクラスタの一例を示す模式図である。

以下、図面を参照して本発明の実施形態を説明する。

実施形態１．
図１は、本発明の第１の実施形態のテキスト処理システムの例を示すブロック図である。第１の実施形態において、テキスト処理システム１は、テキスト記憶部２と、含意認識部３と、グループ生成部４と、グループ統合部５と、グループ記憶部６とを備える。

テキスト記憶部２は、グループ化の対象となる複数のテキストを予め記憶する記憶装置である。

テキスト記憶部２に記憶される個々のテキスト（すなわち、グループ化の対象となる個々のテキスト）にはそれぞれＩＤが予め割り当てられ、付加されている。文字列が一致しているテキストであっても、テキストの出処が異なっていれば、異なるＩＤが割り当てられる。例えば、アンケートで得られたテキストがテキスト記憶部２に記憶されるとする。そして、「The item is high price.」という全く同じ文字列のテキストが５人の人から別々に得られていたとする。この場合、５人から得られた「The item is high price.」という５つのテキストに対して別々のＩＤが割り当てられる。ＩＤが異なるテキストは、文字列が共通であったとしても、別々のテキストとして扱われる。なお、本例では、アンケートで得られたテキストがテキスト記憶部２に記憶される場合を例にして説明したが、テキスト記憶部２が記憶するテキストの収集態様は特に限定されない。例えば、コールセンタに寄せられた意見を表すテキストをテキスト記憶部２に記憶させてもよい。

以下、説明を簡単にするため、テキストのＩＤを“１”，“２”，“３”，・・・等の数字で表すが、ＩＤの表記は数字に限定されない。また、以下の説明では、ＩＤ“ｎ”のテキストを、テキスト“ｎ”と記す。

含意認識部３は、テキスト記憶部２に記憶される個々のテキストに対してテキスト間の含意認識を行う。

具体的には、含意認識部３は、２つのテキストからなるテキストの組を全て定める。含意認識部３は、２つのテキストからなる組を定めるときに、その２つのテキストに順番を定め、その２つのテキストのどちらを先にするかによって、その２つのテキストからなる組を別々に定める。例えば、含意認識部３は、（１，２）という組と、（２，１）という組とをそれぞれ別の組として定める。なお、括弧はテキストの組を表し、括弧内の数字はテキストのＩＤを表しているものとする。テキストの組において、１番目のテキストを第１テキストと記し、２番目のテキストを第２テキストと記す。

含意認識部３は、ＩＤが同一のテキストを２つ重複して含む組も定める。例えば、含意認識部３は、（１，１）、（２，２）等の組もそれぞれ定める。この場合、ＩＤが同一であるので、ＩＤの順番を入れ替えた組を作成すると同一の組が重複して作成されることになるが、含意認識部３は、そのような重複する組は作成しない。

含意認識部３は、上記のように各組を定めた上で、組毎に含意認識を行う。すなわち、含意認識部３は、組毎に、第１テキストが第２テキストを含意するという関係があるか否かを判定する。含意認識の方法は特に限定されず、含意認識は、公知の方法でもよい。例えば、含意認識部３は、非特許文献１、非特許文献２あるいは非特許文献３に記載された方法で含意認識を行ってもよい。

図２は、含意認識部３による含意認識の結果の例を示す模式図である。図２では、テキストをＩＤによって表している。図２に示す例では、第１テキストが第２テキストを含意するという含意関係がある場合、第１テキストから第２テキストに向かう矢印によって含意関係があることを模式的に示している。含意関係がない場合には、第１テキストから第２テキストに向かう矢印を示さないことによって、含意関係がないことを表している。例えば、図２に示す例では、（１，３）という組において、「“１”は“３”を含意する。」という含意関係があることを表している。また、図２に示す例では、（２，３）という組において、「“２”は“３”を含意する。」という含意関係がないことを表している。また、（１，１）、（２，２）等のように、ＩＤが同一のテキストを２つ重複して含む組では、第１テキストが第２テキストを含意するという含意関係があると判定される（図２参照）。

グループ生成部４は、個々のテキストを一つずつ選択し、選択したテキストを含意するテキストをメンバとするテキストのグループを生成する。従って、グループ生成部４によって生成されるグループの数は、テキストの数と一致する。以下、選択されたテキストを代表テキストと記す場合がある。グループ生成部４は、個々のテキストを代表テキストとして、代表テキストを含意するテキストをメンバとするテキストのグループを生成する、ということもできる。

例えば、図２に例示する含意認識結果が得られているとする。この場合、グループ生成部４は、テキスト“３”を選択したときには、そのテキストを代表テキストとして、テキスト“１”、テキスト“３”等をメンバとするグループを生成する。代表テキストも、その代表テキストに対応するグループのメンバに該当する。また、グループが異なれば、代表テキストも異なる。

グループ生成部４がグループを生成するときに、あるテキストが、複数のグループのメンバとなってよい。例えば、テキスト“１”が複数のグループのメンバとなってよい。他のＩＤのテキストに関しても同様である。

グループ生成部４によって生成されるグループは、グループ統合部５によって統合される前の初期状態のグループである。よって、グループ生成部４によって生成されるグループを初期グループと称してもよい。

図３は、初期グループの例を示す模式図である。図３において、楕円はグループを表し、楕円内のテキストは、グループに属しているテキストを表している。また、楕円の上側に示したテキストは、代表テキストである。図３では、テキストのＩＤの図示を省略している。グループ生成部４は、個々のテキストをそれぞれ代表テキストとするため、初期グループ生成時には、グループの冗長性が高い。図３に示す例では、「The item is expensive.」というテキストを代表テキストとするグループと、「The item is high price.」というテキストを代表とするグループとは、同様のメンバを持つ類似したグループである。グループ生成部４が各初期グループを生成した時点では、このような互いに類似したグループが複数生成されている。

グループ統合部５は、類似しているグループを統合することによって、グループの冗長性を排除する。

グループ統合部５は、異なる２つのグループを選択し、その２つのグループのメンバの重複の度合いに基づいてその２つのグループを統合するか否かを判定し、統合すると判定したことを条件にその２つのグループを１つのグループに統合する。グループ統合部５は、この動作を、統合される２つのグループが存在しなくなるまで繰り返す。グループ統合部５のより具体的な処理については後述する。

グループ記憶部６は、統合後に残ったグループの情報を記憶する記憶装置である。グループ統合部５は、例えば、統合後に残ったグループ毎に、代表テキストおよびグループのメンバとなる各テキストを、グループ記憶部６に記憶させる。

含意認識部３、グループ生成部４およびグループ統合部５は、例えば、テキスト処理プログラムに従って動作するコンピュータのＣＰＵによって実現される。この場合、ＣＰＵは、例えば、コンピュータのプログラム記憶装置（図１において図示略）等のプログラム記録媒体からテキスト処理プログラムを読み込み、そのテキスト処理プログラムに従って、含意認識部３、グループ生成部４およびグループ統合部５として動作すればよい。また、含意認識部３、グループ生成部４およびグループ統合部５がそれぞれ別のハードウェアによって実現されていてもよい。

テキスト処理システム１は、２つ以上の物理的に分離した装置が有線または無線で接続されている構成であってもよい。この点は、後述の各実施形態においても同様である。

次に、処理経過について説明する。図４は、本発明の第１の実施形態の処理経過の例を示すフローチャートである。

含意認識部３は、テキスト記憶部２に記憶される各テキストを読み出し、それらのテキストに対してテキスト間の含意認識を行う（ステップＳ１）。含意認識部３は、既に説明したように、テキストの組を全て定め、組毎に、第１テキストが第２テキストを含意するという関係があるか否かを判定する。含意認識の方法は、特に限定されない。

次に、グループ生成部４は、初期グループを生成する（ステップＳ２）。すなわち、グループ生成部４は、個々のテキストを一つずつ選択し、選択したテキストを含意するテキストをメンバとするテキストのグループを生成する。

次に、グループ統合部５は、類似しているグループを統合する（ステップＳ３）。前述のように、グループ統合部５は、異なる２つのグループを選択し、その２つのグループのメンバの重複の度合いに基づいてその２つのグループを統合するか否かを判定し、統合すると判定したことを条件にその２つのグループを１つのグループに統合する。グループ統合部５は、この動作を、統合される２つのグループが存在しなくなるまで繰り返す。

ステップＳ３の処理について、より具体的に説明する。

グループ統合部５は、２つのグループのメンバの重複の度合いに基づいてその２つのグループを統合するか否かを判定する処理を、例えば、以下のように行えばよい。グループ統合部５は、２つのグループのＪａｃｃａｒｄ係数を算出し、Ｊａｃｃａｒｄ係数が、予め定められた閾値以上であればその２つのグループを統合すると判定し、Ｊａｃｃａｒｄ係数が閾値未満であればその２つのグループを統合しないと判定してもよい。グループ統合部５は、以下の式（１）の計算によってＪａｃｃａｒｄ係数を算出すればよい。

式（１）において、Ｐ，Ｑはそれぞれグループを表している。ＣはＪａｃｃａｒｄ係数である。グループ統合部５は、２つのグループの積集合に属するメンバの数を、２つのグループの和集合に属するメンバの数で除算することによって、Ｊａｃｃａｒｄ係数を算出すればよい。

Ｊａｃｃａｒｄ係数は、グループ同士のメンバの重複の度合いに基づくグループの類似度であるということができる。グループ統合部５は、このような類似度を、式（１）以外の計算で算出してもよい。このような類似度の他の例として、ダイス係数、シンプソン係数、コサイン類似度等が挙げられる。

また、グループ統合部５は、２つのグループを統合すると判定し、その２つのグループを１つのグループに統合する場合、例えば、以下のような処理を行えばよい。グループ統合部５は、その２つのグループのうち、メンバ数が少ない方のグループを削除するグループとして決定し、メンバ数が多い方のグループを統合の結果残すグループとして決定する。以下、メンバ数が少ない方のグループを少数側グループと記し、メンバ数が多い方のグループを多数側グループと記す場合がある。なお、２つのグループのメンバ数が同数である場合、グループ統合部５は、どちらを少数側グループとして決定してもよい。グループ統合部５は、少数側グループのメンバのうち、多数側グループのメンバと重複していないメンバを、多数側グループに移行させ、少数側グループを削除する。

図５は、統合の例を示す模式図である。図３に示す場合と同様に、楕円はグループを表す。図５において、楕円内の数字は、グループに属するメンバ（テキスト）のＩＤである。また、楕円の上側に示した数字は、代表テキストのＩＤである。また、図５に示す例では、グループ１１のメンバ数が、グループ１２のメンバ数よりも多い。従って、グループ１１が多数側グループであり、グループ１２が少数側グループである。少数側グループ１２のメンバのうち、多数側グループ１１のメンバと重複していないメンバは、テキスト“６”である。従って、グループ統合部５は、少数側グループ１２のテキスト“６”を多数側グループ１１に移行させる。この結果、テキスト“６”は多数側グループ１１のメンバとなる。なお、少数側グループ１２のメンバのうち、多数側グループ１１のメンバと重複していないメンバが複数存在していれば、グループ統合部５は、それらのメンバを全て多数側グループ１１に移行させる。メンバを移行させた後、グループ統合部５は、少数側グループ１２を削除する。この結果、テキスト“１”，“２”，“３”，“４”，“５”，“６”をメンバとする統合後のグループ１３が得られる（図５参照）。

統合の際、グループ統合部５は、多数側グループ１１の代表テキストを変更しない。従って、統合後のグループ１３の代表テキストは、多数側グループ１１の代表テキストと同一である。また、上記のように統合を行うことで、グループが異なれば、代表テキストも異なるという状態は保たれる。

また、ステップＳ３において、１つのグループ（グループＸとする。）のメンバのうち、予め定められた所定割合以上のメンバが他のグループのメンバである場合、グループ統合部５は、グループＸを削除してもよい。図６は、所定割合以上のメンバが他のグループのメンバとなっているグループを削除する例を示す模式図である。図５に示す場合と同様に、楕円はグループを表す。また、楕円内の数字は、グループに属するメンバ（テキスト）のＩＤである。楕円の上側に示した数字は、代表テキストのＩＤである。本例では、上記の所定割合が１００％である場合を例にして説明する。

図６に示すグループ１６のメンバ数は５である。そして、グループ１６に属する５個のメンバは、全てグループ１５のメンバにも該当している。従って、グループ１６の１００％のメンバが他のグループ１５のメンバに該当している。よって、グループ統合部５は、グループ１６を削除する。

なお、上記の所定割合は１００％でなくてもよい。例えば、上記の所定割合が９８％であるとする。この場合、あるグループＸのメンバのうち、そのメンバ数の９８％以上のメンバが他のグループに属している場合、グループ統合部５は、グループＸを削除する。

統合される２つのグループが存在しなくなったならば、グループ統合部５は、その時点で残っているグループ毎に、代表テキストおよびグループのメンバとなる各テキストを、グループ記憶部６に記憶させる。

なお、以上の説明では、グループ化の対象となる複数のテキストが予めテキスト記憶部２に記憶されている場合を例にして説明した。グループ化の対象となる複数のテキストが外部から入力インタフェースを介して入力され、それらのテキストを対象として、処理を開始してもよい。この点は、後述の各実施形態においても同様である。

図５に示すグループ１１，１２が初期グループであるとする。図５に示す例において、テキスト“６”は、テキスト“２”を代表テキストとするグループ１１のメンバでない。従って、テキスト“６”はテキスト“２”を含意しないと判定されていたことになる。しかし、グループ１１，１２の類似度が高く、グループ統合部５がグループ１１，１２を統合すると判定した場合には、テキスト“６”は意味的にテキスト“２”を含意していると考えられる。本実施形態では、そのような場合、グループ統合部５がグループ１１，１２を統合し、テキスト“２”を代表テキストとする統合後のグループ１３のメンバの中に、テキスト“６”を含めている。従って、統合後のグループ１３からは、テキスト“６”はテキスト“２”を含意していると判断することができる。このように、本実施形態によれば、含意関係があると判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができる

また、本実施形態によれば、各グループにおいて、グループに属するそれぞれのテキストはそのグループの代表テキストを含意している。従って、個々のグループをそれぞれ解釈し、グループの概観を把握することができる。

実施形態２．
図７は、本発明の第２の実施形態のテキスト処理システムの例を示すブロック図である。第１の実施形態と同様の要素については、図１と同一の符号を付して、説明を省略する。第２の実施形態において、テキスト処理システム１は、テキスト記憶部２と、テキスト選別部７と、含意認識部３と、グループ生成部４と、グループ統合部５と、グループ記憶部６とを備える。

テキスト選別部７は、テキスト記憶部２に記憶される各テキストから所定の条件を満たすテキストを選別し、選別したテキストを含意認識部３に入力する。

テキストを選別する際の条件は、例えば、テキスト処理システム１の操作者によって指定される。テキスト処理システム１は、例えば、入力インタフェース（図７において図示略）を介して、テキストを選別する際の条件の入力を受け付ける。

操作者は、テキストの分析目的に合わせて、テキストを選別する際の条件を定め、テキスト処理システム１に入力すればよい。

例えば、アンケートで得られたテキストがテキスト記憶部２に記憶されるとする。そして、アンケートによって集められたテキストのうち、デザインに関する意見を記述したテキストについて操作者が分析したいと考えているとする。この場合、操作者は、例えば、「『design』という単語を含んでいること」という条件をテキスト処理システム１に入力すればよい。すると、テキスト選別部７は、テキスト記憶部２に記憶される各テキストの中から、『design』という単語を含んでいるテキストのみを選別し、そのテキストを含意認識部３に入力する。

含意認識部３は、入力された個々のテキストに対してテキスト間の含意認識を行う。以降の動作は、第１の実施形態における動作と同様であり、説明を省略する。

上記の例では「特定の単語を含んでいること」という条件が指定され場合を例示しているが、テキストを選別する際の条件は、そのような条件に限定されない。

テキスト選別部７は、例えば、テキスト処理プログラムに従って動作するコンピュータのＣＰＵによって実現される。また、テキスト選別部７を含む各要素がそれぞれ別のハードウェアで実現されていてもよい。

第２の実施形態では、第１の実施形態と同様の効果が得られる。さらに、第２の実施形態では、テキスト選別部７が所定の条件を満たすテキストを選別し、含意認識部３、グループ生成部４およびグループ統合部５は、選別されたテキストを対象にして、第１の実施形態と同様の処理（ステップＳ１〜Ｓ３、図４参照）を実行する。従って、グループの統合の結果得られた各グループは、いずれも所定の条件を満たすテキストをメンバとしている。従って、第２の実施形態では、操作者が注目したい内容を含むテキストを絞り込んだ上で、概観を把握しやすいグループを生成することができる。その結果、生成されたグループから、分析目的に合う知見を得られる。

また、第２の実施形態では、テキスト選別部７がテキストを選別してから、第１の実施形態で説明したステップＳ１以降の処理を行う。従って、ステップＳ１以降の処理における計算量を削減することができる。

実施形態３．
図８は、本発明の第３の実施形態のテキスト処理システムの例を示すブロック図である。第１の実施形態と同様の要素については、図１と同一の符号を付して、説明を省略する。第３の実施形態において、テキスト処理システム１は、テキスト記憶部２と、含意認識部３と、グループ生成部４と、グループ統合部５と、グループ記憶部６と、分析部８と、表示部９とを備える。

表示部９は、ディスプレイ装置である。

第３の実施形態では、テキスト記憶部２に記憶されている個々のテキストには、それぞれテキストの属性を表す属性情報が対応づけられている。属性情報の例として、例えば、テキストが得られた年月日を示す情報等が挙げられる。ただし、これは例示であり、属性情報としてどのような情報を用いるかは特に限定されない。テキスト記憶部２は、テキストとその属性情報とを対応付けて記憶しておけばよい。

分析部８は、グループ記憶部６に記憶されているグループ（すなわち、グループ統合部５によるグループの統合後に残ったグループ）の情報を読み出し、そのグループ内のテキストの属性情報に基づいて、そのグループ内のテキストを分析する。

以下、分析部８が実行する分析の例を示す。例えば、分析部８は、グループ記憶部６から、各グループの代表テキストおよびグループのメンバとなる各テキストを読み出す。また、分析部８は、テキスト記憶部２から各テキストの属性情報を読み出す。そして、分析部８は、属性情報の属性値の区分毎に、対応するテキストの数をカウントする。分析部８は、この処理をグループ毎に行う。すなわち、分析部８は、グループ別、および、属性値の区分別に、テキストのクロス集計を行う。

属性値が、連続的に変化する数値で表される場合、属性値の区分は、属性値の取り得る値を所定間隔で区切ることによって定めればよい。例えば、属性情報が年月日である場合、「２０１４年６月１日〜２０１４年６月３０日」、「２０１４年７月１日〜２０１４年７月３１日」等ように１カ月毎に属性値を区切ることによって、区間を予め定めておけばよい。また、属性値が、連続的に変化する数値ではなく、選択的に選ばれる項目である場合、個々の項目を１つの区分として定めればよい。

図９は、統合後のグループの一例を示す模式図である。図９では、「The item is high price.」というテキストを代表テキストとするグループを示している。テキストの冒頭に示す数字は、テキストのＩＤである。

図９に示す例では、テキストには属性情報として、テキストが得られた月の情報が対応付けられている。本例では、「１月」、「２月」等の個々の月をそれぞれ１つの区分とする。分析部８は、「１月」という区分に対応しているテキストの数を、図９に示すグループ内でカウントする。分析部８は、他の区分（すなわち、他の月）に対応しているテキストの数もそれぞれ、図９に示すグループ内でカウントする。

さらに、分析部８は、他の個々のグループに関しても、同様の処理を行う。そして、分析部８は、グループ別、および、月別にカウントしたテキストの数を表示部９に表示させる。

図１０は、分析部８による分析結果の表示例を示す模式図である。図１０は、クロス集計結果の表示例を示している。図１０に示す例において、１つの行は、１つのグループに対応している。代表テキストはグループ毎に異なるので、代表テキストによってグループを識別することができる。図１０に示す例では、代表テキストを含意するテキストが得られた件数が、月毎にどのように変化しているかを提示することができる。また、分析部８は、図１０に示すように、グループ毎に、グループに属するテキスト数を表示してもよい。

以上の例では、分析部８がクロス集計を行う場合を例に説明したが、分析部８が実行する分析の態様は特に限定されない。例えば、分析部８は、相関分析を実行してもよい。

分析部８は、例えば、テキスト処理プログラムに従って動作するコンピュータのＣＰＵによって実現される。また、テキスト選別部７を含む各要素がそれぞれ別のハードウェアで実現されていてもよい。

第３の実施形態において、テキスト処理システム１に、第２の実施形態で説明したテキスト選別部７が設けられていてもよい。

第３の実施形態のテキスト処理システム１は、代表テキストを含意するテキストのグループと、そのテキストに対応付けられた属性情報とを利用して、グループの分析を行う。従って、グループを参照するだけでは得られなかった知見を得ることができる。

上記の各実施形態におけるグループの統合は、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合する動作であるということもできる。

上記の各実施形態において、グループ統合部５は、以下のようにグループを統合してもよい。

グループ統合部５は、グループ生成後に、個々のテキストに関して、そのテキストをメンバとして含む各グループを検索するためのインデックス情報を作成する。グループ統合部５は、例えば、テキストを含むそれぞれのグループの識別情報をインデックス情報とすればよい。

そして、グループ統合部５は、１つのグループを選択し、そのグループのメンバを含んでいる他の各グループをインデックス情報を参照して特定する。グループ統合部５は、特定した各グループと、選択したグループとが条件を満たせば、特定したグループと選択したグループとを統合する。グループ統合部５は、この処理を、統合されるグループが存在しなくなるまで繰り返す。上記の条件として、例えば、前述の各実施形態と同様に、グループ同士のメンバの重複の度合いに基づくグループの類似度（例えば、Ｊａｃｃａｒｄ係数）が閾値以上であるという条件を用いてもよい。また、グループ統合部５は、本例でグループの統合を行う場合、例えば、選択したグループのメンバを含んでいる他のグループのメンバであって、選択したグループのメンバではないメンバを、選択したグループに移行させ、当該他のグループを削除してもよい。

本例のようなグループの統合も、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合する動作であるといえる。

図１１は、本発明の各実施形態に係るコンピュータの構成例を示す概略ブロック図である。コンピュータ１０００は、ＣＰＵ１００１と、主記憶装置１００２と、補助記憶装置１００３と、インタフェース１００４と、ディスプレイ装置１００５とを備える。

上述のテキスト処理システム１は、コンピュータ１０００に実装される。テキスト処理システム１の動作は、プログラム（テキスト処理プログラム）の形式で補助記憶装置１００３に記憶されている。ＣＰＵ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、そのプログラムに従って上記の処理を実行する。

補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例として、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００がそのプログラムを主記憶装置１００２に展開し、上記の処理を実行してもよい。

また、プログラムは、前述の処理の一部を実現するためのものであってもよい。さらに、プログラムは、補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで前述の処理を実現する差分プログラムであってもよい。

次に、本発明の最小構成について説明する。図１２は、本発明のテキスト処理システムの最小構成の例を示すブロック図である。本発明のテキスト処理システムは、含意認識手段７１と、グループ生成手段７２と、グループ統合手段７３とを備える。

含意認識手段７１（例えば、含意認識部３）は、与えられたテキストに対してテキスト間の含意認識を行う。

グループ生成手段７２（例えば、グループ生成部４）は、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成する。

グループ統合手段７３（例えば、グループ統合部５）は、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合する。

そのような構成により、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係がないと判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができる。

グループ統合手段７３が、異なる２つのグループを選択し、その２つのグループ間のメンバの重複の度合いに基づいてその２つのグループを統合するか否かを判定し、統合すると判定したことを条件にその２つのグループを１つのグループに統合する。グループ統合手段７３は、この処理を、統合される２つのグループが存在しなくなるまで繰り返す構成であってもよい。

また、グループ統合手段７３が、２つのグループを１つのグループに統合するときに、メンバ数が少ない方のグループのメンバのうち、メンバ数が多い方のグループのメンバと重複していないメンバを、メンバ数が多い方のグループに移行させ、メンバ数が少ない方のグループを削除する構成であってもよい。

また、グループ統合手段７３が、テキスト毎に、テキストをメンバとする各グループを検索するためのインデックス情報を作成してもよい。そして、グループ統合手段７３が、１つのグループを選択し、選択したグループのメンバを含んでいる他の各グループをインデックス情報を参照して特定し、特定したグループと選択したグループとが定められた条件を満たせば、特定したグループと選択したグループと統合することを、統合されるグループが存在しなくなるまで繰り返す構成であってもよい。

また、グループ統合手段７３が、１つのグループのメンバのうち所定割合以上のメンバが他のグループのメンバである場合、その１つのグループを削除する構成であってもよい。

また、与えられたテキストから所定の条件を満たすテキストを選別するテキスト選別手段（例えば、テキスト選別部７）を備え、含意認識手段７１が、テキスト選別手段によって選別されたテキスト間の含意認識を行う構成であってもよい。

また、個々のテキストには、予め属性情報が対応付けられ、グループ統合手段７３によるグループの統合後に残ったグループのテキストの属性情報に基づいて、そのグループのテキストを分析する分析手段（例えば、分析部８）を備える構成であってもよい。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

この出願は、２０１４年７月２２日に出願された日本特許出願２０１４−１４８８７２を基礎とする優先権を主張し、その開示の全てをここに取り込む。

産業上の利用の可能性

本発明は、複数のテキストのグループ化に好適に適用可能である。

１テキスト処理システム
２テキスト記憶部
３含意認識部
４グループ生成部
５グループ統合部
６グループ記憶部
７テキスト選別部
８分析部
９表示部

そこで、本発明は、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係があると判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができるテキスト処理システム、テキスト処理方法およびテキスト処理プログラムを提供することを目的とする。

本発明によれば、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係があると判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができる。

そのような構成により、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係があると判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができる。

また、本発明によるテキスト処理方法は、コンピュータが、与えられたテキストに対してテキスト間の含意認識を行い、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成し、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合することを特徴とする。

Claims

与えられたテキストに対してテキスト間の含意認識を行う含意認識手段と、
個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成するグループ生成手段と、
グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合するグループ統合手段とを備える
ことを特徴とするテキスト処理システム。
グループ統合手段は、
異なる２つのグループを選択し、前記２つのグループ間のメンバの重複の度合いに基づいて前記２つのグループを統合するか否かを判定し、統合すると判定したことを条件に前記２つのグループを１つのグループに統合することを、統合される２つのグループが存在しなくなるまで繰り返す
請求項１に記載のテキスト処理システム。
グループ統合手段は、
２つのグループを１つのグループに統合するときに、メンバ数が少ない方のグループのメンバのうち、メンバ数が多い方のグループのメンバと重複していないメンバを、前記メンバ数が多い方のグループに移行させ、前記メンバ数が少ない方のグループを削除する
請求項２に記載のテキスト処理システム。
グループ統合手段は、
テキスト毎に、テキストをメンバとする各グループを検索するためのインデックス情報を作成し、
１つのグループを選択し、選択したグループのメンバを含んでいる他の各グループを前記インデックス情報を参照して特定し、特定したグループと選択したグループとが定められた条件を満たせば、特定したグループと選択したグループと統合することを、統合されるグループが存在しなくなるまで繰り返す
請求項１に記載のテキスト処理システム。
グループ統合手段は、
１つのグループのメンバのうち所定割合以上のメンバが他のグループのメンバである場合、前記１つのグループを削除する
請求項１から請求項４のうちのいずれか１項に記載のテキスト処理システム。
与えられたテキストから所定の条件を満たすテキストを選別するテキスト選別手段を備え、
含意認識手段は、
前記テキスト選別手段によって選別されたテキスト間の含意認識を行う
請求項１から請求項５のうちのいずれか１項に記載のテキスト処理システム。
個々のテキストには、予め属性情報が対応付けられ、
グループ統合手段によるグループの統合後に残ったグループのテキストの属性情報に基づいて、前記グループのテキストを分析する分析手段を備える
請求項１から請求項６のうちのいずれか１項に記載のテキスト処理システム。
与えられたテキストに対してテキスト間の含意認識を行い、
個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成し、
グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合する
ことを特徴とするテキスト処理方法。
コンピュータに、
与えられたテキストに対してテキスト間の含意認識を行う含意認識処理、
個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成するグループ生成処理、および、
グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合するグループ統合処理
を実行させるためのテキスト処理プログラム。