JPWO2016013175A1 - テキスト処理システム、テキスト処理方法およびテキスト処理プログラム - Google Patents
テキスト処理システム、テキスト処理方法およびテキスト処理プログラム Download PDFInfo
- Publication number
- JPWO2016013175A1 JPWO2016013175A1 JP2016521798A JP2016521798A JPWO2016013175A1 JP WO2016013175 A1 JPWO2016013175 A1 JP WO2016013175A1 JP 2016521798 A JP2016521798 A JP 2016521798A JP 2016521798 A JP2016521798 A JP 2016521798A JP WO2016013175 A1 JPWO2016013175 A1 JP WO2016013175A1
- Authority
- JP
- Japan
- Prior art keywords
- group
- text
- members
- texts
- groups
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係がないと判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができるテキスト処理システムを提供する。含意認識手段71は、与えられたテキストに対してテキスト間の含意認識を行う。グループ生成手段72は、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成する。グループ統合手段73は、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合する。
Description
本発明は、テキストをグループ化するテキスト処理システム、テキスト処理方法およびテキスト処理プログラムに関する。
テキストに対する処理の一つとして含意認識がある。含意認識の例が非特許文献1に記載されている。
含意認識は、“A”、“B”をそれぞれテキストとした場合に、「AはBを含意する。」という関係の有無を判定する処理である。また、「AはBを含意する。」とは、Aが真であるならばBも真であることである。以下、1つのテキストが他のテキストを含意する関係を、含意関係と呼ぶ場合がある。
非特許文献1に記載された含意認識の方法は、単語の重要度を考慮し、テキストB内の単語の重要度の総和と、テキストA側で意味的に出現している単語の重要度の和とを求め、前者に対する後者の割合が閾値以上であれば、AはBを含意するとみなす方法である。
非特許文献1の他に、含意認識の例は、非特許文献2,3等にも記載されている。
また、テキストをグループ化する方法として、テキスト内で使用されている単語の類似性に基づいてテキストをクラスタリングする方法が考えられる。
Masaaki Tsuchida, Kai Ishikawa, "IKOMA at TAC2011: A Method for Recognizing Textual Entailment using Lexical-level and Sentence Structure-level features", [online], [2014年7月10日検索]、インターネット<URL:http://www.nist.gov/tac/publications/2011/participant.papers/IKOMA.proceedings.pdf>
Alexander Volokh, 外2名、"Combining Deterministic Dependency Parsing and Linear Classification for Robust RTE", [online], [2014年7月10日検索]、インターネット<URL:http://www.nist.gov/tac/publications/2010/participant.papers/DFKI.proceedings.pdf>
Alexander Volokh, 外1名、"Using MT-Based Metrics for RTE", [online], [2014年7月10日検索]、インターネット<URL:http://www.nist.gov/tac/publications/2011/participant.papers/DFKI.proceedings.pdf>
含意認識に、言い換えルールを適用することが考えられる。例えば、図13に例示する5つのテキストを対象に含意認識を行うとする。なお、図13において、テキストの前に示す数字は、テキストのIDである。本例において、AがBを含意するか否かを判定する際に、Bに相当するテキストに言い換えルールを適用して文言を言い換え、Bに相当するテキストの全ての内容語が、Aに相当するテキストに出現していれば、AはBを含意すると判定する。また、言い換えルールとして、以下の言い換えルールが存在しているとする。
[言い換えルール]
「premier」を「prime minister」に言い換える。
「“X” cabinet starts」を「“X” is premier」に言い換える。
「premier」を「prime minister」に言い換える。
「“X” cabinet starts」を「“X” is premier」に言い換える。
この場合、テキスト1,2,4,5がそれぞれテキスト2を含意しているという結果や、テキスト1,2,3,4,5がそれぞれテキスト3を含意しているという結果等が得られる。ここで、テキストの意味を考慮すれば、テキスト3はテキスト2を含意していると言えるが、テキスト3がテキスト2を含意しているという判定はなされない。この場合、例えば、上記の言い換えルールに、さらに以下の言い換えルールを追加すれば、テキスト3がテキスト2を含意しているという判定がなされる。
[言い換えルール]
「Premier is “A”」を「“A” cabinet starts」に言い換える。
「Premier is “A”」を「“A” cabinet starts」に言い換える。
このように、言い換えルールを追加することで、含意認識の精度も向上する。しかし、含意認識の精度を向上させるためには、言い換えルールを増加させなければならず、言い換えルールを準備する負担が大きくなる。
また、同じ意味を含むテキストを同じグループと解釈して、そのグループを通してテキストの概観を把握できることが好ましい。
ここで、含意認識の結果、含意関係を有していないと判定されたテキストの組であっても、意味的には含意関係があれば、同じグループに含めることが好ましい。
グループ内の各テキストを参照しても、そのグループを解釈できなければ、グループの概観を把握できない。テキスト内で使用されている単語の類似性に基づいてテキストをクラスタリングする方法では、概観を把握できないクラスタが生成されがちである。図14は、単語の類似性に基づいてテキストをクラスタリングした場合に得られたクラスタの一例を示す模式図である。図14に示すように、単に単語の類似性に基づいてクラスタリングした結果得られたクラスタでは、特に読み取れる知見はない。
そこで、本発明は、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係がないと判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができるテキスト処理システム、テキスト処理方法およびテキスト処理プログラムを提供することを目的とする。
本発明によるテキスト処理システムは、与えられたテキストに対してテキスト間の含意認識を行う含意認識手段と、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成するグループ生成手段と、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合するグループ統合手段とを備えることを特徴とする。
また、本発明によるテキスト処理方法は、与えられたテキストに対してテキスト間の含意認識を行い、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成し、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合することを特徴とする。
また、本発明によるテキスト処理プログラムは、コンピュータに、与えられたテキストに対してテキスト間の含意認識を行う含意認識処理、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成するグループ生成処理、および、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合するグループ統合処理を実行させることを特徴とする。
本発明によれば、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係がないと判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができる。
以下、図面を参照して本発明の実施形態を説明する。
実施形態1.
図1は、本発明の第1の実施形態のテキスト処理システムの例を示すブロック図である。第1の実施形態において、テキスト処理システム1は、テキスト記憶部2と、含意認識部3と、グループ生成部4と、グループ統合部5と、グループ記憶部6とを備える。
図1は、本発明の第1の実施形態のテキスト処理システムの例を示すブロック図である。第1の実施形態において、テキスト処理システム1は、テキスト記憶部2と、含意認識部3と、グループ生成部4と、グループ統合部5と、グループ記憶部6とを備える。
テキスト記憶部2は、グループ化の対象となる複数のテキストを予め記憶する記憶装置である。
テキスト記憶部2に記憶される個々のテキスト(すなわち、グループ化の対象となる個々のテキスト)にはそれぞれIDが予め割り当てられ、付加されている。文字列が一致しているテキストであっても、テキストの出処が異なっていれば、異なるIDが割り当てられる。例えば、アンケートで得られたテキストがテキスト記憶部2に記憶されるとする。そして、「The item is high price.」という全く同じ文字列のテキストが5人の人から別々に得られていたとする。この場合、5人から得られた「The item is high price.」という5つのテキストに対して別々のIDが割り当てられる。IDが異なるテキストは、文字列が共通であったとしても、別々のテキストとして扱われる。なお、本例では、アンケートで得られたテキストがテキスト記憶部2に記憶される場合を例にして説明したが、テキスト記憶部2が記憶するテキストの収集態様は特に限定されない。例えば、コールセンタに寄せられた意見を表すテキストをテキスト記憶部2に記憶させてもよい。
以下、説明を簡単にするため、テキストのIDを“1”,“2”,“3”,・・・等の数字で表すが、IDの表記は数字に限定されない。また、以下の説明では、ID“n”のテキストを、テキスト“n”と記す。
含意認識部3は、テキスト記憶部2に記憶される個々のテキストに対してテキスト間の含意認識を行う。
具体的には、含意認識部3は、2つのテキストからなるテキストの組を全て定める。含意認識部3は、2つのテキストからなる組を定めるときに、その2つのテキストに順番を定め、その2つのテキストのどちらを先にするかによって、その2つのテキストからなる組を別々に定める。例えば、含意認識部3は、(1,2)という組と、(2,1)という組とをそれぞれ別の組として定める。なお、括弧はテキストの組を表し、括弧内の数字はテキストのIDを表しているものとする。テキストの組において、1番目のテキストを第1テキストと記し、2番目のテキストを第2テキストと記す。
含意認識部3は、IDが同一のテキストを2つ重複して含む組も定める。例えば、含意認識部3は、(1,1)、(2,2)等の組もそれぞれ定める。この場合、IDが同一であるので、IDの順番を入れ替えた組を作成すると同一の組が重複して作成されることになるが、含意認識部3は、そのような重複する組は作成しない。
含意認識部3は、上記のように各組を定めた上で、組毎に含意認識を行う。すなわち、含意認識部3は、組毎に、第1テキストが第2テキストを含意するという関係があるか否かを判定する。含意認識の方法は特に限定されず、含意認識は、公知の方法でもよい。例えば、含意認識部3は、非特許文献1、非特許文献2あるいは非特許文献3に記載された方法で含意認識を行ってもよい。
図2は、含意認識部3による含意認識の結果の例を示す模式図である。図2では、テキストをIDによって表している。図2に示す例では、第1テキストが第2テキストを含意するという含意関係がある場合、第1テキストから第2テキストに向かう矢印によって含意関係があることを模式的に示している。含意関係がない場合には、第1テキストから第2テキストに向かう矢印を示さないことによって、含意関係がないことを表している。例えば、図2に示す例では、(1,3)という組において、「“1”は“3”を含意する。」という含意関係があることを表している。また、図2に示す例では、(2,3)という組において、「“2”は“3”を含意する。」という含意関係がないことを表している。また、(1,1)、(2,2)等のように、IDが同一のテキストを2つ重複して含む組では、第1テキストが第2テキストを含意するという含意関係があると判定される(図2参照)。
グループ生成部4は、個々のテキストを一つずつ選択し、選択したテキストを含意するテキストをメンバとするテキストのグループを生成する。従って、グループ生成部4によって生成されるグループの数は、テキストの数と一致する。以下、選択されたテキストを代表テキストと記す場合がある。グループ生成部4は、個々のテキストを代表テキストとして、代表テキストを含意するテキストをメンバとするテキストのグループを生成する、ということもできる。
例えば、図2に例示する含意認識結果が得られているとする。この場合、グループ生成部4は、テキスト“3”を選択したときには、そのテキストを代表テキストとして、テキスト“1”、テキスト“3”等をメンバとするグループを生成する。代表テキストも、その代表テキストに対応するグループのメンバに該当する。また、グループが異なれば、代表テキストも異なる。
グループ生成部4がグループを生成するときに、あるテキストが、複数のグループのメンバとなってよい。例えば、テキスト“1”が複数のグループのメンバとなってよい。他のIDのテキストに関しても同様である。
グループ生成部4によって生成されるグループは、グループ統合部5によって統合される前の初期状態のグループである。よって、グループ生成部4によって生成されるグループを初期グループと称してもよい。
図3は、初期グループの例を示す模式図である。図3において、楕円はグループを表し、楕円内のテキストは、グループに属しているテキストを表している。また、楕円の上側に示したテキストは、代表テキストである。図3では、テキストのIDの図示を省略している。グループ生成部4は、個々のテキストをそれぞれ代表テキストとするため、初期グループ生成時には、グループの冗長性が高い。図3に示す例では、「The item is expensive.」というテキストを代表テキストとするグループと、「The item is high price.」というテキストを代表とするグループとは、同様のメンバを持つ類似したグループである。グループ生成部4が各初期グループを生成した時点では、このような互いに類似したグループが複数生成されている。
グループ統合部5は、類似しているグループを統合することによって、グループの冗長性を排除する。
グループ統合部5は、異なる2つのグループを選択し、その2つのグループのメンバの重複の度合いに基づいてその2つのグループを統合するか否かを判定し、統合すると判定したことを条件にその2つのグループを1つのグループに統合する。グループ統合部5は、この動作を、統合される2つのグループが存在しなくなるまで繰り返す。グループ統合部5のより具体的な処理については後述する。
グループ記憶部6は、統合後に残ったグループの情報を記憶する記憶装置である。グループ統合部5は、例えば、統合後に残ったグループ毎に、代表テキストおよびグループのメンバとなる各テキストを、グループ記憶部6に記憶させる。
含意認識部3、グループ生成部4およびグループ統合部5は、例えば、テキスト処理プログラムに従って動作するコンピュータのCPUによって実現される。この場合、CPUは、例えば、コンピュータのプログラム記憶装置(図1において図示略)等のプログラム記録媒体からテキスト処理プログラムを読み込み、そのテキスト処理プログラムに従って、含意認識部3、グループ生成部4およびグループ統合部5として動作すればよい。また、含意認識部3、グループ生成部4およびグループ統合部5がそれぞれ別のハードウェアによって実現されていてもよい。
テキスト処理システム1は、2つ以上の物理的に分離した装置が有線または無線で接続されている構成であってもよい。この点は、後述の各実施形態においても同様である。
次に、処理経過について説明する。図4は、本発明の第1の実施形態の処理経過の例を示すフローチャートである。
含意認識部3は、テキスト記憶部2に記憶される各テキストを読み出し、それらのテキストに対してテキスト間の含意認識を行う(ステップS1)。含意認識部3は、既に説明したように、テキストの組を全て定め、組毎に、第1テキストが第2テキストを含意するという関係があるか否かを判定する。含意認識の方法は、特に限定されない。
次に、グループ生成部4は、初期グループを生成する(ステップS2)。すなわち、グループ生成部4は、個々のテキストを一つずつ選択し、選択したテキストを含意するテキストをメンバとするテキストのグループを生成する。
次に、グループ統合部5は、類似しているグループを統合する(ステップS3)。前述のように、グループ統合部5は、異なる2つのグループを選択し、その2つのグループのメンバの重複の度合いに基づいてその2つのグループを統合するか否かを判定し、統合すると判定したことを条件にその2つのグループを1つのグループに統合する。グループ統合部5は、この動作を、統合される2つのグループが存在しなくなるまで繰り返す。
ステップS3の処理について、より具体的に説明する。
グループ統合部5は、2つのグループのメンバの重複の度合いに基づいてその2つのグループを統合するか否かを判定する処理を、例えば、以下のように行えばよい。グループ統合部5は、2つのグループのJaccard係数を算出し、Jaccard係数が、予め定められた閾値以上であればその2つのグループを統合すると判定し、Jaccard係数が閾値未満であればその2つのグループを統合しないと判定してもよい。グループ統合部5は、以下の式(1)の計算によってJaccard係数を算出すればよい。
式(1)において、P,Qはそれぞれグループを表している。CはJaccard係数である。グループ統合部5は、2つのグループの積集合に属するメンバの数を、2つのグループの和集合に属するメンバの数で除算することによって、Jaccard係数を算出すればよい。
Jaccard係数は、グループ同士のメンバの重複の度合いに基づくグループの類似度であるということができる。グループ統合部5は、このような類似度を、式(1)以外の計算で算出してもよい。このような類似度の他の例として、ダイス係数、シンプソン係数、コサイン類似度等が挙げられる。
また、グループ統合部5は、2つのグループを統合すると判定し、その2つのグループを1つのグループに統合する場合、例えば、以下のような処理を行えばよい。グループ統合部5は、その2つのグループのうち、メンバ数が少ない方のグループを削除するグループとして決定し、メンバ数が多い方のグループを統合の結果残すグループとして決定する。以下、メンバ数が少ない方のグループを少数側グループと記し、メンバ数が多い方のグループを多数側グループと記す場合がある。なお、2つのグループのメンバ数が同数である場合、グループ統合部5は、どちらを少数側グループとして決定してもよい。グループ統合部5は、少数側グループのメンバのうち、多数側グループのメンバと重複していないメンバを、多数側グループに移行させ、少数側グループを削除する。
図5は、統合の例を示す模式図である。図3に示す場合と同様に、楕円はグループを表す。図5において、楕円内の数字は、グループに属するメンバ(テキスト)のIDである。また、楕円の上側に示した数字は、代表テキストのIDである。また、図5に示す例では、グループ11のメンバ数が、グループ12のメンバ数よりも多い。従って、グループ11が多数側グループであり、グループ12が少数側グループである。少数側グループ12のメンバのうち、多数側グループ11のメンバと重複していないメンバは、テキスト“6”である。従って、グループ統合部5は、少数側グループ12のテキスト“6”を多数側グループ11に移行させる。この結果、テキスト“6”は多数側グループ11のメンバとなる。なお、少数側グループ12のメンバのうち、多数側グループ11のメンバと重複していないメンバが複数存在していれば、グループ統合部5は、それらのメンバを全て多数側グループ11に移行させる。メンバを移行させた後、グループ統合部5は、少数側グループ12を削除する。この結果、テキスト“1”,“2”,“3”,“4”,“5”,“6”をメンバとする統合後のグループ13が得られる(図5参照)。
統合の際、グループ統合部5は、多数側グループ11の代表テキストを変更しない。従って、統合後のグループ13の代表テキストは、多数側グループ11の代表テキストと同一である。また、上記のように統合を行うことで、グループが異なれば、代表テキストも異なるという状態は保たれる。
また、ステップS3において、1つのグループ(グループXとする。)のメンバのうち、予め定められた所定割合以上のメンバが他のグループのメンバである場合、グループ統合部5は、グループXを削除してもよい。図6は、所定割合以上のメンバが他のグループのメンバとなっているグループを削除する例を示す模式図である。図5に示す場合と同様に、楕円はグループを表す。また、楕円内の数字は、グループに属するメンバ(テキスト)のIDである。楕円の上側に示した数字は、代表テキストのIDである。本例では、上記の所定割合が100%である場合を例にして説明する。
図6に示すグループ16のメンバ数は5である。そして、グループ16に属する5個のメンバは、全てグループ15のメンバにも該当している。従って、グループ16の100%のメンバが他のグループ15のメンバに該当している。よって、グループ統合部5は、グループ16を削除する。
なお、上記の所定割合は100%でなくてもよい。例えば、上記の所定割合が98%であるとする。この場合、あるグループXのメンバのうち、そのメンバ数の98%以上のメンバが他のグループに属している場合、グループ統合部5は、グループXを削除する。
統合される2つのグループが存在しなくなったならば、グループ統合部5は、その時点で残っているグループ毎に、代表テキストおよびグループのメンバとなる各テキストを、グループ記憶部6に記憶させる。
なお、以上の説明では、グループ化の対象となる複数のテキストが予めテキスト記憶部2に記憶されている場合を例にして説明した。グループ化の対象となる複数のテキストが外部から入力インタフェースを介して入力され、それらのテキストを対象として、処理を開始してもよい。この点は、後述の各実施形態においても同様である。
図5に示すグループ11,12が初期グループであるとする。図5に示す例において、テキスト“6”は、テキスト“2”を代表テキストとするグループ11のメンバでない。従って、テキスト“6”はテキスト“2”を含意しないと判定されていたことになる。しかし、グループ11,12の類似度が高く、グループ統合部5がグループ11,12を統合すると判定した場合には、テキスト“6”は意味的にテキスト“2”を含意していると考えられる。本実施形態では、そのような場合、グループ統合部5がグループ11,12を統合し、テキスト“2”を代表テキストとする統合後のグループ13のメンバの中に、テキスト“6”を含めている。従って、統合後のグループ13からは、テキスト“6”はテキスト“2”を含意していると判断することができる。このように、本実施形態によれば、含意関係があると判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができる
また、本実施形態によれば、各グループにおいて、グループに属するそれぞれのテキストはそのグループの代表テキストを含意している。従って、個々のグループをそれぞれ解釈し、グループの概観を把握することができる。
実施形態2.
図7は、本発明の第2の実施形態のテキスト処理システムの例を示すブロック図である。第1の実施形態と同様の要素については、図1と同一の符号を付して、説明を省略する。第2の実施形態において、テキスト処理システム1は、テキスト記憶部2と、テキスト選別部7と、含意認識部3と、グループ生成部4と、グループ統合部5と、グループ記憶部6とを備える。
図7は、本発明の第2の実施形態のテキスト処理システムの例を示すブロック図である。第1の実施形態と同様の要素については、図1と同一の符号を付して、説明を省略する。第2の実施形態において、テキスト処理システム1は、テキスト記憶部2と、テキスト選別部7と、含意認識部3と、グループ生成部4と、グループ統合部5と、グループ記憶部6とを備える。
テキスト選別部7は、テキスト記憶部2に記憶される各テキストから所定の条件を満たすテキストを選別し、選別したテキストを含意認識部3に入力する。
テキストを選別する際の条件は、例えば、テキスト処理システム1の操作者によって指定される。テキスト処理システム1は、例えば、入力インタフェース(図7において図示略)を介して、テキストを選別する際の条件の入力を受け付ける。
操作者は、テキストの分析目的に合わせて、テキストを選別する際の条件を定め、テキスト処理システム1に入力すればよい。
例えば、アンケートで得られたテキストがテキスト記憶部2に記憶されるとする。そして、アンケートによって集められたテキストのうち、デザインに関する意見を記述したテキストについて操作者が分析したいと考えているとする。この場合、操作者は、例えば、「『design』という単語を含んでいること」という条件をテキスト処理システム1に入力すればよい。すると、テキスト選別部7は、テキスト記憶部2に記憶される各テキストの中から、『design』という単語を含んでいるテキストのみを選別し、そのテキストを含意認識部3に入力する。
含意認識部3は、入力された個々のテキストに対してテキスト間の含意認識を行う。以降の動作は、第1の実施形態における動作と同様であり、説明を省略する。
上記の例では「特定の単語を含んでいること」という条件が指定され場合を例示しているが、テキストを選別する際の条件は、そのような条件に限定されない。
テキスト選別部7は、例えば、テキスト処理プログラムに従って動作するコンピュータのCPUによって実現される。また、テキスト選別部7を含む各要素がそれぞれ別のハードウェアで実現されていてもよい。
第2の実施形態では、第1の実施形態と同様の効果が得られる。さらに、第2の実施形態では、テキスト選別部7が所定の条件を満たすテキストを選別し、含意認識部3、グループ生成部4およびグループ統合部5は、選別されたテキストを対象にして、第1の実施形態と同様の処理(ステップS1〜S3、図4参照)を実行する。従って、グループの統合の結果得られた各グループは、いずれも所定の条件を満たすテキストをメンバとしている。従って、第2の実施形態では、操作者が注目したい内容を含むテキストを絞り込んだ上で、概観を把握しやすいグループを生成することができる。その結果、生成されたグループから、分析目的に合う知見を得られる。
また、第2の実施形態では、テキスト選別部7がテキストを選別してから、第1の実施形態で説明したステップS1以降の処理を行う。従って、ステップS1以降の処理における計算量を削減することができる。
実施形態3.
図8は、本発明の第3の実施形態のテキスト処理システムの例を示すブロック図である。第1の実施形態と同様の要素については、図1と同一の符号を付して、説明を省略する。第3の実施形態において、テキスト処理システム1は、テキスト記憶部2と、含意認識部3と、グループ生成部4と、グループ統合部5と、グループ記憶部6と、分析部8と、表示部9とを備える。
図8は、本発明の第3の実施形態のテキスト処理システムの例を示すブロック図である。第1の実施形態と同様の要素については、図1と同一の符号を付して、説明を省略する。第3の実施形態において、テキスト処理システム1は、テキスト記憶部2と、含意認識部3と、グループ生成部4と、グループ統合部5と、グループ記憶部6と、分析部8と、表示部9とを備える。
表示部9は、ディスプレイ装置である。
第3の実施形態では、テキスト記憶部2に記憶されている個々のテキストには、それぞれテキストの属性を表す属性情報が対応づけられている。属性情報の例として、例えば、テキストが得られた年月日を示す情報等が挙げられる。ただし、これは例示であり、属性情報としてどのような情報を用いるかは特に限定されない。テキスト記憶部2は、テキストとその属性情報とを対応付けて記憶しておけばよい。
分析部8は、グループ記憶部6に記憶されているグループ(すなわち、グループ統合部5によるグループの統合後に残ったグループ)の情報を読み出し、そのグループ内のテキストの属性情報に基づいて、そのグループ内のテキストを分析する。
以下、分析部8が実行する分析の例を示す。例えば、分析部8は、グループ記憶部6から、各グループの代表テキストおよびグループのメンバとなる各テキストを読み出す。また、分析部8は、テキスト記憶部2から各テキストの属性情報を読み出す。そして、分析部8は、属性情報の属性値の区分毎に、対応するテキストの数をカウントする。分析部8は、この処理をグループ毎に行う。すなわち、分析部8は、グループ別、および、属性値の区分別に、テキストのクロス集計を行う。
属性値が、連続的に変化する数値で表される場合、属性値の区分は、属性値の取り得る値を所定間隔で区切ることによって定めればよい。例えば、属性情報が年月日である場合、「2014年6月1日〜2014年6月30日」、「2014年7月1日〜2014年7月31日」等ように1カ月毎に属性値を区切ることによって、区間を予め定めておけばよい。また、属性値が、連続的に変化する数値ではなく、選択的に選ばれる項目である場合、個々の項目を1つの区分として定めればよい。
図9は、統合後のグループの一例を示す模式図である。図9では、「The item is high price.」というテキストを代表テキストとするグループを示している。テキストの冒頭に示す数字は、テキストのIDである。
図9に示す例では、テキストには属性情報として、テキストが得られた月の情報が対応付けられている。本例では、「1月」、「2月」等の個々の月をそれぞれ1つの区分とする。分析部8は、「1月」という区分に対応しているテキストの数を、図9に示すグループ内でカウントする。分析部8は、他の区分(すなわち、他の月)に対応しているテキストの数もそれぞれ、図9に示すグループ内でカウントする。
さらに、分析部8は、他の個々のグループに関しても、同様の処理を行う。そして、分析部8は、グループ別、および、月別にカウントしたテキストの数を表示部9に表示させる。
図10は、分析部8による分析結果の表示例を示す模式図である。図10は、クロス集計結果の表示例を示している。図10に示す例において、1つの行は、1つのグループに対応している。代表テキストはグループ毎に異なるので、代表テキストによってグループを識別することができる。図10に示す例では、代表テキストを含意するテキストが得られた件数が、月毎にどのように変化しているかを提示することができる。また、分析部8は、図10に示すように、グループ毎に、グループに属するテキスト数を表示してもよい。
以上の例では、分析部8がクロス集計を行う場合を例に説明したが、分析部8が実行する分析の態様は特に限定されない。例えば、分析部8は、相関分析を実行してもよい。
分析部8は、例えば、テキスト処理プログラムに従って動作するコンピュータのCPUによって実現される。また、テキスト選別部7を含む各要素がそれぞれ別のハードウェアで実現されていてもよい。
第3の実施形態において、テキスト処理システム1に、第2の実施形態で説明したテキスト選別部7が設けられていてもよい。
第3の実施形態のテキスト処理システム1は、代表テキストを含意するテキストのグループと、そのテキストに対応付けられた属性情報とを利用して、グループの分析を行う。従って、グループを参照するだけでは得られなかった知見を得ることができる。
上記の各実施形態におけるグループの統合は、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合する動作であるということもできる。
上記の各実施形態において、グループ統合部5は、以下のようにグループを統合してもよい。
グループ統合部5は、グループ生成後に、個々のテキストに関して、そのテキストをメンバとして含む各グループを検索するためのインデックス情報を作成する。グループ統合部5は、例えば、テキストを含むそれぞれのグループの識別情報をインデックス情報とすればよい。
そして、グループ統合部5は、1つのグループを選択し、そのグループのメンバを含んでいる他の各グループをインデックス情報を参照して特定する。グループ統合部5は、特定した各グループと、選択したグループとが条件を満たせば、特定したグループと選択したグループとを統合する。グループ統合部5は、この処理を、統合されるグループが存在しなくなるまで繰り返す。上記の条件として、例えば、前述の各実施形態と同様に、グループ同士のメンバの重複の度合いに基づくグループの類似度(例えば、Jaccard係数)が閾値以上であるという条件を用いてもよい。また、グループ統合部5は、本例でグループの統合を行う場合、例えば、選択したグループのメンバを含んでいる他のグループのメンバであって、選択したグループのメンバではないメンバを、選択したグループに移行させ、当該他のグループを削除してもよい。
本例のようなグループの統合も、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合する動作であるといえる。
図11は、本発明の各実施形態に係るコンピュータの構成例を示す概略ブロック図である。コンピュータ1000は、CPU1001と、主記憶装置1002と、補助記憶装置1003と、インタフェース1004と、ディスプレイ装置1005とを備える。
上述のテキスト処理システム1は、コンピュータ1000に実装される。テキスト処理システム1の動作は、プログラム(テキスト処理プログラム)の形式で補助記憶装置1003に記憶されている。CPU1001は、プログラムを補助記憶装置1003から読み出して主記憶装置1002に展開し、そのプログラムに従って上記の処理を実行する。
補助記憶装置1003は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例として、インタフェース1004を介して接続される磁気ディスク、光磁気ディスク、CD−ROM、DVD−ROM、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ1000に配信される場合、配信を受けたコンピュータ1000がそのプログラムを主記憶装置1002に展開し、上記の処理を実行してもよい。
また、プログラムは、前述の処理の一部を実現するためのものであってもよい。さらに、プログラムは、補助記憶装置1003に既に記憶されている他のプログラムとの組み合わせで前述の処理を実現する差分プログラムであってもよい。
次に、本発明の最小構成について説明する。図12は、本発明のテキスト処理システムの最小構成の例を示すブロック図である。本発明のテキスト処理システムは、含意認識手段71と、グループ生成手段72と、グループ統合手段73とを備える。
含意認識手段71(例えば、含意認識部3)は、与えられたテキストに対してテキスト間の含意認識を行う。
グループ生成手段72(例えば、グループ生成部4)は、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成する。
グループ統合手段73(例えば、グループ統合部5)は、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合する。
そのような構成により、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係がないと判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができる。
グループ統合手段73が、異なる2つのグループを選択し、その2つのグループ間のメンバの重複の度合いに基づいてその2つのグループを統合するか否かを判定し、統合すると判定したことを条件にその2つのグループを1つのグループに統合する。グループ統合手段73は、この処理を、統合される2つのグループが存在しなくなるまで繰り返す構成であってもよい。
また、グループ統合手段73が、2つのグループを1つのグループに統合するときに、メンバ数が少ない方のグループのメンバのうち、メンバ数が多い方のグループのメンバと重複していないメンバを、メンバ数が多い方のグループに移行させ、メンバ数が少ない方のグループを削除する構成であってもよい。
また、グループ統合手段73が、テキスト毎に、テキストをメンバとする各グループを検索するためのインデックス情報を作成してもよい。そして、グループ統合手段73が、1つのグループを選択し、選択したグループのメンバを含んでいる他の各グループをインデックス情報を参照して特定し、特定したグループと選択したグループとが定められた条件を満たせば、特定したグループと選択したグループと統合することを、統合されるグループが存在しなくなるまで繰り返す構成であってもよい。
また、グループ統合手段73が、1つのグループのメンバのうち所定割合以上のメンバが他のグループのメンバである場合、その1つのグループを削除する構成であってもよい。
また、与えられたテキストから所定の条件を満たすテキストを選別するテキスト選別手段(例えば、テキスト選別部7)を備え、含意認識手段71が、テキスト選別手段によって選別されたテキスト間の含意認識を行う構成であってもよい。
また、個々のテキストには、予め属性情報が対応付けられ、グループ統合手段73によるグループの統合後に残ったグループのテキストの属性情報に基づいて、そのグループのテキストを分析する分析手段(例えば、分析部8)を備える構成であってもよい。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2014年7月22日に出願された日本特許出願2014−148872を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本発明は、複数のテキストのグループ化に好適に適用可能である。
1 テキスト処理システム
2 テキスト記憶部
3 含意認識部
4 グループ生成部
5 グループ統合部
6 グループ記憶部
7 テキスト選別部
8 分析部
9 表示部
2 テキスト記憶部
3 含意認識部
4 グループ生成部
5 グループ統合部
6 グループ記憶部
7 テキスト選別部
8 分析部
9 表示部
そこで、本発明は、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係があると判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができるテキスト処理システム、テキスト処理方法およびテキスト処理プログラムを提供することを目的とする。
本発明によれば、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係があると判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができる。
そのような構成により、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係があると判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができる。
また、本発明によるテキスト処理方法は、コンピュータが、与えられたテキストに対してテキスト間の含意認識を行い、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成し、グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合することを特徴とする。
Claims (9)
- 与えられたテキストに対してテキスト間の含意認識を行う含意認識手段と、
個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成するグループ生成手段と、
グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合するグループ統合手段とを備える
ことを特徴とするテキスト処理システム。 - グループ統合手段は、
異なる2つのグループを選択し、前記2つのグループ間のメンバの重複の度合いに基づいて前記2つのグループを統合するか否かを判定し、統合すると判定したことを条件に前記2つのグループを1つのグループに統合することを、統合される2つのグループが存在しなくなるまで繰り返す
請求項1に記載のテキスト処理システム。 - グループ統合手段は、
2つのグループを1つのグループに統合するときに、メンバ数が少ない方のグループのメンバのうち、メンバ数が多い方のグループのメンバと重複していないメンバを、前記メンバ数が多い方のグループに移行させ、前記メンバ数が少ない方のグループを削除する
請求項2に記載のテキスト処理システム。 - グループ統合手段は、
テキスト毎に、テキストをメンバとする各グループを検索するためのインデックス情報を作成し、
1つのグループを選択し、選択したグループのメンバを含んでいる他の各グループを前記インデックス情報を参照して特定し、特定したグループと選択したグループとが定められた条件を満たせば、特定したグループと選択したグループと統合することを、統合されるグループが存在しなくなるまで繰り返す
請求項1に記載のテキスト処理システム。 - グループ統合手段は、
1つのグループのメンバのうち所定割合以上のメンバが他のグループのメンバである場合、前記1つのグループを削除する
請求項1から請求項4のうちのいずれか1項に記載のテキスト処理システム。 - 与えられたテキストから所定の条件を満たすテキストを選別するテキスト選別手段を備え、
含意認識手段は、
前記テキスト選別手段によって選別されたテキスト間の含意認識を行う
請求項1から請求項5のうちのいずれか1項に記載のテキスト処理システム。 - 個々のテキストには、予め属性情報が対応付けられ、
グループ統合手段によるグループの統合後に残ったグループのテキストの属性情報に基づいて、前記グループのテキストを分析する分析手段を備える
請求項1から請求項6のうちのいずれか1項に記載のテキスト処理システム。 - 与えられたテキストに対してテキスト間の含意認識を行い、
個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成し、
グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合する
ことを特徴とするテキスト処理方法。 - コンピュータに、
与えられたテキストに対してテキスト間の含意認識を行う含意認識処理、
個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成するグループ生成処理、および、
グループ間のメンバの重複の度合いに基づく所定の条件を満たす場合にグループを統合するグループ統合処理
を実行させるためのテキスト処理プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014148872 | 2014-07-22 | ||
JP2014148872 | 2014-07-22 | ||
PCT/JP2015/003502 WO2016013175A1 (ja) | 2014-07-22 | 2015-07-10 | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6008067B2 JP6008067B2 (ja) | 2016-10-19 |
JPWO2016013175A1 true JPWO2016013175A1 (ja) | 2017-04-27 |
Family
ID=55162721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016521798A Active JP6008067B2 (ja) | 2014-07-22 | 2015-07-10 | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US9916302B2 (ja) |
JP (1) | JP6008067B2 (ja) |
WO (1) | WO2016013175A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6551968B2 (ja) * | 2015-03-06 | 2019-07-31 | 国立研究開発法人情報通信研究機構 | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム |
CN109428737B (zh) * | 2017-08-24 | 2021-05-04 | 钉钉控股(开曼)有限公司 | 变更群组类型的方法、群组创建方法及装置 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH09152968A (ja) * | 1995-12-01 | 1997-06-10 | Fujitsu Ltd | 文書作成装置 |
US7313515B2 (en) * | 2006-05-01 | 2007-12-25 | Palo Alto Research Center Incorporated | Systems and methods for detecting entailment and contradiction |
JP5678896B2 (ja) * | 2010-01-18 | 2015-03-04 | 日本電気株式会社 | 要求抽出システム、要求抽出方法および要求抽出プログラム |
US8554542B2 (en) * | 2010-05-05 | 2013-10-08 | Xerox Corporation | Textual entailment method for linking text of an abstract to text in the main body of a document |
US20120124084A1 (en) * | 2010-11-06 | 2012-05-17 | Ning Zhu | Method to semantically search domain name by utilizing hyponym, hypernym, troponym, entailment and coordinate term |
WO2013058118A1 (ja) * | 2011-10-20 | 2013-04-25 | 日本電気株式会社 | テキスト含意判定装置、テキスト含意判定方法、及びコンピュータ読み取り可能な記録媒体 |
JP5910194B2 (ja) * | 2012-03-14 | 2016-04-27 | 日本電気株式会社 | 音声対話要約装置、音声対話要約方法およびプログラム |
SG11201406913VA (en) * | 2012-04-26 | 2014-12-30 | Nec Corp | Text mining system, text mining method, and program |
US20140372102A1 (en) * | 2013-06-18 | 2014-12-18 | Xerox Corporation | Combining temporal processing and textual entailment to detect temporally anchored events |
-
2015
- 2015-07-10 US US15/028,495 patent/US9916302B2/en active Active
- 2015-07-10 JP JP2016521798A patent/JP6008067B2/ja active Active
- 2015-07-10 WO PCT/JP2015/003502 patent/WO2016013175A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
US9916302B2 (en) | 2018-03-13 |
WO2016013175A1 (ja) | 2016-01-28 |
JP6008067B2 (ja) | 2016-10-19 |
US20170124066A1 (en) | 2017-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10115061B2 (en) | Motif recognition | |
US11423082B2 (en) | Methods and apparatus for subgraph matching in big data analysis | |
Ramasamy et al. | Performance analysis of sentiments in Twitter dataset using SVM models | |
RU2556425C1 (ru) | Способ автоматической итеративной кластеризации электронных документов по семантической близости, способ поиска в совокупности кластеризованных по семантической близости документов и машиночитаемые носители | |
JP5588811B2 (ja) | データ分析支援システム及び方法 | |
CN106909669A (zh) | 一种推广信息的检测方法及装置 | |
Jin et al. | Identifying informative subsets of the Gene Ontology with information bottleneck methods | |
JP6008067B2 (ja) | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム | |
US9990444B2 (en) | Apparatus and method for supporting visualization of connection relationship | |
US10474700B2 (en) | Robust stream filtering based on reference document | |
Bartík | Text-based web page classification with use of visual information | |
JP5734118B2 (ja) | ソーシャルネットワークから小集団を抽出し、名前付け、並びに可視化する方法およびプログラム | |
JP5929532B2 (ja) | イベント検出装置、イベント検出方法およびイベント検出プログラム | |
JP6536580B2 (ja) | 文集合抽出システム、方法およびプログラム | |
JP2014096086A (ja) | 文書分類システムおよび方法 | |
Bayu et al. | Classification of Indonesian Population’s Level Happiness on Twitter Data Using N-Gram, Naïve Bayes, and Big Data Technology | |
WO2016013157A1 (ja) | テキスト処理システム、テキスト処理方法およびテキスト処理プログラム | |
Aksu et al. | Analysis of Turkish sentiment expressions about touristic sites using machine learning | |
JP5389764B2 (ja) | マイクロブログテキスト分類装置及び方法及びプログラム | |
JP2009271772A (ja) | テキストマイニング方法、テキストマイニング装置、及びテキストマイニングプログラム | |
KR101684442B1 (ko) | 정보분석 장치 및 방법 | |
JP5792871B1 (ja) | 代表スポット出力方法、代表スポット出力装置および代表スポット出力プログラム | |
Prasad et al. | Mining on social media | |
JP6448006B2 (ja) | 文書及び/又は検索クエリの関連性を変更する方法、コンピュータ・プログラム及びシステム | |
JP2015014993A (ja) | 検索意図辞書作成装置、検索意図辞書作成方法及び検索意図辞書作成プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160715 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160816 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160829 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6008067 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |