JPWO2012147428A1 - テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム - Google Patents

テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム Download PDF

Info

Publication number
JPWO2012147428A1
JPWO2012147428A1 JP2013511972A JP2013511972A JPWO2012147428A1 JP WO2012147428 A1 JPWO2012147428 A1 JP WO2012147428A1 JP 2013511972 A JP2013511972 A JP 2013511972A JP 2013511972 A JP2013511972 A JP 2013511972A JP WO2012147428 A1 JPWO2012147428 A1 JP WO2012147428A1
Authority
JP
Japan
Prior art keywords
text
description
event
clustering
descriptions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013511972A
Other languages
English (en)
Other versions
JP5534280B2 (ja
Inventor
聡 中澤
聡 中澤
剛巨 河合
剛巨 河合
穣 岡嶋
穣 岡嶋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2013511972A priority Critical patent/JP5534280B2/ja
Application granted granted Critical
Publication of JP5534280B2 publication Critical patent/JP5534280B2/ja
Publication of JPWO2012147428A1 publication Critical patent/JPWO2012147428A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

テキストクラスタリング装置100は、クラスタリング対象のテキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、グループ分け実行部40と、テキスト集合を構成するテキストを、グループ分け実行部40によるグループ分けの結果に基づいて、クラス分類する、クラス分類部60と、を備えている。

Description

本発明は、テキストクラスタリング装置、テキストクラスタリング方法、及びこれらを実現するためのプログラムを記録したコンピュータ読み取り可能な記録媒体に関し、特には、クラスタリングの対象とするテキスト集合に含まれる共通の出来事を抽出し、抽出した出来事に応じてテキストをクラスタリングする方式に関する。
近年、Twitterなどの比較的短いテキスト(短文)で構成されたマイクロブログが普及している。こうしたマイクロブログ等の中には、通常、多数の発言者が、ある特定のニュース、イベント、事件等に関して、各人の意見、感想、及び関連事実等を記述したテキストが、多く含まれている。
ここで、本明細書では、上述のニュース、イベント、事件等をまとめて「出来事」と称する。「出来事」とは、特定の誰か(個人、グループ、または組織)が何かを行ったという事柄、何かが起きた又は発生したという事柄等を指す。
また、マイクロブログ等の中に存在している多数のテキストの中には、記述の対象となった出来事が共通しているテキストが含まれている場合がある。このような場合は、読者の可読性を高めるという観点から、出来事毎にテキストをまとめて、他のテキストと区別することが要望されている。
このように出来事毎にテキストをまとめることができれば、多数のマクロブログ等の中から、読者が興味を抱いたある特定の出来事に関して発言されているテキストのみを特定することが容易となる。
また、インターネット上のマイクロブログ及びブログ等のCGM(Consumer Generated Media)では、従来からのマスコミではニュースとして取り扱われにくい出来事、未だニュースとして取り上げられていない出来事が、口コミ的に広がって話題となることがある。従って、そうしたインターネット上の多数のテキストを、そこに書かれている共通の出来事毎にまとめることができれば、新たに話題となっている出来事を発見することが容易となる。
一方、従来から、複数のテキストが与えられたときに、各テキストに書かれている記述の類似性に基づいて、これら複数のテキストを、類似するテキスト群毎に1つの集合(クラスタ)にまとめ上げる「テキストクラスタリング技術」が、存在する。非特許文献1は、こうしたテキストクラスタリング技術の一例を開示している。
従って、多数のマイクロブログ等に対して、非特許文献1に開示されているテキストクラスタリング技術を適用すれば、マイクロブログ等を出来事毎に区別することが実現できると考えられる。結果、読者は、興味のないクラスタに属するマイクロブログ等を読み飛ばすことができ、便利である。
菊池 匡晃、岡本 昌之、山崎 智弘著 「階層型クラスタリングを用いた時系列テキスト集合からの話題推移抽出」データ工学ワークショップ(DEWS2008)、B3−3、2008年
しかしながら、非特許文献1に開示されたテキストクラスタリング技術では、マイクロブログのような、多数の異なる発言者によって書かれた比較的短いテキストの集合を処理対象とした場合に、共通の出来事に関して記述されたテキストが1つのクラスタにまとまらないことがあり、この点が問題となっている。
これは、マイクロブログ等は、従来からのWeb文書及びブログ等と異なり、短い文で構成されており、ある出来事に関して感想等を述べているテキストがあっても、そのテキスト中に、元の出来事に関して十分な記述がなされていることは稀であるためである。つまり、マイクロブログ等では、多くの場合、各テキストの発言者は、元の出来事を表現する記述の中では、おのおのが重要だと判断した点のみを短く取りあげるに過ぎず、あとの記述では、各発言者の意見又は感想などを主に取りあげるからである。
以下に、具体例を挙げて、上記問題について説明する。例えば、元の出来事として、次のような報道発表(出来事例1)があったものとする。
[出来事例1]
「野外ライブイベント何某が、今年、北海道で開催されることが決定。」
「さらにライブイベント何某の第2段出演者が発表された。」
「第2段出演者として、ロックバンド○○、ポップスグループXX、△△等、計39組が北海道にやってくる。」
上記の出来事例1に関しての発言として、以下に示すように、発言者Aによるテキスト例1と、発言者Bによるテキスト例2があったものとする。
発言者A テキスト例1:「やべえ、ライブイベント何某が北海道で開催決定!」
発言者B テキスト例2:「ロックバンド○○が北海道にやってくるなんて、嬉しい。バイトして旅費を貯めなければ。」
出来事例1の全ての情報を知っている人間であれば、このテキスト例1とテキスト例2とを読んで、ともに共通の出来事例1について書かれたテキストであると判断することができる。
しかしながら、非特許文献1に開示されたテキストクラスタリング技術では、テキスト間の記述内容の一致度及び類似度に基づいたクラスタリングが実行され、出来事例1の知識に基づいたクラスタリングが行なわれることはない。よって、テキスト例1とテキスト例2とに共通に出現する表現は「北海道」のみと判断される。また、各テキストにおいて、それぞれの発言者の感想及び意見は別々の表現で記述されているため、非特許文献1に開示されたテキストクラスタリング技術では、両テキストの一致している割合は低いと判断される。従って、非特許文献1に開示されたテキストクラスタリング技術では、テキスト例1とテキスト例2とを同じクラスタにクラスタリングすることは困難となる。
以上のように、マイクロブログ等の短いテキスト間では、元となった出来事が共通していても、当該出来事についての記述は必ずしも一致していない。更に、各テキスト中に含まれる、分量の多い感想及び意見に関する記述は、テキストクラスタリングのノイズとなりやすい。従って、上述したように、非特許文献1に開示されたテキストクラスタリング技術では、マイクロブログ等の短いテキストを対象とした場合に、適切にクラスタリングを行なうことは困難である。
本発明の目的は、上記問題を解消し、クラスタリング対象となるテキストが短文であったとしても、出来事毎のクラスタリングを適切に実行し得る、テキストクラスタリング装置、テキストクラスタリング方法、およびコンピュータ読み取り可能な記録媒体を提供することにある。
上記目的を達成するため、本発明の一側面におけるテキストクラスタリング装置は、テキスト集合を対象としてクラスタリングを行なうクラスタリング装置であって、
前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、グループ分け実行部と、
前記テキスト集合を構成するテキストを、前記グループ分け実行部によるグループ分けの結果に基づいて、クラス分類する、クラス分類部と、
を備えていることを特徴とする。
また、上記目的を達成するため、本発明の一側面におけるテキストクラスタリング方法は、テキスト集合を対象としたクラスタリングを行なうための方法であって、
(a)前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
(b)前記テキスト集合を構成するテキストを、前記(a)のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
を有することを特徴とする。
更に、上記目的を達成するため、本発明の一側面におけるコンピュータ読み取り可能な記録媒体は、コンピュータによってテキスト集合を対象としたクラスタリングを行なうための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
(b)前記テキスト集合を構成するテキストを、前記(a)のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
を実行させる、命令を含むプログラムを記録していることを特徴とする。
以上のように、本発明によれば、クラスタリング対象となるテキストが短文であったとしても、出来事毎のクラスタリングを適切に実行することができる。
図1は、本発明の実施の形態におけるテキストクラスタリング装置の構成を示すブロック図である。 図2は、本実施の形態においてテキストクラスタリング処理の対象となるテキスト集合の一例を示す図である。 図3は、図2に示した行動・事態記述を判定対象とした親和性の判定結果の一例を示す図である。 図4は、図2に示した入力テキスト集合を対象としたクラス分類の最終結果の一例を示す図である。 図5は、本発明の実施の形態におけるテキストクラスタリング装置の動作を示すフロー図である。 図6は、本発明の実施の形態におけるテキストクラスタリング装置を実現するコンピュータの一例を示すブロック図である。
(実施の形態)
以下、本発明の実施の形態における、テキストクラスタリング装置、テキストクラスタリング方法、及びプログラムについて、図1〜図5を参照しながら説明する。
[装置構成]
最初に、図1を用いて、本実施の形態におけるテキストクラスタリング装置100の構成について説明する。図1は、本発明の実施の形態におけるテキストクラスタリング装置の構成を示すブロック図である。
図1に示すテキストクラスタリング装置100は、テキスト集合を対象としてクラスタリングを行なう装置である。図1に示すように、テキストクラスタリング装置100は、主に、グループ分け実行部40と、クラス分類部60とを備えている。
グループ分け実行部40は、まず、テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定する。そして、グループ分け実行部40は、特定した組合せを用いて、設定された用言及び主語を含む記述それぞれを、出来事毎のグループに分ける。
クラス分類部60は、テキスト集合を構成するテキストを、グループ分け実行部40によるグループ分けの結果に基づいて、クラス分類する。得られたクラス分類の結果が、テキスト集合のクラスタリング結果となる。
このように、本実施の形態におけるテキストクラスタリング装置100では、テキスト集合から、ある出来事について特定の関係にある記述の組み合わせが特定され、各組み合わせを用いてクラスタリングが行われている。しかも、組み合わせに用いられる記述は、設定された用言及び主語を含むものであり、ノイズとなる記述は除外されている。このため、本実施の形態におけるテキストクラスタリング装置100によれば、クラスタリング対象となるテキストが短文であったとしても、出来事毎のクラスタリングを適切に実行することができる。
ここで、図1に加えて、図2〜4を用いて、本実施の形態におけるテキストクラスタリング装置100の構成を更に具体的に説明する。図1に示すに、テキストクラスタリング装置100は、グループ分け実行部40及びクラス分類部60に加えて、テキスト集合受付部10と、記述抽出部20と、行動・事態表現辞書30と、行動・事態表現親和性知識ベース50と、クラスタ出力部70とを備えている。
テキスト集合受付部10は、クラスタリング対象とするテキスト集合を入力として受け付ける。テキスト集合受付部10は、テキストクラスタリング処理の対象となるテキスト集合を、入力装置80から受け付け、これを記述抽出部20に入力する。入力装置80の具体例としては、キーボード等の入力機器、ネットワークを介して接続されたコンピュータ、テキスト集合が記録されている記録媒体の読取装置等が挙げられる。入力装置80は、テキスト集合を入力可能な装置であれば良い。なお、図1においては、入力装置80がコンピュータである場合が例示されている。
また、入力が受け付けられたテキスト集合(以下「入力テキスト集合」と表記する。)を構成する各テキストに、テキストの発信日時及び作成日時といった時間情報が付与されている場合、テキスト集合受付部10は、入力テキスト集合を、各テキストに付与されている時間情報を基準にして、複数の部分集合に分割するのが好ましい。この場合は、後段のクラスタリング処理の精度の更なる向上が期待できる。
このとき、テキスト集合受付部10は、各部分集合に属するテキストの時間情報が近接するよう、元の入力テキスト集合を分割する。これは、共通する出来事に関して書かれているテキストの発信日時及び作成日時は、近接しやすいという理由によるものである。分割した後は、各部分集合が独立の入力テキスト集合であるかのように、以後の処理が実行される。
なお、本実施の形態においては、入力テキスト集合が1つの場合と、複数の部分集合の場合とで、クラスタリング処理自体は変わらないため、以後は、1つの入力テキスト集合に対する説明を行う。
記述抽出部20は、入力テキスト集合を構成するテキストそれぞれから、用言を検出し、検出した用言が設定された用言である場合に、当該用言とその主語とを含む記述を抽出する。また、本実施の形態では、記述抽出部20は、各記述を元のテキストに対応付けた形式で抽出する。
ここで、本実施の形態でいう「記述」には、任意のテキストのうち、個人、グループ、組織、動物等の主体が何かを行った(又は行う)という記述(以下「行動記述」と表記する。)と、事件、事象、災害、イベント等の事柄が起きた(又は発生した)という記述(以下「事態記述」と表記する。)と、が含まれる。
例えば、「内閣が総辞職した」、「アイドルグループAがコンサートを行った」等が行動記述の一例として挙げられる。また、「マグニチュード7の地震が発生した」、「公定歩合が引き下げられた」、「バンドBの解散コンサート開催が発表された」等が事態記述の一例として挙げられる。一方、「水は0度で凍結する」のような物事の性質を表す表現、「この緊急事態に内閣総辞職などすべきでない」、「○○店のカレー、がっかりでした」、「映画XXは今年最高の面白さでした」のような意見又は感想を述べる表現は、行動記述及び事態記述のいずれにも含まれない。なお、以降の説明では、「記述」は「行動・事態記述」と表記することとする。
本実施の形態において、どのような表現を「行動・事態記述」とするかの判定基準は、クラスタリングを実施する際の、用途及び目的等に応じて異なる。具体的には、記述抽出部20は、入力テキスト集合の各テキストに「行動・事態記述」が含まれているかどうかを判定するため、まず、各テキストに対し、公知の自然言語処理技術を用いて、形態素解析及び構文解析処理を行い、テキスト中の用言の部分を検出する。
次いで、記述抽出部20は、行動・事態表現辞書30を参照し、検出した用言を用いて、必要なら周囲のテキストの解析結果を用いて、行動・事態記述と見なす用言であるかどうか判定する。なお、後述するように、行動・事態表現辞書30には、行動・事態記述と見なされる用言が、事前に登録されている。
判定の結果、検出した用言が、行動・事態記述と見なす用言であり、更に、行動記述に該当するならば、記述抽出部20は、その行動を行う主体を、用言とペアにして抽出する。また、検出した用言が、行動・事態記述と見なす用言であり、更に、事態記述に該当するならば、記述抽出部20は、その事態を表す主体を、用言とペアにして抽出する。言い換えると、検出した用言が、行動・事態記述と見なす用言である場合は、記述抽出部20は、行動・事態記述と見なす用言の主語を抽出する。また、抽出される主語は、1単語に限定されず、複数の単語で構成されたフレーズであっても良いし、それ自体が文であっても良い。
更に、記述抽出部20は、テキストクラスタリング装置100の用途及び目的に応じて、行動・事態記述と見なす用言の主語に加え、目的語、修飾語をあわせて抽出しても良い。また、記述抽出部20は、用言が否定形及び肯定形のいずれであるか、時制、モダリティ(伝聞、推定等)等を、公知の自然言語処理技術、例えば構文解析技術及び意味解析術を用いて解析し、解析結果に対応するテキスト中の記述を更に抽出することもできる。
また、入力テキスト集合に含まれるテキストの中には、主語、目的語、又は両方が省略されたテキストも存在する。記述抽出部20は、そうしたテキストに対しては、例えば、公知技術のゼロ代名詞補完技術を用いて、主語、目的語、又は両方を推定することができる。
加えて、記述抽出部20は、行動・事態記述のうち、各テキストの発言者または作者が主語となるものは、行動・事態記述として抽出しない。例えば「私は昨晩カレーを食べた」というテキストは、「私は」が主語となる行動記述であるが、発言者を主語とするため、記述抽出部20は、このテキストを抽出対象としない。更に、記述抽出部20は、「昨日学校に遅刻した」のように、明示的な主語が省略されている場合であっても、同様に主語が発言者(又は作者)であると推定される表現を、行動・事態記述として抽出しない。
これは、記述抽出部20における処理は、複数の入力テキストに共通して書かれている出来事に着目し、その出来事毎にテキストのクラスタリングを行うことを目的としているためである。
例えば3つのテキスト、「内閣総辞職した」、「内閣が解散したんだって」、「今日、内閣が解散したニュースが流れた」は、全て主語「内閣」が「解散した」又は「総辞職した」という共通の出来事を取り扱っている。
一方、発言者が異なる3つのテキスト、「カレー食べた」、「カツカレーを食べたけど」、「カレーを食べたよ」それぞれから、単純に行動・事態記述を抽出した場合、「私がカレーを食べた」となる。これらは、共通の出来事と見えるが、実態は、異なる3人の発言者がそれぞれ「カレーを食べた」という3つの異なる出来事が発生しているのであり、そこに共通の出来事はない。
従って、実際は異なる各出来事が共通の出来事と判断されないようにするため、記述抽出部20は、行動・事態記述のうち、各テキストの発言者または作者が主語となるものは、抽出対象から除外する。
図2は、本実施の形態においてテキストクラスタリング処理の対象となるテキスト集合の一例を示す図である。また、図2には、テキスト集合受付部10が入力を受け付けた入力テキスト集合に加え、各テキストに含まれる主語及び用言、各テキストから抽出された行動・事態記述も示されている。
具体的には、図2の例に示された各テキストは、ある一定期間に発言されたマイクロブログであり、「北海道」を含んでいる。更に、図2の例では、表形式によって、テキスト集合が示されており、行毎に、入力テキスト集合に属する各テキストが示されている。
また、図2において、1列目の「テキストID」は、各テキストを区別するための便宜上のIDであり、入力テキスト集合の各テキストに必ずしも付与されている必要はない。例えば、テキスト集合受付部10が、管理のために、各テキストにテキストIDを付与することができる。
2列目の「入力テキスト」は、各テキストの内容を示している。3列目の「行動・事態記述の主語−用言ペア」は、各テキストに含まれている主語と用言との組合せを示している。なお、そのテキストに、行動・事態記述が存在しない場合は、<なし>と設定される。
4列目の「行動・事態記述」は、各テキストから抽出された行動・事態記述を示している。図2の例では、行動・事態記述の主語及び用言に加え、目的語及びそれらに係る修飾語もまとめて抽出されている。なお、5列目の「グループ」については、後述のグループ分け実行部40の説明の際に説明する。
また、本実施の形態では、記述抽出部20は、1つのテキストに複数の行動・事態記述が含まれている場合は、このテキストから、複数の行動・事態記述を抽出することもできる。例えば、記述抽出部20は、図2においてテキストID=10のテキストからは、2つの行動・事態記述、「ライブイベント何某が出演者を発表した」と、「ロックバンド○○やポップスグループXXも出る」とを抽出している。
行動・事態表現辞書30は、テキストクラスタリング装置100の用途及び目的に応じて、行動・事態記述と見なされる用言を登録している。記述抽出部20は、上述したように、行動・事態表現辞書30を参照して、入力テキスト集合の各テキストに行動・事態記述と見なされる記述が含まれているかどうかを判定する。
また、行動・事態表現辞書30において、各辞書レコードには、例えば、「辞書事例1: 解散 サ変動詞」のように、用言に該当する単語に加えて、その品詞の種類、及び活用形等、公知の自然言語処理技術の辞書に記述されている文法情報も登録されているのが良い。
本実施の形態では、用言が行動・事態記述であると見なすための条件として、単純に、当該用言が行動・事態表現辞書30に登録されていることに加えて、その用言の活用形、モダリティ、周辺テキスト等に関する条件が加えられていても良い。こうした条件が加えられている場合には、記述抽出部20は、入力テキスト集合の各テキストから、行動・事態記述と見なされる記述を判定及び抽出する際に、当該条件も合わせて確認する。
グループ分け実行部40は、上述したように、テキストから抽出された行動・事態記述を、出来事毎のグループにグループ分けする。このとき、本実施の形態では、グループ分けによって、「出来事記述の仮説」が生成される。グループ分け実行部40は、「出来事記述仮説生成部」と言うこともできる。
ここで、まず「出来事記述」について説明する。本明細書において、「出来事記述」とは、上述の「背景技術」の欄にて定義した「出来事」の内容を説明する記述を指す。例えば、ある強盗事件が出来事として発生したとき、その強盗事件のニュースとして流れた下記の記述が、その強盗事件の出来事記述となる。
ある強盗事件の出来事記述:
「渋谷センター街のA宝石店にて強盗事件が発生」
「犯人は、レジにあった現金を黒い鞄に入れて店から出た」
「店から出た後、犯人は白いワゴン車で原宿方面へ逃走中」
また、別の出来事記述の例としては、上述の「発明が解決しようとする課題」の欄で述べた出来事例1を説明する以下の3つの記述が、そのまま出来事例1の出来事記述として挙げられる。
出来事例1の出来事記述:
「野外ライブイベント何某が、今年、北海道で開催されることが決定」
「さらにライブイベント何某の第2段出演者が発表された」
「第2段出演者として、ロックバンド○○、ポップスグループXX、△△等、計39組が北海道にやってくる」
更に、あるTV雑誌Bが、人気ゲームとのタイアップ企画で、地方版毎にその人気ゲームのヒロインを1人ずつ表紙に登場させるというニュース(出来事例2)がインターネット上で報道されたとする。この場合、出来事記述の他の例として、以下の出来事例2を説明する出来事記述が挙げられる。
出来事例2の出来事記述:
「今度のTV雑誌Bでは、北海道版、関西版、信州版の表紙をそれぞれ御当地版に変更」
「各御当地版では、人気ゲームLPのヒロインがそれぞれ1人ずつ表紙を飾ることに」
「出演キャラクターは、北海道版がLちゃん、関西版がNちゃん、信州版がPちゃんの予定」
続いて、以下に、「出来事記述の仮説」について説明する。ある共通の出来事に対して、複数の発言者及びテキストの作者が、それぞれ、その出来事に関して述べているテキストを作成することがある。テキストクラスタリング装置100は、多数のテキストの中から、そうした共通の出来事に関するテキストを出来事毎に抽出し、まとめあげ、クラスタとすることを目的としている。
仮に、複数の発言者及び作者が共通の話題として取りあげる出来事の出来事記述を得ることができれば、その出来事記述に類似する記述、又はその出来事記述と共通する記述を、入力テキスト集合から選別してまとめ上げることで、上記の目的は達成できる。しかし、一般にはクラスタリング処理の前に、クラスタリング対象とする入力テキスト集合の中から、共通の話題になっている出来事の出来事記述を得ることは、極めて困難である。
一方で、入力テキスト集合を構成しているテキストの中には、その元となった出来事記述の一部と内容的に一致する記述が含まれていることが期待できる。例えば、図2に示したテキストID=1のテキストは、「ライブイベント何某が北海道で開催決定」という行動・事態記述を含んでいるが、この行動・事態記述は、出来事例1の出来事記述の最初の記述と内容的にほぼ一致する。
つまり、記述抽出部20によって抽出された行動・事態記述が、出来事記述の一部と一致する可能性は高く、結果、グループ分け実行部40が作成した各グループに属する行動・事態記述群が、対応する出来事の「出来事記述」全体であると仮定できる。このようにして仮定された出来事記述が、「出来事記述の仮説」であり、上述したように、グループ分けによって「出来事記述の仮説」が生成される。
また、本実施の形態では、図1に示すように、グループ分け実行部40は、入力テキスト集合から抽出した行動・事態記述から「出来事記述の仮説」を生成するために、親和性判定部41と、組合せ生成部42とを備えている。
親和性判定部41は、2つの行動・事態記述の組合せ毎に、予め設定された規則に基づいて、2つの行動・事態記述の間の親和性を判定し、判定の結果、親和性が設定基準を満たす場合に、当該組合せを、設定要件を満たす組合せとして特定する。また、組合せ生成部42は、各グループにおいて、当該グループに属する行動・事態記述が、互いに矛盾せず、且つ、共通の出来事に関するように(即ち、共通の出来事を説明する一連の記述となるように)、特定した組合せをまとめることによって、グループ分けを実行する。以下に、親和性判定部41及び組合せ生成部42それぞれについて具体的に説明する。まず、親和性判定部41について説明する。
例えば、図2の例では、25個のテキスト(テキストID=1〜25)のうち、「行動・事態記述」の列が空でない16個のテキストから、行動・事態記述が抽出されている。よって、親和性判定部41は、この16個の行動・事態記述を対象として、テキストID=1の行動・事態記述とテキストIDが2の行動・事態記述との親和性、といった任意の2つの行動・事態記述間における親和性を判定する。
なお、テキストID=10の場合のように、1つのテキストから複数の行動・事態記述が抽出されている場合があるが、このような場合は、親和性判定部41は、同じテキストから抽出された行動・事態記述間は全て「親和性が高い」と判定する。
また、親和性判定部41は、1つのテキストから抽出されている複数の行動・事態記述と、他のテキストから抽出された行動・事態記述との親和性を判定する場合は、この複数の行動・事態記述それぞれ毎に親和性を判定する。つまり、親和性判定部41は、例えば、テキストID=1の行動・事態記述と、テキストID=10の1番目の行動・事態記述との親和性を判定し、更に、テキストID=1の行動・事態記述と、テキストID=10の2番目の行動・事態記述との親和性を判定する。
また、上述したように、組合せ生成部42が、相互に矛盾せず、且つ、両方が1つの出来事について説明する一連の記述となり得るように、グループ分けを行うことから、親和性判定部41は、以下に述べる親和性判定規則を、親和性の判定の基準として用いて、判定を行う。
更に、本実施の形態において、親和性判定部41は、親和性が「高い」又は「ない」といった2値判定を行なうことができる。また、親和性判定部41は、親和性判定規則に基づき、2つの行動・事態記述間の親和度を表す得点を付与し、閾値を超える親和度を持つ2つの行動・事態記述を最終的に「親和性が高い」と判定することもできる。なお、どちらの手法によって判定を行なうのか、親和度の計算をする場合の親和性判定の閾値をどのような値に設定するのかは、テキストクラスタリング装置100目的及び用途等に応じて事前に定めておくのが良い。
<親和性判定規則>
以下に親和性判定規則の例として、規則1〜規則6を挙げる。
(規則1.主語の一致)
2つの行動・事態記述の主語が相互に一致する記述は、親和性が高いと判定される。主語に複数の主体が含まれている場合(例えば「AさんとBさん」など)は、主語の一部が、他方の主語の一部と一致することを条件に、親和性が高いと判定される。2値ではなく、親和度が計算される場合は、主語の部分一致は、全体一致よりも、低い親和度が与えられる。
また、主語が一致するだけでなく、用言、修飾語、及び目的語の一致を調べ、いずれかにおいて一致する場合は、親和度が加点されてもよい。例えば、相互に異なる用言が1つの出来事を説明する一連の記述中に共起して出現する度合いが、事前に求められているのであれば、共起して出現する度合いが高い用言(例えば「記者会見」と「発表」等)に対しては、親和度が加点される。逆に、1つの出来事を説明する記述中に共起して出現する度合いが低い用言に対しては、親和度が減点される。
なお、本実施の形態では、どのような用言の組合せによれば、1つの出来事を説明する一連の記述中に共起して出現する度合いが高くなるかが、後述する行動・事態表現親和性知識ベース50に記録されている。
(規則2.主語と目的語との一致)
一般の言語表現において、同じ主体Aの行動・事態を記述する上で、能動的にAを主語として表現する手法と、受動的にAを目的語として表現する手法とがある。よって、規則1と同様に、規則2では、主語と目的語とが一致した場合も、2つの行動・事態記述は、親和性が高い、と判定される。また、規則2でも、規則1と同様に、親和度等が計算されても良い。
(規則3.主語省略または不明の場合の用言一致)
2つの行動・事態記述のうち、どちらか一方又は両方の主語が、省略等の理由により、不明である場合は、用言の一致に応じて、「親和性が高い」かどうかが判定される。また、用言が一致するだけでなく、修飾語、及び目的語の一致を調べて、いずれかにおいて一致する場合は、親和度が加点されてもよい。
(規則4.異なる主語間で用言一致する場合の排他)
2つの行動・事態記述の用言が一致するが、主語が一致しない場合は、同じ事を行なう別の主体が存在するため、親和性がない、と判定される。
(規則5.主語、目的語の一致条件の拡張)
入力テキスト集合中のテキストにおいて、「AとBとC」、「A、B、Cなど3グループが参加」、「AやB、C」、「AもB」など、並列に列挙されている主体や事物は、その入力テキスト集合のクラスタリング時に限り、同一視され、そして、他の規則における一致が判定される。
例えば、「Aが開会を宣言」、「Bが開会を宣言」のような2つの行動・事態記述は、規則4により、排他関係にあり、親和性はない、と判断される。しかし、「AとBが協力するとは…」のようなテキストが、入力テキスト集合中に存在するならば、規則5により、AとBとは同一視される。これにより、「Aが開会を宣言」と「Bが開会を宣言」との2つの行動・事態記述は、主語及び用言共に一致するため、規則1により、「親和性が高い」と判断される。
(規則6.修飾語中の時間条件、場所条件、手段条件の一致)
2つの行動・事態記述に共に修飾語が含まれている場合に、各修飾語から、公知の情報抽出技術を用いて、時間条件(例:「3月15日に」)、場所条件(例:「北海道で」)、手段条件(例:「代理店側に交渉して」)が抽出されるとする。そして、各修飾語に、時間条件、場所条件、手段条件が含まれている場合は、これらの一致点に基づいて、親和性が高いかどうかが判定され、又は親和度の加点が行なわれる。
なお、上述した親和性判定規則は、本実施の形態で使用可能な親和性判定規則の一例に過ぎず、必ずしも上述した全ての親和性判定規則が適用される必要はない。本実施の形態では、テキストクラスタリング装置100の用途及び目的等に応じて、上述した親和性判定規則の一部又は全部が組み合わされて使用される。
また、同じ主体及び事物を指す複数の表現が存在する問題(表記揺れの問題)、表現バリエーションの問題に対応するため、親和性判定部41は、親和性の判定前又は判定時に、公知の同義語処理技術及び類義語処理技術を適用して、行動・事態記述の表現の正規化を行っても良い。
ここで、図3を用いて、親和性判定規則に基づく親和性の判定結果について説明する。図3は、図2に示した行動・事態記述を判定対象とした親和性の判定結果の一例を示す図である。図3においては、図2に示した行動・事態記述の各組合せに対して、上述の親和性判定規則が適用されている。
具体的には、図3において、4番目の列「親和性の高い行動・事態記述のテキストID」には、各行の行動・事態記述と親和性の高い行動・事態記述の抽出元のテキストIDが格納されている。また、列「親和性の高い行動・事態記述のテキストID」において、「<なし>」とある欄は、その行の行動・事態記述と親和性の高い行動・事態記述が存在しなかったことを示している。列「親和性の理由」には、各判定の理由(親和性が高くなる理由)が格納されている。
また、組合せ生成部42は、親和性判定部41による親和性の判定の結果を受け取り、親和性が高いと判定された行動・事態記述を推移的に繋げて、出来事記述仮説となるグループを生成する。組合せ生成部42は、生成した出来事記述仮説のグループを、そのまま、グループ分け実行部40の出力として出力する。
ここで、各行の行動・事態記述を抽出元のテキストIDによって表記するとする。図3の例では、親和性判定結果から、ID=1は、ID=9、ID=10、及びID=20と繋がり、更に、ID=10は、ID=2及びID=21と繋がり、順に繋がっていく。図3の例では、最終的には、ID=1、2、9、10、20、21で構成された出来事記述仮説のグループ1と、ID=4、5、6、11で構成された出来事記述仮説のグループ2とが生成される。
一方、ID=8、12、14、15、16、24は、それぞれ単独の行動・事態記述のみで構成され、他の行動・事態記述とグループを構成しない。単独の行動・事態記述は、そのまま1つずつ取り扱われても良いし、これらによって、「その他」等の単独の行動・事態記述をまとめる特別のグループが生成されても良い。
行動・事態表現親和性知識ベース50は、グループ分け実行部40(又は親和性判定部41)が、2つの行動・事態記述の間の親和性を判定する際に利用する情報を記録している。具体的には、情報としては、予め条件毎に設定された親和度の加点の大きさ、親和性判定規則、等が挙げられる。
クラス分類部60は、本実施の形態では、記述含有テキスト分類部61と、残余テキスト分類部62とを備えている。このうち、記述含有テキスト分類部61は、グループ分け実行部40によって生成されたグループ毎にクラスを設定する。そして、記述含有テキスト分類部61は、入力テキスト集合に含まれているテキストのうち、行動・事態記述の抽出元のテキストを、この行動・事態記述が属するグループに設定されたクラスにクラス分類する。
具体的には、記述含有テキスト分類部61は、グループ分け実行部40が生成するグループそれぞれを、1つのクラスと見なすことによって、クラス分類を行なうことができる。この場合、記述含有テキスト分類部61は、各グループに属する行動・事態記述を特定し、特定された行動・事態記述の抽出元のテキストを、各グループに1対1で対応するクラスにクラス分類する。
図2及び図3に示した入力テキスト集合を用いて具体例を説明する。まず、グループ分け実行部40が、図3に示す、出来事記述仮説のグループ1と、グループ2と、その他のグループとの3つのグループを生成しているとする。この場合、記述含有テキスト分類部61は、各グループにそれぞれ対応する3つのクラスを生成し、抽出元の各テキストを、各クラスに分類する。
図2に示したテキストID=1のテキストを例にとると、このテキストは、「ライブイベント何某が北海道で開催決定」という行動・事態記述を含み、この行動・事態記述は、出来事記述仮説となるグループ1に属する。よって、記述含有テキスト分類部61は、テキストID=1のテキストをグループ1に対応するクラス(クラスタID=1:図4参照)に分類する。なお、各入力テキストの分類結果は、図4において、表の6列目「クラスタID」に示されている。
また、残余テキスト分類部62は、記述抽出部20によって行動・事態記述が抽出されなかったテキストを特定し、特定した各テキストを、記述含有テキスト分類部61が設定したいずれかのクラス、又は新たなクラスにクラス分類する。残余テキスト分類部62も、記述含有テキスト分類部61と同様に、グループ分け実行部40が生成したグループそれぞれを、1つのクラスと見なすことによって、クラス分類を行うことができる。
図2及び図3に示した入力テキスト集合を用いて具体例を説明する。図2の例において、3番目の列「行動・事態記述の主語−用言ペア」の欄が「<なし>」となっている行のテキストが、記述抽出部20によって行動・事態記述を含んでいると判定されなかったテキストに相当する。以下、こうした行動・事態記述を含んでいないテキストを「残余テキスト」と表記する。
まず、残余テキスト分類部62は、各残余テキストを対象として、記述含有テキスト分類部61によって既にクラス分類されているテキストとの類似度を計算する。そして、残余テキスト分類部62は、一番類似度の高いテキストが分類されているクラスに、対象となった残余テキストをクラス分類する。
例えば、図2に示したテキストID=19のテキストは、グループ1に対応するクラス(クラスタID=1)に分類された、テキストID=10、20、21と一致する表現を含んでいる。このため、残余テキスト分類部62は、テキストID=19のテキストを、グループ1に対応するクラス(クラスタID=1)に分類する。
また、残余テキストと既にクラス分類されているテキストとの類似度判定は、例えば、既存の自然言語処理技術であるクラスタリング技術等で使用されているテキスト間の類似度判定技術を用いることによって、行なうことができる。具体的にどのような類似度判定を用いるかは、本実施の形態におけるテキストクラスタリング装置100の用途及び目的に応じて、事前に定めておくのが好ましい。
更に、上記では、残余テキスト分類部62は、対象となった残余テキストを、一番類似度の高いテキストが分類されているクラスに分類しているが、本実施の形態は、これに限定されない。また、残余テキスト分類部62は、対象となった残余テキストと既にクラス分類されているテキストとの類似度が、どのクラスにおいても、事前に設定された閾値よりも低い場合は、その残余テキストだけで、新たな1つのクラスを生成することもできる。
図4を用いて、残余テキストのクラス分類について説明する。図4は、図2に示した入力テキスト集合を対象としたクラス分類の最終結果の一例を示す図である。上述したように、行動・事態記述を含む各テキストは、記述含有テキスト分類部61によって既にクラス分類されているため、残余テキスト分類部62による処理により、入力テキスト集合を構成する全テキストがクラス分類されたこととなる。図4において、最終のクラス分類の結果は、右端の列「クラスタID」に格納されている。
なお、本明細書においては、記述含有テキスト分類部61と残余テキスト分類部62との処理として、「クラス分類」という表現が用いられている。これは、グループ分け実行部40によってグループが生成された後は、入力テキスト集合のテキストは、各グループに分類されることになるため、既存の自然言語処理技術における用語の使い方に則り、「クラス分類」を用いるのが適切であるためである。
また、本実施の形態では、出来事記述仮説となるグループは予め規定されている訳ではなく、入力テキスト集合に応じて動的に生成される。このため、本実施の形態で実行される処理は「クラスタリング」に該当する。
クラスタ出力部70は、クラス分類結果を入力テキスト集合のクラスタリング結果として出力する。本実施の形態では、クラスタ出力部70は、残余テキスト分類部62が出力するクラス分類の最終結果(図5参照)を受け取り、それを入力テキスト集合に対するクラスタリング結果として出力する。
[装置動作]
次に、本発明の実施の形態におけるテキストクラスタリング装置100の動作について、図5を用いて説明する。図5は、本発明の実施の形態におけるテキストクラスタリング装置の動作を示すフロー図である。以下の説明においては、適宜図1〜図4を参酌する。また、本実施の形態では、テキストクラスタリング装置100を動作させることによって、テキストクラスタリング方法が実施される。よって、本実施の形態におけるテキストクラスタリング方法の説明は、以下のテキストクラスタリング装置100の動作説明に代える。
図5に示すように、まず、テキスト集合受付部10が、入力装置80から、クラスタリング対象とするテキスト集合の入力を受け付ける(ステップA1)。また、ステップA1において、テキスト集合受付部10は、受け付けた入力テキスト集合を記述抽出部20に入力する。
次に、記述抽出部20は、入力テキスト集合を構成する各テキストから、行動・事態記述を抽出する(ステップA2)。ステップA2では、記述抽出部20は、図2で示したように、行動・事態記述を元のテキストと関連づけた状態で抽出する。また、記述抽出部20は、各テキストから、用言と主語とのペアも抽出する。
次に、親和性判定部41が、ステップA2で抽出された行動・事態記述を対象として、2つの行動・事態記述の組合せ毎に、両者間の親和性を判定し、判定結果から、相互に親和性の高い組合せを特定する(ステップA3)。具体的には、ステップA3では、親和性判定部41は、行動・事態表現親和性知識ベース50に記録されている親和性判定規則に基づいて、親和性を判定する。
次に、組合せ生成部42が、相互に親和性の高い行動・事態記述の組み合わせを用いて、出来事記述の仮説となるグループを生成する(ステップA4)。ステップA4では、組合せ生成部42は、生成したグループを特定する情報を、クラス分類部60に入力する。
次に、記述含有テキスト分類部61が、ステップA4で作成したグループ毎にクラスを設定し、入力テキスト集合のうち、行動・事態記述の抽出元のテキストを、この行動・事態記述が属するグループに設定されたクラスにクラス分類する(ステップA5)。
次に、残余テキスト分類部62が、入力テキスト集合に含まれるテキストのうち、行動・事態記述が抽出されなかったテキスト、即ち、残余テキストを特定し、特定した残余テキストを、ステップA5で設定されたクラス、または新たなクラスにクラス分類する(ステップA6)。具体的には、ステップA5では、残余テキスト分類部62は、各残余テキストを対象として、ステップA5でクラス分類されているテキストとの類似度を計算し、計算した類似度に基づいて、残余テキストをクラス分類する。
最後に、クラスタ出力部70が、ステップA5及びステップA6によってクラス分類されたテキストを、入力テキスト集合に対するクラスタリング結果として出力する(ステップA7)。ステップA7の実行により、テキストクラスタリング装置100における処理は終了する。
以上のように、本実施の形態におけるテキストクラスタリング装置100は、テキスト集合から、親和性の高い行動・事態記述の組み合わせを特定し、各組み合わせを共通の行動・事態記述で繋げていき、その結果を用いてクラスタリングを実行する。また、テキストクラスタリング装置100は、テキストの記述のうち、特定の出来事を示していない、ノイズとなる記述を除外する。このため、本実施の形態におけるテキストクラスタリング装置100によれば、クラスタリング対象となるテキストがミニブログ等の短文であったとしても、出来事毎のクラスタリングは適切に実行される。
[プログラム]
本実施の形態におけるプログラムは、コンピュータに、図5に示すステップA1〜A7を実行させるプログラムであれば良い。このプログラムをコンピュータにインストールし、実行することによって、本実施の形態におけるテキストクラスタリング装置100とテキストクラスタリング方法とを実現することができる。この場合、コンピュータのCPU(Central Processing Unit)は、テキスト集合受付部10、記述抽出部20、グループ分け実行部40、クラス分類部60、及びクラスタ出力部70として機能し、処理を行なう。
また、本実施の形態では、行動・事態表現辞書30、行動・事態表現親和性知識ベース50は、コンピュータに備えられたハードディスク等の記憶装置に、これらを構成するデータファイルを格納することによって、実現できる。
ここで、実施の形態におけるプログラムを実行することによって、テキストクラスタリング装置100を実現するコンピュータ110について図6を用いて説明する。図6は、本発明の実施の形態におけるテキストクラスタリング装置を実現するコンピュータの一例を示すブロック図である。
図6に示すように、コンピュータ110は、CPU111と、メインメモリ112と、記憶装置113と、入力インターフェイス114と、表示コントローラ115と、データリーダ/ライタ116と、通信インターフェイス117とを備える。これらの各部は、バス121を介して、互いにデータ通信可能に接続される。
CPU111は、記憶装置113に格納された、本実施の形態におけるプログラム(コード)をメインメモリ112に展開し、これらを所定順序で実行することにより、各種の演算を実施する。メインメモリ112は、典型的には、DRAM(Dynamic Random Access Memory)等の揮発性の記憶装置である。また、本実施の形態におけるプログラムは、コンピュータ読み取り可能な記録媒体120に格納された状態で提供される。なお、本実施の形態におけるプログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。
また、記憶装置113の具体例としては、ハードディスクの他、フラッシュメモリ等の半導体記憶装置が挙げられる。入力インターフェイス114は、CPU111と、キーボード及びマウスといった入力機器118との間のデータ伝送を仲介する。表示コントローラ115は、ディスプレイ装置119と接続され、ディスプレイ装置119での表示を制御する。
データリーダ/ライタ116は、CPU111と記録媒体120との間のデータ伝送を仲介し、記録媒体120からのプログラムの読み出し、及びコンピュータ110における処理結果の記録媒体120への書き込みを実行する。通信インターフェイス117は、CPU111と、他のコンピュータとの間のデータ伝送を仲介する。
また、記録媒体120の具体例としては、CF(Compact Flash(登録商標))及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD−ROM(Compact Disk Read Only Memory)などの光学記憶媒体が挙げられる。
上述した実施の形態の一部又は全部は、以下に記載する(付記1)〜(付記15)によって表現することができるが、以下の記載に限定されるものではない。
(付記1)
テキスト集合を対象としてクラスタリングを行なうクラスタリング装置であって、
前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、グループ分け実行部と、
前記テキスト集合を構成するテキストを、前記グループ分け実行部によるグループ分けの結果に基づいて、クラス分類する、クラス分類部と、
を備えていることを特徴とするテキストクラスタリング装置。
(付記2)
前記テキスト集合を構成するテキストそれぞれから、用言を検出し、検出した用言が設定された用言である場合に、当該用言とその主語とを含む記述を抽出する、記述抽出部を更に備えている、付記1に記載のテキストクラスタリング装置。
(付記3)
前記グループ分け実行部が、
2つの前記記述の組合せ毎に、予め設定された規則に基づいて、2つの前記記述の間の親和性を判定し、前記親和性が設定基準を満たす場合に、当該組合せを、前記設定要件を満たす組合せとして特定し、
そして、各グループにおいて、当該グループに属する前記記述が、互いに矛盾せず、且つ、共通の出来事に関するように、特定した組合せをまとめることによって、グループ分けを実行する、
付記1または2に記載のテキストクラスタリング装置。
(付記4)
前記クラス分類部が、
前記グループ毎にクラスを設定し、前記記述の抽出元のテキストを、前記記述が属する前記グループに設定された前記クラスにクラス分類する、第1のクラス分類部と、
前記記述抽出部によって前記記述が抽出されなかったテキストを特定し、特定した各テキストを、前記第1のクラス分類部が設定したいずれかのクラス、又は新たなクラスにクラス分類する、第2のクラス分類部と、
を備えている、付記2に記載のテキストクラスタリング装置。
(付記5)
前記第2のクラス分類部が、特定したテキスト毎に、当該特定したテキストと、前記第1のクラス分類部が設定した、前記クラスに分類されたテキストとの類似度を求め、求めた類似度に基づいて、クラス分類を実行する、付記4に記載のテキストクラスタリング装置。
(付記6)
テキスト集合を対象としたクラスタリングを行なうための方法であって、
(a)前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
(b)前記テキスト集合を構成するテキストを、前記(a)のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
を有することを特徴とするテキストクラスタリング方法。
(付記7)
(c)前記テキスト集合を構成するテキストそれぞれから、用言を検出し、検出した用言が設定された用言である場合に、当該用言とその主語とを含む記述を抽出する、ステップを更に備えている、付記6に記載のテキストクラスタリング方法。
(付記8)
前記(a)のステップにおいて、
2つの前記記述の組合せ毎に、予め設定された規則に基づいて、2つの前記記述の間の親和性を判定し、前記親和性が設定基準を満たす場合に、当該組合せを、前記設定要件を満たす組合せとして特定し、
そして、各グループにおいて、当該グループに属する前記記述が、互いに矛盾せず、且つ、共通の出来事に関するように、特定した組合せをまとめることによって、グループ分けを実行する、
付記6または7に記載のテキストクラスタリング方法。
(付記9)
前記(b)のステップとして、
(b1)前記グループ毎にクラスを設定し、前記記述の抽出元のテキストを、前記記述が属する前記グループに設定された前記クラスにクラス分類する、ステップと、
(b2)前記(c)のステップで前記記述が抽出されなかったテキストを特定し、特定した各テキストを、前記(b1)のステップで設定したいずれかのクラス、又は新たなクラスにクラス分類する、ステップと、
を有する、付記7に記載のテキストクラスタリング方法。
(付記10)
前記(b2)のステップにおいて、特定したテキスト毎に、当該特定したテキストと、前記(b1)のステップで前記クラスに分類されたテキストとの類似度を求め、求めた類似度に基づいて、クラス分類を実行する、付記9に記載のテキストクラスタリング方法。
(付記11)
コンピュータによってテキスト集合を対象としたクラスタリングを行なうための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
(b)前記テキスト集合を構成するテキストを、前記(a)のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
を実行させる、命令を含むプログラムを記録しているコンピュータ読み取り可能な記録媒体。
(付記12)
(c)前記テキスト集合を構成するテキストそれぞれから、用言を検出し、検出した用言が設定された用言である場合に、当該用言とその主語とを含む記述を抽出する、ステップを更に前記コンピュータに実行させる、付記11に記載のコンピュータ読み取り可能な記録媒体。
(付記13)
前記(a)のステップにおいて、
2つの前記記述の組合せ毎に、予め設定された規則に基づいて、2つの前記記述の間の親和性を判定し、前記親和性が設定基準を満たす場合に、当該組合せを、前記設定要件を満たす組合せとして特定し、
そして、各グループにおいて、当該グループに属する前記記述が、互いに矛盾せず、且つ、共通の出来事に関するように、特定した組合せをまとめることによって、グループ分けを実行する、
付記11または12に記載のコンピュータ読み取り可能な記録媒体。
(付記14)
前記コンピュータに、前記(b)のステップとして、
(b1)前記グループ毎にクラスを設定し、前記記述の抽出元のテキストを、前記記述が属する前記グループに設定された前記クラスにクラス分類する、ステップと、
(b2)前記(c)のステップで前記記述が抽出されなかったテキストを特定し、特定した各テキストを、前記(b1)のステップで設定したいずれかのクラス、又は新たなクラスにクラス分類する、ステップと、
を実行させる、付記12に記載のコンピュータ読み取り可能な記録媒体。
(付記15)
前記(b2)のステップにおいて、特定したテキスト毎に、当該特定したテキストと、前記(b1)のステップで前記クラスに分類されたテキストとの類似度を求め、求めた類似度に基づいて、クラス分類を実行する、付記14に記載のコンピュータ読み取り可能な記録媒体。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2011年4月27日に出願された日本出願特願2011−98912を基礎とする優先権を主張し、その開示の全てをここに取り込む。
以上のように、本発明によれば、クラスタリング対象となるテキストが短文であったとしても、出来事毎のクラスタリングを適切に実行することができる。よって、本発明は、マイクロブログ等のインターネット上のテキストをクラスタリングし、可読性を向上する目的に有用である。また、本発明は、大量のテキストの中から、複数のテキストで話題として取りあげられる共通の出来事を発見する、目的にも応用可能である。
10 テキスト集合入力部
20 記述抽出部
30 行動・事態記述表現辞書
40 グループ分け実行部
41 親和性判定部
42 グループ生成部
50 行動・事態表現親和性知識ベース
60 クラス分類部
61 記述含有テキスト分類部
62 残余テキスト分類部
70 クラスタ出力部
100 テキストクラスタリング装置
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス
本発明は、テキストクラスタリング装置、テキストクラスタリング方法、及びこれらを実現するためのプログラムに関し、特には、クラスタリングの対象とするテキスト集合に含まれる共通の出来事を抽出し、抽出した出来事に応じてテキストをクラスタリングする方式に関する。
このように出来事毎にテキストをまとめることができれば、多数のマクロブログ等の中から、読者が興味を抱いたある特定の出来事に関して発言されているテキストのみを特定することが容易となる。
本発明の目的は、上記問題を解消し、クラスタリング対象となるテキストが短文であったとしても、出来事毎のクラスタリングを適切に実行し得る、テキストクラスタリング装置、テキストクラスタリング方法、およびプログラムを提供することにある。
更に、上記目的を達成するため、本発明の一側面におけるプログラムは、コンピュータによってテキスト集合を対象としたクラスタリングを行なうための、プログラムであって、
前記コンピュータに、
(a)前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
(b)前記テキスト集合を構成するテキストを、前記(a)のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
を実行させる、ことを特徴とする。
また、本実施の形態では、記述抽出部20は、1つのテキストに複数の行動・事態記述が含まれている場合は、このテキストから、複数の行動・事態記述を抽出することもできる。例えば、記述抽出部20は、図2においてテキストID=10のテキストからは、2つの行動・事態記述、「ライブイベント何某が出演者を発表した」と、「ロックバンド○○やポップスグループXXも北海道に初上陸する」とを抽出している。
具体的には、図3において、4番目の列「親和性の高い行動・事態記述のテキストID」には、各行の行動・事態記述と親和性の高い行動・事態記述の抽出元のテキストIDが格納されている。また、列「親和性の高い行動・事態記述のテキストID」において、「<なし>」とある欄は、その行の行動・事態記述と親和性の高い行動・事態記述が存在しなかったことを示している。列「親和性が高い理由」には、各判定の理由(親和性が高くなる理由)が格納されている。
クラスタ出力部70は、クラス分類結果を入力テキスト集合のクラスタリング結果として出力する。本実施の形態では、クラスタ出力部70は、残余テキスト分類部62が出力するクラス分類の最終結果(図参照)を受け取り、それを入力テキスト集合に対するクラスタリング結果として出力する。
(付記11)
コンピュータによってテキスト集合を対象としたクラスタリングを行なうための、プログラムであって、
前記コンピュータに、
(a)前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
(b)前記テキスト集合を構成するテキストを、前記(a)のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
を実行させる、プログラム。
(付記12)
(c)前記テキスト集合を構成するテキストそれぞれから、用言を検出し、検出した用言が設定された用言である場合に、当該用言とその主語とを含む記述を抽出する、ステップを更に前記コンピュータに実行させる、付記11に記載のプログラム
(付記13)
前記(a)のステップにおいて、
2つの前記記述の組合せ毎に、予め設定された規則に基づいて、2つの前記記述の間の親和性を判定し、前記親和性が設定基準を満たす場合に、当該組合せを、前記設定要件を満たす組合せとして特定し、
そして、各グループにおいて、当該グループに属する前記記述が、互いに矛盾せず、且つ、共通の出来事に関するように、特定した組合せをまとめることによって、グループ分けを実行する、
付記11または12に記載のプログラム
(付記14)
前記コンピュータに、前記(b)のステップとして、
(b1)前記グループ毎にクラスを設定し、前記記述の抽出元のテキストを、前記記述が属する前記グループに設定された前記クラスにクラス分類する、ステップと、
(b2)前記(c)のステップで前記記述が抽出されなかったテキストを特定し、特定した各テキストを、前記(b1)のステップで設定したいずれかのクラス、又は新たなクラスにクラス分類する、ステップと、
を実行させる、付記12に記載のプログラム
(付記15)
前記(b2)のステップにおいて、特定したテキスト毎に、当該特定したテキストと、前記(b1)のステップで前記クラスに分類されたテキストとの類似度を求め、求めた類似度に基づいて、クラス分類を実行する、付記14に記載のプログラム
10 テキスト集合受付
20 記述抽出部
30 行動・事態記述表現辞書
40 グループ分け実行部
41 親和性判定部
42 組合せ生成部
50 行動・事態表現親和性知識ベース
60 クラス分類部
61 記述含有テキスト分類部
62 残余テキスト分類部
70 クラスタ出力部
100 テキストクラスタリング装置
110 コンピュータ
111 CPU
112 メインメモリ
113 記憶装置
114 入力インターフェイス
115 表示コントローラ
116 データリーダ/ライタ
117 通信インターフェイス
118 入力機器
119 ディスプレイ装置
120 記録媒体
121 バス

Claims (7)

  1. テキスト集合を対象としてクラスタリングを行なうクラスタリング装置であって、
    前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、グループ分け実行部と、
    前記テキスト集合を構成するテキストを、前記グループ分け実行部によるグループ分けの結果に基づいて、クラス分類する、クラス分類部と、
    を備えていることを特徴とするテキストクラスタリング装置。
  2. 前記テキスト集合を構成するテキストそれぞれから、用言を検出し、検出した用言が設定された用言である場合に、当該用言とその主語とを含む記述を抽出する、記述抽出部を更に備えている、請求項1に記載のテキストクラスタリング装置。
  3. 前記グループ分け実行部が、
    2つの前記記述の組合せ毎に、予め設定された規則に基づいて、2つの前記記述の間の親和性を判定し、前記親和性が設定基準を満たす場合に、当該組合せを、前記設定要件を満たす組合せとして特定し、
    そして、各グループにおいて、当該グループに属する前記記述が、互いに矛盾せず、且つ、共通の出来事に関するように、特定した組合せをまとめることによって、グループ分けを実行する、
    請求項1または2に記載のテキストクラスタリング装置。
  4. 前記クラス分類部が、
    前記グループ毎にクラスを設定し、前記記述の抽出元のテキストを、前記記述が属する前記グループに設定された前記クラスにクラス分類する、第1のクラス分類部と、
    前記記述抽出部によって前記記述が抽出されなかったテキストを特定し、特定した各テキストを、前記第1のクラス分類部が設定したいずれかのクラス、又は新たなクラスにクラス分類する、第2のクラス分類部と、
    を備えている、請求項2に記載のテキストクラスタリング装置。
  5. 前記第2のクラス分類部が、特定したテキスト毎に、当該特定したテキストと、前記第1のクラス分類部が設定した、前記クラスに分類されたテキストとの類似度を求め、求めた類似度に基づいて、クラス分類を実行する、請求項4に記載のテキストクラスタリング装置。
  6. テキスト集合を対象としたクラスタリングを行なうための方法であって、
    (a)前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
    (b)前記テキスト集合を構成するテキストを、前記(a)のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
    を有することを特徴とするテキストクラスタリング方法。
  7. コンピュータによってテキスト集合を対象としたクラスタリングを行なうための、プログラムを記録したコンピュータ読み取り可能な記録媒体であって、
    前記コンピュータに、
    (a)前記テキスト集合を構成するテキストから抽出され、且つ、設定された用言及び主語を含む記述の中から、特定の出来事に関して設定要件を満たす記述の組合せを特定し、特定した組合せを用いて、前記記述それぞれを、出来事毎のグループに分ける、ステップと、
    (b)前記テキスト集合を構成するテキストを、前記(a)のステップによるグループ分けの結果に基づいて、クラス分類する、ステップと、
    を実行させる、命令を含むプログラムを記録しているコンピュータ読み取り可能な記録媒体。
JP2013511972A 2011-04-27 2012-03-15 テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム Active JP5534280B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013511972A JP5534280B2 (ja) 2011-04-27 2012-03-15 テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2011098912 2011-04-27
JP2011098912 2011-04-27
PCT/JP2012/056690 WO2012147428A1 (ja) 2011-04-27 2012-03-15 テキストクラスタリング装置、テキストクラスタリング方法、およびコンピュータ読み取り可能な記録媒体
JP2013511972A JP5534280B2 (ja) 2011-04-27 2012-03-15 テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP5534280B2 JP5534280B2 (ja) 2014-06-25
JPWO2012147428A1 true JPWO2012147428A1 (ja) 2014-07-28

Family

ID=47071954

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013511972A Active JP5534280B2 (ja) 2011-04-27 2012-03-15 テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム

Country Status (3)

Country Link
US (1) US20140052728A1 (ja)
JP (1) JP5534280B2 (ja)
WO (1) WO2012147428A1 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6260791B2 (ja) * 2012-12-18 2018-01-17 日本電気株式会社 要求間矛盾判定システム、要求間矛盾判定方法、および、要求間矛盾判定プログラム
WO2015118616A1 (ja) * 2014-02-04 2015-08-13 株式会社Ubic 文書分析システム、文書分析方法、および、文書分析プログラム
WO2015118802A1 (ja) * 2014-02-05 2015-08-13 日本電気株式会社 文書解析システム、文書解析方法および文書解析プログラムが格納された記憶媒体、並びに、文書クラスタリングシステム、文書クラスタリング方法および文書クラスタリングプログラムが格納された記憶媒体
CN103826167B (zh) * 2014-03-18 2017-06-13 上海景界信息科技有限公司 一种微课播放引擎及微课播放方法
CN105988990B (zh) * 2015-02-26 2021-06-01 索尼公司 汉语零指代消解装置和方法、模型训练方法和存储介质
US9904669B2 (en) 2016-01-13 2018-02-27 International Business Machines Corporation Adaptive learning of actionable statements in natural language conversation
US10755195B2 (en) 2016-01-13 2020-08-25 International Business Machines Corporation Adaptive, personalized action-aware communication and conversation prioritization
CN107273412B (zh) * 2017-05-04 2019-09-27 北京拓尔思信息技术股份有限公司 一种文本数据的聚类方法、装置和系统
TWI661319B (zh) * 2017-11-30 2019-06-01 財團法人資訊工業策進會 根據文本產生控制指令之裝置、方法及其電腦程式產品
JP7106999B2 (ja) * 2018-06-06 2022-07-27 日本電信電話株式会社 難易度推定装置、難易度推定モデル学習装置、方法、及びプログラム
CN110008343A (zh) * 2019-04-12 2019-07-12 深圳前海微众银行股份有限公司 文本分类方法、装置、设备及计算机可读存储介质
CN110162632B (zh) * 2019-05-17 2021-04-09 北京百分点科技集团股份有限公司 一种新闻专题事件发现的方法
CN111274388B (zh) * 2020-01-14 2024-05-10 平安科技(深圳)有限公司 一种文本聚类的方法及装置
US11625155B2 (en) * 2020-03-23 2023-04-11 Ricoh Company, Ltd. Information processing system, user terminal, method of processing information
US11281858B1 (en) * 2021-07-13 2022-03-22 Exceed AI Ltd Systems and methods for data classification
CN113806486B (zh) * 2021-09-23 2024-05-10 深圳市北科瑞声科技股份有限公司 长文本相似度的计算方法及装置、存储介质、电子装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6462725A (en) * 1987-09-02 1989-03-09 Nippon Telegraph & Telephone Simple sentence classifying system by semantic contents
JPH06259471A (ja) * 1993-03-08 1994-09-16 Nippon Telegr & Teleph Corp <Ntt> メッセージ種別判定装置
US7925610B2 (en) * 1999-09-22 2011-04-12 Google Inc. Determining a meaning of a knowledge item using document-based information
JP3925003B2 (ja) * 1999-09-29 2007-06-06 富士ゼロックス株式会社 文書処理装置および文書処理方法
US7613690B2 (en) * 2005-10-21 2009-11-03 Aol Llc Real time query trends with multi-document summarization
US7685091B2 (en) * 2006-02-14 2010-03-23 Accenture Global Services Gmbh System and method for online information analysis
JP4550074B2 (ja) * 2007-01-23 2010-09-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 不均質な情報源からの情報トラッキングのためのシステム、方法およびコンピュータ実行可能プログラム

Also Published As

Publication number Publication date
US20140052728A1 (en) 2014-02-20
JP5534280B2 (ja) 2014-06-25
WO2012147428A1 (ja) 2012-11-01

Similar Documents

Publication Publication Date Title
JP5534280B2 (ja) テキストクラスタリング装置、テキストクラスタリング方法、およびプログラム
US10664505B2 (en) Method for deducing entity relationships across corpora using cluster based dictionary vocabulary lexicon
US10546005B2 (en) Perspective data analysis and management
US10073834B2 (en) Systems and methods for language feature generation over multi-layered word representation
US9465790B2 (en) SVO-based taxonomy-driven text analytics
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
US20170262429A1 (en) Collecting Training Data using Anomaly Detection
US20200134398A1 (en) Determining intent from multimodal content embedded in a common geometric space
CN110674297B (zh) 舆情文本分类模型构建和舆情文本分类方法、装置及设备
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
US20120158742A1 (en) Managing documents using weighted prevalence data for statements
US9262400B2 (en) Non-transitory computer readable medium and information processing apparatus and method for classifying multilingual documents
AU2016204573A1 (en) Common data repository for improving transactional efficiencies of user interactions with a computing device
Ketmaneechairat et al. Natural language processing for disaster management using conditional random fields
US20150039290A1 (en) Knowledge-rich automatic term disambiguation
Mani et al. Hi, how can I help you?: Automating enterprise IT support help desks
US10042913B2 (en) Perspective data analysis and management
KR102280490B1 (ko) 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법
US10614100B2 (en) Semantic merge of arguments
CN111488450A (zh) 一种用于生成关键词库的方法、装置和电子设备
Makrynioti et al. PaloPro: a platform for knowledge extraction from big social data and the news
US9946762B2 (en) Building a domain knowledge and term identity using crowd sourcing
CN112100364A (zh) 文本语义理解方法和模型训练方法、装置、设备和介质
US10013482B2 (en) Context-dependent evidence detection
Raj et al. Analyzing Comments on Social Media with XG Boost Mechanism

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140402

R150 Certificate of patent or registration of utility model

Ref document number: 5534280

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140415