JPWO2011004524A1 - テキストマイニング装置 - Google Patents

テキストマイニング装置 Download PDF

Info

Publication number
JPWO2011004524A1
JPWO2011004524A1 JP2011521777A JP2011521777A JPWO2011004524A1 JP WO2011004524 A1 JPWO2011004524 A1 JP WO2011004524A1 JP 2011521777 A JP2011521777 A JP 2011521777A JP 2011521777 A JP2011521777 A JP 2011521777A JP WO2011004524 A1 JPWO2011004524 A1 JP WO2011004524A1
Authority
JP
Japan
Prior art keywords
feature
text mining
cluster
sentence
expressions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2011521777A
Other languages
English (en)
Inventor
貴士 大西
貴士 大西
安藤 真一
真一 安藤
聡 中澤
聡 中澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2011004524A1 publication Critical patent/JPWO2011004524A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

このテキストマイニング装置300は、クラスタリング部301を備える。クラスタリング部301は、文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングする。この結果、ユーザが、同一の原文を繰り返し閲覧する確率を確実に低減することができる。

Description

本発明は、文書集合に基づいてテキストマイニング処理を行うテキストマイニング装置に関する。
文書集合から、文書集合の特徴を表す表現である特徴表現を抽出するテキストマイニング装置が知られている。なお、本明細書においては、テキストマイニング技術を用いて、少なくとも1つの文書を含む文書集合から、その文書集合に特徴的に出現する表現を抽出した結果を、「特徴表現」と表記する。
各特徴表現は、1つ、又は、複数の単語からなる。例えば、近年の特許潮流について記述している文書をテキストマイニングした結果、「特許」、「ビジネス/モデル」及び「補正」等の特徴表現が抽出された場合を想定する。ここで、「/」は、単語の区切りを表しているものとする。
「特許」及び「補正」のそれぞれが、1つの単語からなる特徴表現の例であり、「ビジネス/モデル」が2つの単語からなる特徴表現の例である(実際にどのような文字列で単語が区切られるかは、テキストマイニング処理の際に使用される辞書に依存する)。
また、特徴表現は、連続する複数の単語を表す表現だけでなく、複数の単語とその単語間の係り受け関係及び/又は構文関係とを表す表現も含む。例えば、特徴表現は、「請求項」及び「補正」と、「請求項」及び「補正」の間に係り受け関係が存在することと、を表す表現も含む。
更に、テキストマイニング技術を用いることにより、文書集合から特徴表現を抽出する際に、同じ意味を有する単語及び表現の揺れを吸収するための同義語処理、及び/又は、言い換え処理を行った結果を使用して、特徴表現が求められても良い。
なお、特徴表現を抽出する技術は、自然言語処理技術、又は、テキストマイニング技術において周知の技術である。例えば、この技術は、非特許文献1における「3.1 テキストからの情報抽出」において開示されている。
ところで、上記テキストマイニング装置は、文書に含まれる特徴表現の数を計数するとともに、各特徴表現に対して、情報量基準等に基づいた特徴度を算出することにより、特徴表現を抽出する。
ところで、特徴表現は、比較的少ない数の単語からなることが多い。従って、ユーザが特徴表現を閲覧しても、各特徴表現が、テキストマイニング対象とする文章集合のどのような特徴を表しているものなのか、把握することは困難である。このため、この種のテキストマイニング装置は、原文参照機能を備える。原文参照機能は、文書集合中の特徴表現が出現している箇所の文を原文として出力する機能である。これによりユーザは、原文として、特徴表現だけでなく特徴表現が出現する周囲の文脈も閲覧することが可能となり、その結果、各特徴表現が表す内容を把握することができる。
しかしながら、テキストマイニング装置が、抽出された特徴表現毎に原文を出力するように構成されていると、テキストマイニング装置は、複数の互いに異なる特徴表現に対して同一の原文を出力することがある。即ち、複数の互いに異なる特徴表現が同一の文書から抽出されていることがある。例えば、特徴表現が複数の単語からなる場合において、単語の組み合わせが異なる特徴表現が複数存在するとき、同一の単語を含む複数の特徴表現が同一の文書から抽出されることがある。
このような場合、ユーザは、同一の原文を繰り返し閲覧する確率が比較的高い。即ち、ユーザが、効率良く文書集合の概要を把握することができない。
そこで、特許文献1に記載のテキストマイニング装置は、抽出された特徴表現間の包含関係や重複関係を用いて特徴表現のまとめあげを行う。これにより、ユーザが同一の原文を繰り返し閲覧する確率を低減することができる。
特開2006−31198号公報
林田英雄、脇森浩志、"テキストマイニング技術とその応用"、[online]、2005年2月、日本ユニシス株式会社、[平成21年6月30日検索]、インターネット<http://www.unisys.co.jp/tec_info/tr84/8403.pdf>
しかしながら、同一の文書から抽出された複数の互いに異なる特徴表現は、必ずしも包含関係、又は、重複関係を有しているわけではない。そのため、特許文献1に記載のテキストマイニング装置によっては、包含関係、又は、重複関係を有しない特徴表現同士を同一視して、一つの特徴表現にまとめあげることができない。従って、ユーザが同一の原文を繰り返し閲覧する確率を低減することができない場合が生じるという問題があった。
このため、本発明の目的は、上述した課題である「ユーザが同一の原文を繰り返し閲覧する確率を低減することができない場合が生じること」を解決することが可能なテキストマイニング装置を提供することにある。
かかる目的を達成するため本発明の一形態であるテキストマイニング装置は、
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング手段を備える。
また、本発明の他の形態であるテキストマイニング方法は、
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングする方法である。
また、本発明の他の形態であるテキストマイニング用プログラムは、
テキストマイニング装置に、
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング手段を実現させるためのプログラムである。
本発明は、以上のように構成されることにより、ユーザが、同一の原文を繰り返し閲覧する確率を確実に低減することができる。
本発明の第1実施形態に係るテキストマイニング装置の機能の概略を表すブロック図である。 本発明の第1実施形態に係るテキストマイニング装置のCPUが実行するテキストマイニング用プログラムを示したフローチャートである。 本発明の第1実施形態に係るテキストマイニング装置により抽出された特徴表現を示した図である。 本発明の第1実施形態に係るテキストマイニング装置により取得された特徴表現含有情報を示したテーブルである。 本発明の第1実施形態に係るテキストマイニング装置によりクラスタリングされた特徴表現を示したテーブルである。 本発明の第2実施形態に係るテキストマイニング装置の機能の概略を表すブロック図である。 本発明の第2実施形態に係るテキストマイニング装置のCPUが実行するテキストマイニング用プログラムを示したフローチャートである。 本発明の第2実施形態に係るテキストマイニング装置により抽出された特徴文を示したテーブルである。 本発明の第3実施形態に係るテキストマイニング装置の機能の概略を表すブロック図である。 本発明の第3実施形態に係るテキストマイニング装置のCPUが実行するテキストマイニング用プログラムを示したフローチャートである。 本発明の第3実施形態に係るテキストマイニング装置のCPUが特徴文を生成する際の処理を概念的に示した説明図である。 本発明の第4実施形態に係るテキストマイニング装置の機能の概略を表すブロック図である。
以下、本発明に係る、テキストマイニング装置、テキストマイニング方法、及び、テキストマイニング用プログラム、の各実施形態について図1〜図12を参照しながら説明する。
<第1実施形態>
先ず、図1〜図5を参照しながら、第1実施形態に係るテキストマイニング装置100について説明する。テキストマイニング装置100は、図示しない中央処理装置(CPU;Central Processing Unit)、記憶装置(メモリ及びハードディスク駆動装置(HDD;Hard Disk Drive))、入力装置及び出力装置を備える情報処理装置である。
出力装置は、ディスプレイを有する。出力装置は、CPUから出力された画像情報に基づいて、文字及び図形等からなる画像をディスプレイに表示させる。入力装置は、キーボード及びマウスを有する。テキストマイニング装置100は、キーボード及びマウスを介して、ユーザの操作に基づく情報が入力されるように構成されている。
テキストマイニング装置100は、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。
図1は、上記のように構成されたテキストマイニング装置100の機能を表すブロック図である。この機能は、テキストマイニング装置100のCPUが図2に示したフローチャートにより表されるプログラム等を実行することにより実現される。
このテキストマイニング装置100の機能は、文書集合入力部1と、特徴表現抽出部2と、クラスタリング部3と、クラスタリング結果出力部(特徴表現出力手段、原文出力手段)4と、を含む。
文書集合入力部1は、テキストマイニング装置100と通信可能に接続された外部装置200が備える文書集合記憶部5に記憶されている文書集合を、外部装置200から受信することにより、文書集合を入力する(受け付ける)。文書集合は、少なくとも1つの文書を含む。文書は、文を構成する文字列を表す情報である。なお、テキストマイニング装置100は、文書集合記憶部5を備えていてもよい。
特徴表現抽出部2は、文書集合入力部1により入力された文書集合に対して、形態素解析、あるいは、構文解析を行うことにより、文書集合に含まれる文を、1つ又は複数の単語からなる解析単位に分割する。更に、特徴表現抽出部2は、解析単位毎に、その解析単位が、文書集合において出現する頻度、及び/又は、情報量基準等の基準、を求める。
そして、特徴表現抽出部2は、解析単位毎に求めた頻度及び/又は基準に基づいて、上記文書集合の特徴を表す表現である特徴表現を、当該文書集合から抽出する。特徴表現は、文書集合に特徴的に出現する解析単位をそのまま特徴表現として使用しても良い。また特徴的に出現する解析単位を組み合わせて一つの特徴表現としてもよい。本例では、特徴表現は、少なくとも1つの単語を含む。更に、特徴表現は、複数の単語間の係り受け関係及び/又は構文関係を表す情報も含む。
特徴表現抽出部2が文書集合から特徴表現を抽出する方法は、テキストマイニング技術において用いられる方法と同じ方法である。なお、特徴表現抽出部2は、文書集合から特徴表現を抽出する方法として、公知のいずれの方法を用いてもよい。
クラスタリング部3は、特徴表現抽出部2により抽出された複数の特徴表現を、文書集合入力部1により入力された文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングする。即ち、クラスタリング部3は、上記複数の特徴表現を、上記文書集合のうち、各特徴表現が抽出される基となった文である原文を含む文書の集合が類似している程度に基づいて、異なる特徴表現から原文として同一の文を出力することが可能となる特徴表現同士が同一のクラスタ(集合)を構成するようにクラスタリングを行う。
具体的には、クラスタリング部3は、出現文書ベクトル作成部31と、特徴表現クラスタリング部32と、を含む。
出現文書ベクトル作成部31は、特徴表現抽出部2により抽出された特徴表現、及び、上記文書集合を構成する文書、の組のそれぞれに対して、当該文書が当該特徴表現を含む(即ち、当該文書において当該特徴表現が出現する)か否かを表す特徴表現含有情報を取得する。本例では、特徴表現含有情報は、文書に特徴表現が含まれる場合に「1」に設定され、一方、文書に特徴表現が含まれない場合に「0」に設定される。
そして、出現文書ベクトル作成部31は、特徴表現毎に、その特徴表現に対して取得された特徴表現含有情報を要素とする出現文書ベクトルを生成する。
なお、本例では、出現文書ベクトルの要素は、各文書にその特徴表現が含まれているかどうかを示す2値の値(「0」か「1」)を特徴表現含有情報として用いたが、文書において特徴表現が出現する頻度に基づく値(例えば、tf−idf(Term Frequency−Inverse Document Frequency)値)を用いるなど、多値の値を出現文書ベクトルの要素として用いても良い。
特徴表現クラスタリング部32は、出現文書ベクトル作成部31により生成された出現文書ベクトル(即ち、特徴表現含有情報)に基づいて、各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度を算出する。
例えば、特徴表現クラスタリング部32は、第1の特徴表現に対して生成された出現文書ベクトルと、第2の特徴表現に対して生成された出現文書ベクトルと、の差(即ち、各要素の差を要素とするベクトル)の大きさ(即ち、各要素を2乗した値の和の平方根)の逆数を類似度として算出する。
そして、特徴表現クラスタリング部32は、算出された類似度が予め設定された基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめるようにクラスタリングする。本例では、特徴表現クラスタリング部32は、特徴表現と、クラスタを識別するための識別情報と、を対応付けて記憶装置に記憶させる。
クラスタリング結果出力部4は、特徴表現クラスタリング部32によりクラスタリングされた特徴表現を、クラスタ毎に出力する。即ち、クラスタリング結果出力部4は、クラスタ毎に、当該クラスタにまとめられた特徴表現を出力する。
また、クラスタリング結果出力部4は、クラスタ毎に、ユーザにより入力された出力指示を受け付ける。クラスタリング結果出力部4は、出力指示を受け付けると、上記文書集合のうちの、出力指示の対象となったクラスタにまとめられた特徴表現を含む文(原文)を出力する。
次に、上述したテキストマイニング装置100の作動について説明する。
テキストマイニング装置100のCPUは、図2にフローチャートにより示したテキストマイニング用プログラムを実行するようになっている。
具体的に述べると、CPUは、テキストマイニング用プログラムの処理を開始すると、ステップA1にて、テキスト情報を受け付ける。本例では、CPUが、2007年6月の「温暖化対策」に関する文書集合を受け付けた場合を想定して説明を続ける。
そして、CPUは、受け付けた文書集合から特徴表現を抽出する(ステップA2)。具体的には、CPUは、受け付けた文書集合を構文解析によって木構造に変換する。そして、CPUは、各木構造に含まれる、すべての部分木のそれぞれに対して頻度を計数する(この例では、解析単位は構文解析結果得られた構文木の部分木となる)。更に、CPUは、頻度と部分木の大きさとに基づいて算出される特徴度に基づいて、特徴表現を抽出する。
いま、図3に示したように、CPUが12個の特徴表現を抽出した場合を想定して説明を続ける。ここで、特徴表現内のハイフン「−」は係り受け関係を表す。
次いで、CPUは、抽出された特徴表現のそれぞれに対して、出現文書ベクトルを生成する(ステップA3)。本例では、図4に示したように、CPUが出現文書ベクトルを生成した場合を想定して説明を続ける。
次に、CPUは、作成された出現文書ベクトルに基づいて特徴表現をクラスタリングする(ステップA4)。具体的には、CPUは、複数の特徴表現の任意の組のそれぞれに対して、出現文書ベクトルに基づいて類似度を算出する。そして、CPUは、算出された類似度が基準類似度よりも大きくなる組を構成する特徴表現を同一のクラスタにまとめるようにクラスタリングする。
本例では、図5に示したように、CPUが、複数の特徴表現を2つのクラスタ(クラスタ#1及びクラスタ#2)にクラスタリングした場合を想定して説明を続ける。即ち、「ハイリゲンダム」及び「G8−サミット」の組に対して算出される類似度、並びに、「キャンドル」及び「ライト−ダウン」の組に対して算出される類似度等が基準類似度よりも大きい場合が想定されている。
そして、CPUは、クラスタ毎に、そのクラスタにまとめられた特徴表現を出力する(ステップA5)。本例では、CPUは、クラスタ毎に設定した領域内に当該クラスタにまとめられた特徴表現を配置した画像を出力する(ディスプレイに表示させる)。
その後、CPUは、クラスタを識別するための情報を含む出力指示を受け付けた場合、上記文書集合のうちの、出力指示により識別される(即ち、その出力指示の対象となった)クラスタにまとめられた特徴表現を含む文である原文を出力する。
従って、本例では、ユーザは、クラスタの数(即ち、2回)だけ出力指示を入力することにより、すべての特徴表現に対応する原文を閲覧することができる。その結果、ユーザが、同一の原文を繰り返し閲覧する確率を低減することができる。
ところで、テキストマイニング装置が特徴表現毎にその特徴表現を含む原文を出力するように構成されている場合、ユーザは、特徴表現毎に出力指示を入力する必要がある。従って、上述した例の場合、ユーザは、12回、出力指示を入力しなければならない。また、この場合、ユーザが、同一の原文を繰り返し閲覧する確率も比較的高くなる。
また、特許文献1に記載のテキストマイニング装置は、「ハイリゲンダム」及び「ドイツ−ハイリゲンダム」が包含関係を有しているため、「ハイリゲンダム」及び「ドイツ−ハイリゲンダム」を同一のクラスタにクラスタリングすることができる。しかしながら、このテキストマイニング装置は、「ハイリゲンダム」及び「半減−検討」が包含関係及び重複関係のいずれの関係も有していないため、「ハイリゲンダム」及び「半減−検討」を同一のクラスタにクラスタリングすることができない。
従って、特許文献1に記載のテキストマイニング装置が原文を出力する回数は、上記第1実施形態に係るテキストマイニング装置100よりも多くなる。即ち、ユーザが特許文献1に記載のテキストマイニング装置を用いた場合に、ユーザが同一の原文を繰り返し閲覧する確率は、上記第1実施形態に係るテキストマイニング装置100よりも高い。
以上、説明したように、本発明によるテキストマイニング装置の第1実施形態によれば、テキストマイニング装置100は、クラスタ毎に、そのクラスタにまとめられた特徴表現を含む文である原文を出力する。従って、特徴表現毎にその特徴表現を含む原文を出力するように構成されたテキストマイニング装置と比較して、ユーザが、同一の原文を繰り返し閲覧する確率を低減することができる。更に、ユーザが原文を閲覧する回数(例えば、ユーザが出力指示を入力する回数)を減らすこともできる。
また、上記第1実施形態によれば、テキストマイニング装置100は、クラスタ毎に、当該クラスタにまとめられた特徴表現を出力するように構成されている。これによれば、ユーザは、原文を閲覧することなく、クラスタにまとめられた複数の特徴表現を閲覧することにより、文書集合の概要を把握することもできる。
<第2実施形態>
次に、本発明の第2実施形態に係るテキストマイニング装置について説明する。第2実施形態に係るテキストマイニング装置は、上記第1実施形態に係るテキストマイニング装置に対して、特徴表現に加えて、または代えて、特徴表現を含む特徴文を出力する点において相違している。従って、以下、かかる相違点を中心として説明する。
図6に示したように、第2実施形態に係るテキストマイニング装置100Aの機能は、第1実施形態に係るテキストマイニング装置100が含むクラスタリング結果出力部4に代えて、クラスタリング結果出力部6を含む。また、テキストマイニング装置100Aの機能は、テキストマイニング装置100と同様に、文書集合入力部1、特徴表現抽出部2及びクラスタリング部3を含む。
更に、クラスタリング結果出力部6は、特徴文抽出部7を含む。特徴文抽出部7は、クラスタ毎に、当該クラスタにまとめられた特徴表現を含む特徴文を抽出する。本例では、特徴文抽出部7は、テキストマイニング対象とする文書集合中の文書に含まれる文の一つを特徴文として抽出する。このとき、特徴文抽出部7は、クラスタにまとめられた特徴表現を最も多く含む文を特徴文として抽出する。
なお、本例では、特徴文抽出部7は、文に含まれる特徴表現の数に基づいて特徴文を抽出するように構成されているが、文に含まれる当該クラスタの特徴表現の数に加えて、文を構成する文字数、及び、特徴表現が文書集合の特徴を表す程度である特徴度、のうちの少なくとも1つの値を特徴文抽出の際に基準として用いるよう構成されていてもよい。ここで特徴文を構成する文字数を特徴文抽出のパラメータとして使用するのは、単に特徴表現の数だけを基準として特徴文を選別した場合、長すぎる文が選別されやすくなるため、それを抑制するためや、出力する特徴文の長さを本発明を使用する際の用途や状況に応じて読みやすい長さに調整するため、などの効果を得るためである。特徴文は、特徴文に含まれる特徴表現から見た場合、原文の一つであるが、当該クラスタの複数の特徴表現に共通の原文である、という点にその特徴がある。一つのクラスタに属する特徴表現を全て含む特徴文が存在しない場合は、クラスタの特徴文として複数の文を抽出しても良い。
クラスタリング結果出力部6は、クラスタ毎に、特徴文抽出部7により抽出された特徴文を出力する。この際、各クラスタの特徴表現を合わせて出力しても良い。
次に、第2実施形態に係るテキストマイニング装置100Aの作動について説明する。
テキストマイニング装置100AのCPUは、図7にフローチャートにより示したテキストマイニング用プログラムを実行するようになっている。このプログラムは、図2に示したプログラムのステップA5を、ステップB1及びステップB2に置換したプログラムである。
即ち、CPUは、上記第1実施形態と同様に、ステップA1〜ステップA4の処理を実行する。そして、CPUは、ステップB1にて、クラスタ毎に、当該クラスタにまとめられた特徴表現を含む特徴文を抽出する。例えば、CPUは、図8に示したように、クラスタ毎に特徴文を抽出する。
次いで、CPUは、ステップB2にて、抽出された特徴文を出力する(ディスプレイに表示させる、ネットワークを通して他の計算機に送信する等)。
このように、上記第2実施形態に係るテキストマイニング装置によれば、ユーザは、特徴表現と同数の原文を閲覧することなく、クラスタ毎に複数の特徴表現に共通の原文である特徴文を閲覧することにより、テキスト情報の概要を把握することができる。また、上記第2実施形態によれば、特徴表現毎に原文を抽出するようにテキストマイニング装置が構成されている場合と比較して、テキスト情報の概要をよりよく表す特徴文を抽出することができる。なぜならば、まず各特徴表現の出現文書ベクトルに基づき特徴表現をクラスタリングすることで関係性の高い特徴表現どうしをまとめているからである。まとめられたクラスタ毎に、そのクラスタに含まれる特徴表現を多く含む原文を特徴文として抽出することで、単に特徴表現毎に原文を出力する手法や、クラスタに制限されない任意の特徴表現を多く含む原文を選択する手法に比べて、本実施の形態では、関係性の高い特徴表現を集めたクラスタを代表する特徴文が出力される。
なお、上記第2実施形態の変形例において、テキストマイニング装置100Aは、特徴表現に加えて特徴文を出力するように構成されていてもよい。
<第3実施形態>
次に、本発明の第3実施形態に係るテキストマイニング装置について説明する。第3実施形態に係るテキストマイニング装置は、上記第2実施形態に係るテキストマイニング装置に対して、特徴文を新たに生成する点において相違している。従って、以下、かかる相違点を中心として説明する。
図9に示したように、第3実施形態に係るテキストマイニング装置100Bの機能は、第2実施形態に係るテキストマイニング装置100Aが含むクラスタリング結果出力部6に代えて、クラスタリング結果出力部6Aを含む。また、テキストマイニング装置100Bの機能は、テキストマイニング装置100Aと同様に、文書集合入力部1、特徴表現抽出部2及びクラスタリング部3を含む。
更に、クラスタリング結果出力部6Aは、特徴文生成部8を含む。特徴文生成部8は、クラスタ毎に、当該クラスタにまとめられた特徴表現に基づいて特徴文を生成する。本例では、特徴文生成部8は、クラスタにまとめられた特徴表現を連結することにより特徴文を生成する。なお、特徴文生成部8は、クラスタにまとめられた特徴表現に、特徴表現を含む原文において特徴表現の直前又は直後に位置する単語(助詞を含む)を加えることにより特徴文を生成するように構成されていてもよい。
なお、特徴表現から特徴文を生成する技術の一例は、特開2006−92468号公報等に開示されている。従って、本明細書では詳細な説明を省略する。
クラスタリング結果出力部6Aは、クラスタ毎に、特徴文生成部8により生成された特徴文を出力する。
次に、第3実施形態に係るテキストマイニング装置100Bの作動について説明する。
テキストマイニング装置100BのCPUは、図10にフローチャートにより示したテキストマイニング用プログラムを実行するようになっている。このプログラムは、図7に示したプログラムのステップB1を、ステップC1に置換したプログラムである。
即ち、CPUは、上記第2実施形態と同様に、ステップA1〜ステップA4の処理を実行する。そして、CPUは、ステップC1にて、クラスタ毎に、当該クラスタにまとめられた特徴表現を含む特徴文を生成する。
具体的には、CPUは、特徴表現を含む原文(文書に含まれる文)から、特徴表現の直前の単語から直後の単語までの部分文字列を抽出する。そして、CPUは、抽出した部分文字列が同一の単語を含む場合、その単語を連結部とするように、抽出した部分文字列を連結する。同一の単語を含まない場合は、そのまま抽出した部分文字列を連結する。連結にあたっては、単語の接続に関する文法的な制約を満たすよう各部分文字列に含まれる単語の活用形や、語尾を変化させても良い。なお、文生成技術自体は、
を例とする公知の技術であり、ここではその詳細はふれない。
例えば、CPUは、図11に示したように、特徴表現の直前の単語から直後の単語までの部分文字列として、「ドイツ・ハイリゲンダムのG8サミット」と「G8サミットで排出量半減を検討」とを抽出する。そして、CPUは、抽出した部分文字列のうちの同一の文字列である「G8サミット」を連結部とするように、「ドイツ・ハイリゲンダムのG8サミット」及び「G8サミットで排出量半減を検討」を連結する。これにより、CPUは、特徴文として「ドイツ・ハイリゲンダムのG8サミットで排出量半減を検討」を生成する。
次いで、CPUは、ステップB2にて、生成された特徴文を出力する(ディスプレイに表示させる、あるいは、ネットワークで接続された他の機器に送信する等)。
このように、上記第3実施形態に係るテキストマイニング装置によれば、ユーザは、原文を閲覧することなく、特徴文を閲覧することにより、テキスト情報の概要を把握することができる。
ところで、文書集合が表す文の中に、複数の特徴表現を含む文が存在しない場合、上記第2実施形態に係るテキストマイニング装置100Aが抽出する特徴文は、文書集合の概要をよく表していないことがある。これに対し、上記第3実施形態に係るテキストマイニング装置100Bによれば、このような場合であっても、複数の特徴表現を含む特徴文を出力することができる。従って、ユーザは、特徴文を閲覧することにより文書集合の概要を適切に把握することができる。
<第4実施形態>
次に、本発明の第4実施形態に係るテキストマイニング装置について図12を参照しながら説明する。
第4実施形態に係るテキストマイニング装置300は、
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング部(クラスタリング手段)301を備える。
これによれば、例えば、クラスタ毎に、そのクラスタにまとめられた特徴表現を含む文である原文を出力するように、テキストマイニング装置300を構成することができる。従って、特徴表現毎にその特徴表現を含む原文を出力するように構成されたテキストマイニング装置と比較して、ユーザが、同一の原文を繰り返し閲覧する確率を確実に低減することができる。更に、ユーザが原文を閲覧する回数を減らすこともできる。
この場合、上記クラスタリング手段は、各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめるように構成されることが好適である。
この場合、上記クラスタリング手段は、上記文書及び上記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて上記類似度を算出するように構成されることが好適である。
この場合、上記テキストマイニング装置は、
上記クラスタ毎に、当該クラスタにまとめられた特徴表現を出力する特徴表現出力手段を備えることが好適である。
これによれば、ユーザは、原文を閲覧することなく、クラスタにまとめられた複数の特徴表現を閲覧することにより、文書集合の概要を把握することができる。
この場合、上記テキストマイニング装置は、
上記クラスタ毎に、当該クラスタにまとめられた特徴表現を含む上記原文を出力する原文出力手段を備えることが好適である。
これによれば、特徴表現毎にその特徴表現を含む原文を出力するように構成されたテキストマイニング装置と比較して、ユーザが、同一の原文を繰り返し閲覧する確率を低減することができる。更に、ユーザが原文を閲覧する回数を減らすこともできる。
この場合、上記特徴表現出力手段は、上記クラスタ毎に、当該クラスタにまとめられた特徴表現を複数個含む原文を特徴文として抽出し、抽出した特徴文を上記クラスタ毎に出力するように構成されることが好適である。
これによれば、ユーザは、特徴文を閲覧することにより、文書集合の概要を把握することができる。
この場合、上記特徴表現出力手段は、上記クラスタ毎に、当該クラスタに属する特徴表現が文に含まれている数、文を構成する文字の数、及び、上記特徴表現が上記文書集合の特徴を表す程度を示す特徴度、のうちの少なくとも1つに基づいて上記特徴文を抽出するように構成されることが好適である。
クラスタに属する特徴表現をより多く含む文ほど、そのクラスタをよく表す。従って、文に含まれる特徴表現の数に基づいて特徴文を抽出することが好適である。
また、文を構成する文字の数が過度に少ない(即ち、文が過度に短い)と、ユーザがその文を閲覧しても、そのユーザが所望する情報を得ることができない可能性が高くなる。一方、文を構成する文字の数が過度に多い(即ち、文が過度に長い)と、ユーザがその文を閲覧するために要する時間が過度に長くなる。従って、文を構成する文字の数に基づいて特徴文を抽出することが好適である。
また、特徴表現が文書集合の特徴を表す程度を示す特徴度が高くなる文ほど、その特徴表現を含むクラスタをよく表す。従って、特徴度に基づいて特徴文を抽出することが好適である。
また、上記テキストマイニング装置の他の態様において、
上記特徴表現出力手段は、上記クラスタ毎に、当該クラスタにまとめられた特徴表現に基づいて上記特徴表現を含む特徴文を生成するように構成されることが好適である。
この場合、上記特徴表現出力手段は、上記クラスタ毎に、当該クラスタにまとめられた特徴表現を連結することにより上記特徴文を生成するように構成されることが好適である。
また、本発明の他の形態であるテキストマイニング方法は、
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングする方法である。
この場合、上記テキストマイニング方法は、
各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめることが好適である。
この場合、上記テキストマイニング方法は、
上記文書及び上記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて上記類似度を算出することが好適である。
また、本発明の他の形態であるテキストマイニング用プログラムは、
テキストマイニング装置に、
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング手段を実現させるためのプログラムである。
この場合、上記クラスタリング手段は、各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめるように構成されることが好適である。
この場合、上記クラスタリング手段は、上記文書及び上記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて上記類似度を算出するように構成されることが好適である。
上述した構成を有する、テキストマイニング方法、又は、テキストマイニング用プログラム、の発明であっても、上記テキストマイニング装置と同様の作用を有するために、上述した本発明の目的を達成することができる。
以上、上記実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。
例えば、上記各実施形態においてテキストマイニング装置100,100A,100B,300は、出力指示を受け付けた場合に、原文を出力するように構成されていたが、所定の時間が経過する毎に、順に原文を出力するように構成されていてもよい。
なお、上記各実施形態においてテキストマイニング装置100,100A,100B,300の各機能は、CPUがプログラム(ソフトウェア)を実行することにより実現されていたが、回路等のハードウェアにより実現されていてもよい。
また、上記各実施形態においてプログラムは、記憶装置に記憶されていたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
また、上記実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。
なお、本発明は、日本国にて2009年7月7日に出願された特願2009−160811の特許出願に基づく優先権主張の利益を享受するものであり、当該特許出願にて開示された内容のすべてが本明細書に含まれるものとする。
本発明は、文書集合から、当該文書集合の概要を表す情報を抽出するテキストマイニング装置等に適用可能である。
1 文書集合入力部
2 特徴表現抽出部
3 クラスタリング部
4 クラスタリング結果出力部
5 文書集合記憶部
6 クラスタリング結果出力部
6A クラスタリング結果出力部
7 特徴文抽出部
8 特徴文生成部
31 出現文書ベクトル作成部
32 特徴表現クラスタリング部
100 テキストマイニング装置
100A テキストマイニング装置
100B テキストマイニング装置
200 外部装置
300 テキストマイニング装置
301 クラスタリング部

Claims (15)

  1. 文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング手段を備えるテキストマイニング装置。
  2. 請求項1に記載のテキストマイニング装置であって、
    前記クラスタリング手段は、各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめるように構成されたテキストマイニング装置。
  3. 請求項1又は請求項2に記載のテキストマイニング装置であって、
    前記クラスタリング手段は、前記文書及び前記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて前記類似度を算出するように構成されたテキストマイニング装置。
  4. 請求項1乃至請求項3のいずれか一項に記載のテキストマイニング装置であって、
    前記クラスタ毎に、当該クラスタにまとめられた特徴表現を出力する特徴表現出力手段を備えるテキストマイニング装置。
  5. 請求項1乃至請求項4のいずれか一項に記載のテキストマイニング装置であって、
    前記クラスタ毎に、当該クラスタにまとめられた特徴表現を含む前記原文を出力する原文出力手段を備えるテキストマイニング装置。
  6. 請求項4又は請求項5に記載のテキストマイニング装置であって、
    前記特徴表現出力手段は、前記クラスタ毎に、当該クラスタにまとめられた特徴表現を複数個含む原文を特徴文として抽出し、抽出した特徴文を前記クラスタ毎に出力するように構成されたテキストマイニング装置。
  7. 請求項6に記載のテキストマイニング装置であって、
    前記特徴表現出力手段は、前記クラスタ毎に、当該クラスタに属する特徴表現が文に含まれている数、文を構成する文字の数、及び、前記特徴表現が前記文書集合の特徴を表す程度を示す特徴度、のうちの少なくとも1つに基づいて前記特徴文を抽出するように構成されたテキストマイニング装置。
  8. 請求項4又は請求項5に記載のテキストマイニング装置であって、
    前記特徴表現出力手段は、前記クラスタ毎に、当該クラスタにまとめられた特徴表現に基づいて前記特徴表現を含む特徴文を生成するように構成されたテキストマイニング装置。
  9. 請求項8に記載のテキストマイニング装置であって、
    前記特徴表現出力手段は、前記クラスタ毎に、当該クラスタにまとめられた特徴表現を連結することにより前記特徴文を生成するように構成されたテキストマイニング装置。
  10. 文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングする、テキストマイニング方法。
  11. 請求項10に記載のテキストマイニング方法であって、
    各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめる、テキストマイニング方法。
  12. 請求項10又は請求項11に記載のテキストマイニング方法であって、
    前記文書及び前記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて前記類似度を算出する、テキストマイニング方法。
  13. テキストマイニング装置に、
    文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング手段を実現させるためのテキストマイニング用プログラム。
  14. 請求項13に記載のテキストマイニング用プログラムであって、
    前記クラスタリング手段は、各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめるように構成されたテキストマイニング用プログラム。
  15. 請求項13又は請求項14に記載のテキストマイニング用プログラムであって、
    前記クラスタリング手段は、前記文書及び前記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて前記類似度を算出するように構成されたテキストマイニング用プログラム。
JP2011521777A 2009-07-07 2010-04-08 テキストマイニング装置 Pending JPWO2011004524A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2009160811 2009-07-07
JP2009160811 2009-07-07
PCT/JP2010/002563 WO2011004524A1 (ja) 2009-07-07 2010-04-08 テキストマイニング装置

Publications (1)

Publication Number Publication Date
JPWO2011004524A1 true JPWO2011004524A1 (ja) 2012-12-13

Family

ID=43428958

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011521777A Pending JPWO2011004524A1 (ja) 2009-07-07 2010-04-08 テキストマイニング装置

Country Status (3)

Country Link
US (1) US20120117068A1 (ja)
JP (1) JPWO2011004524A1 (ja)
WO (1) WO2011004524A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2015118802A1 (ja) * 2014-02-05 2017-03-23 日本電気株式会社 文書解析システム、文書解析方法および文書解析プログラム、並びに、文書クラスタリングシステム、文書クラスタリング方法および文書クラスタリングプログラム
US10614100B2 (en) * 2014-06-19 2020-04-07 International Business Machines Corporation Semantic merge of arguments
CN110990451B (zh) * 2019-11-15 2023-05-12 浙江大华技术股份有限公司 基于句子嵌入的数据挖掘方法、装置、设备及存储装置
TWI780416B (zh) * 2020-03-13 2022-10-11 兆豐國際商業銀行股份有限公司 交易備註文字辨識方法與系統

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259658A (ja) * 1999-03-10 2000-09-22 Fujitsu Ltd 文書分類装置
JP2000305950A (ja) * 1999-04-26 2000-11-02 Ricoh Co Ltd 文書分類装置および文書分類方法
JP2005346560A (ja) * 2004-06-04 2005-12-15 Hitachi Ltd 検索結果提示方法およびその装置並びに検索結果提示プログラムを格納した記憶媒体
JP2006092468A (ja) * 2004-09-27 2006-04-06 Nec Corp 文書処理装置、文書処理方法、および、文書処理プログラム
JP2006120069A (ja) * 2004-10-25 2006-05-11 Nippon Telegr & Teleph Corp <Ntt> 話題文書提示方法及び装置及びプログラム
JP2009129373A (ja) * 2007-11-27 2009-06-11 Nippon Telegr & Teleph Corp <Ntt> 同姓同名文書分別装置及びプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145677B2 (en) * 2007-03-27 2012-03-27 Faleh Jassem Al-Shameri Automated generation of metadata for mining image and text data
US20100005087A1 (en) * 2008-07-01 2010-01-07 Stephen Basco Facilitating collaborative searching using semantic contexts associated with information

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000259658A (ja) * 1999-03-10 2000-09-22 Fujitsu Ltd 文書分類装置
JP2000305950A (ja) * 1999-04-26 2000-11-02 Ricoh Co Ltd 文書分類装置および文書分類方法
JP2005346560A (ja) * 2004-06-04 2005-12-15 Hitachi Ltd 検索結果提示方法およびその装置並びに検索結果提示プログラムを格納した記憶媒体
JP2006092468A (ja) * 2004-09-27 2006-04-06 Nec Corp 文書処理装置、文書処理方法、および、文書処理プログラム
JP2006120069A (ja) * 2004-10-25 2006-05-11 Nippon Telegr & Teleph Corp <Ntt> 話題文書提示方法及び装置及びプログラム
JP2009129373A (ja) * 2007-11-27 2009-06-11 Nippon Telegr & Teleph Corp <Ntt> 同姓同名文書分別装置及びプログラム

Also Published As

Publication number Publication date
WO2011004524A1 (ja) 2011-01-13
US20120117068A1 (en) 2012-05-10

Similar Documents

Publication Publication Date Title
EP3851975A1 (en) Method and apparatus for generating text topics, and electronic device
Borth et al. Sentibank: large-scale ontology and classifiers for detecting sentiment and emotions in visual content
CN110287278A (zh) 评论生成方法、装置、服务器及存储介质
US20120041953A1 (en) Text mining of microblogs using latent topic labels
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
Atagün et al. Topic modeling using LDA and BERT techniques: Teknofest example
CN106663123B (zh) 以评论为中心的新闻阅读器
WO2011004524A1 (ja) テキストマイニング装置
US20210312333A1 (en) Semantic relationship learning device, semantic relationship learning method, and storage medium storing semantic relationship learning program
JP6373243B2 (ja) 情報処理装置、情報処理方法および情報処理プログラム
JP2024502400A (ja) グラフ・ニューラル・ネットワークを用いたポータブル・ドキュメント・フォーマットの表形式データの自動描写及び抽出
JP2019220098A (ja) 動画編集サーバおよびプログラム
CN111353070A (zh) 视频标题的处理方法、装置、电子设备及可读存储介质
CN109241272B (zh) 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备
WO2017071190A1 (zh) 输入数据的处理方法、装置、设备及非易失性计算机存储介质
WO2018040310A1 (zh) 基于人工智能的推荐数据的获取方法、装置、设备及非易失性计算机存储介质
JP6900334B2 (ja) 映像出力装置、映像出力方法および映像出力プログラム
KR100832859B1 (ko) 모바일 웹 콘텐츠 서비스 시스템 및 그 방법
CN114238689A (zh) 视频生成方法、装置、电子设备、存储介质和程序产品
JP6863648B1 (ja) サーバおよびデータ割り当て方法
JP2019053262A (ja) 学習システム
JP7247593B2 (ja) 生成装置、ソフトウェアロボットシステム、生成方法及び生成プログラム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
JP5644244B2 (ja) 文書処理装置、文書処理方法、及び、プログラム
JP5557791B2 (ja) マイクロブログテキスト分類装置、マイクロブログテキスト分類方法、及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130409

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130529

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131203

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140129

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140708