JPWO2011004524A1 - テキストマイニング装置 - Google Patents
テキストマイニング装置 Download PDFInfo
- Publication number
- JPWO2011004524A1 JPWO2011004524A1 JP2011521777A JP2011521777A JPWO2011004524A1 JP WO2011004524 A1 JPWO2011004524 A1 JP WO2011004524A1 JP 2011521777 A JP2011521777 A JP 2011521777A JP 2011521777 A JP2011521777 A JP 2011521777A JP WO2011004524 A1 JPWO2011004524 A1 JP WO2011004524A1
- Authority
- JP
- Japan
- Prior art keywords
- feature
- text mining
- cluster
- sentence
- expressions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング手段を備える。
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングする方法である。
テキストマイニング装置に、
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング手段を実現させるためのプログラムである。
先ず、図1〜図5を参照しながら、第1実施形態に係るテキストマイニング装置100について説明する。テキストマイニング装置100は、図示しない中央処理装置(CPU;Central Processing Unit)、記憶装置(メモリ及びハードディスク駆動装置(HDD;Hard Disk Drive))、入力装置及び出力装置を備える情報処理装置である。
テキストマイニング装置100のCPUは、図2にフローチャートにより示したテキストマイニング用プログラムを実行するようになっている。
次に、本発明の第2実施形態に係るテキストマイニング装置について説明する。第2実施形態に係るテキストマイニング装置は、上記第1実施形態に係るテキストマイニング装置に対して、特徴表現に加えて、または代えて、特徴表現を含む特徴文を出力する点において相違している。従って、以下、かかる相違点を中心として説明する。
テキストマイニング装置100AのCPUは、図7にフローチャートにより示したテキストマイニング用プログラムを実行するようになっている。このプログラムは、図2に示したプログラムのステップA5を、ステップB1及びステップB2に置換したプログラムである。
次に、本発明の第3実施形態に係るテキストマイニング装置について説明する。第3実施形態に係るテキストマイニング装置は、上記第2実施形態に係るテキストマイニング装置に対して、特徴文を新たに生成する点において相違している。従って、以下、かかる相違点を中心として説明する。
テキストマイニング装置100BのCPUは、図10にフローチャートにより示したテキストマイニング用プログラムを実行するようになっている。このプログラムは、図7に示したプログラムのステップB1を、ステップC1に置換したプログラムである。
次に、本発明の第4実施形態に係るテキストマイニング装置について図12を参照しながら説明する。
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング部(クラスタリング手段)301を備える。
上記クラスタ毎に、当該クラスタにまとめられた特徴表現を出力する特徴表現出力手段を備えることが好適である。
上記クラスタ毎に、当該クラスタにまとめられた特徴表現を含む上記原文を出力する原文出力手段を備えることが好適である。
上記特徴表現出力手段は、上記クラスタ毎に、当該クラスタにまとめられた特徴表現に基づいて上記特徴表現を含む特徴文を生成するように構成されることが好適である。
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングする方法である。
各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめることが好適である。
上記文書及び上記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて上記類似度を算出することが好適である。
テキストマイニング装置に、
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング手段を実現させるためのプログラムである。
2 特徴表現抽出部
3 クラスタリング部
4 クラスタリング結果出力部
5 文書集合記憶部
6 クラスタリング結果出力部
6A クラスタリング結果出力部
7 特徴文抽出部
8 特徴文生成部
31 出現文書ベクトル作成部
32 特徴表現クラスタリング部
100 テキストマイニング装置
100A テキストマイニング装置
100B テキストマイニング装置
200 外部装置
300 テキストマイニング装置
301 クラスタリング部
Claims (15)
- 文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング手段を備えるテキストマイニング装置。
- 請求項1に記載のテキストマイニング装置であって、
前記クラスタリング手段は、各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめるように構成されたテキストマイニング装置。 - 請求項1又は請求項2に記載のテキストマイニング装置であって、
前記クラスタリング手段は、前記文書及び前記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて前記類似度を算出するように構成されたテキストマイニング装置。 - 請求項1乃至請求項3のいずれか一項に記載のテキストマイニング装置であって、
前記クラスタ毎に、当該クラスタにまとめられた特徴表現を出力する特徴表現出力手段を備えるテキストマイニング装置。 - 請求項1乃至請求項4のいずれか一項に記載のテキストマイニング装置であって、
前記クラスタ毎に、当該クラスタにまとめられた特徴表現を含む前記原文を出力する原文出力手段を備えるテキストマイニング装置。 - 請求項4又は請求項5に記載のテキストマイニング装置であって、
前記特徴表現出力手段は、前記クラスタ毎に、当該クラスタにまとめられた特徴表現を複数個含む原文を特徴文として抽出し、抽出した特徴文を前記クラスタ毎に出力するように構成されたテキストマイニング装置。 - 請求項6に記載のテキストマイニング装置であって、
前記特徴表現出力手段は、前記クラスタ毎に、当該クラスタに属する特徴表現が文に含まれている数、文を構成する文字の数、及び、前記特徴表現が前記文書集合の特徴を表す程度を示す特徴度、のうちの少なくとも1つに基づいて前記特徴文を抽出するように構成されたテキストマイニング装置。 - 請求項4又は請求項5に記載のテキストマイニング装置であって、
前記特徴表現出力手段は、前記クラスタ毎に、当該クラスタにまとめられた特徴表現に基づいて前記特徴表現を含む特徴文を生成するように構成されたテキストマイニング装置。 - 請求項8に記載のテキストマイニング装置であって、
前記特徴表現出力手段は、前記クラスタ毎に、当該クラスタにまとめられた特徴表現を連結することにより前記特徴文を生成するように構成されたテキストマイニング装置。 - 文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングする、テキストマイニング方法。
- 請求項10に記載のテキストマイニング方法であって、
各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめる、テキストマイニング方法。 - 請求項10又は請求項11に記載のテキストマイニング方法であって、
前記文書及び前記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて前記類似度を算出する、テキストマイニング方法。 - テキストマイニング装置に、
文書集合から抽出された複数の特徴表現を、当該文書集合のうち、各特徴表現が含まれる文書の集合である原文書集合の類似性に基づいて、原文として参照すべき文が同一である特徴表現が一つのクラスタにまとまるようにクラスタリングするクラスタリング手段を実現させるためのテキストマイニング用プログラム。 - 請求項13に記載のテキストマイニング用プログラムであって、
前記クラスタリング手段は、各特徴表現が含まれる文書の集合である原文書集合同士が類似している程度を表す類似度が所定の基準類似度よりも大きくなる複数の特徴表現を一つのクラスタにまとめるように構成されたテキストマイニング用プログラム。 - 請求項13又は請求項14に記載のテキストマイニング用プログラムであって、
前記クラスタリング手段は、前記文書及び前記特徴表現の組のそれぞれに対して、当該文書が当該特徴表現を含むか否かを表す特徴表現含有情報を取得するとともに、当該取得された特徴表現含有情報に基づいて前記類似度を算出するように構成されたテキストマイニング用プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009160811 | 2009-07-07 | ||
JP2009160811 | 2009-07-07 | ||
PCT/JP2010/002563 WO2011004524A1 (ja) | 2009-07-07 | 2010-04-08 | テキストマイニング装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2011004524A1 true JPWO2011004524A1 (ja) | 2012-12-13 |
Family
ID=43428958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011521777A Pending JPWO2011004524A1 (ja) | 2009-07-07 | 2010-04-08 | テキストマイニング装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20120117068A1 (ja) |
JP (1) | JPWO2011004524A1 (ja) |
WO (1) | WO2011004524A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPWO2015118802A1 (ja) * | 2014-02-05 | 2017-03-23 | 日本電気株式会社 | 文書解析システム、文書解析方法および文書解析プログラム、並びに、文書クラスタリングシステム、文書クラスタリング方法および文書クラスタリングプログラム |
US10614100B2 (en) * | 2014-06-19 | 2020-04-07 | International Business Machines Corporation | Semantic merge of arguments |
CN110990451B (zh) * | 2019-11-15 | 2023-05-12 | 浙江大华技术股份有限公司 | 基于句子嵌入的数据挖掘方法、装置、设备及存储装置 |
TWI780416B (zh) * | 2020-03-13 | 2022-10-11 | 兆豐國際商業銀行股份有限公司 | 交易備註文字辨識方法與系統 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259658A (ja) * | 1999-03-10 | 2000-09-22 | Fujitsu Ltd | 文書分類装置 |
JP2000305950A (ja) * | 1999-04-26 | 2000-11-02 | Ricoh Co Ltd | 文書分類装置および文書分類方法 |
JP2005346560A (ja) * | 2004-06-04 | 2005-12-15 | Hitachi Ltd | 検索結果提示方法およびその装置並びに検索結果提示プログラムを格納した記憶媒体 |
JP2006092468A (ja) * | 2004-09-27 | 2006-04-06 | Nec Corp | 文書処理装置、文書処理方法、および、文書処理プログラム |
JP2006120069A (ja) * | 2004-10-25 | 2006-05-11 | Nippon Telegr & Teleph Corp <Ntt> | 話題文書提示方法及び装置及びプログラム |
JP2009129373A (ja) * | 2007-11-27 | 2009-06-11 | Nippon Telegr & Teleph Corp <Ntt> | 同姓同名文書分別装置及びプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8145677B2 (en) * | 2007-03-27 | 2012-03-27 | Faleh Jassem Al-Shameri | Automated generation of metadata for mining image and text data |
US20100005087A1 (en) * | 2008-07-01 | 2010-01-07 | Stephen Basco | Facilitating collaborative searching using semantic contexts associated with information |
-
2010
- 2010-04-08 JP JP2011521777A patent/JPWO2011004524A1/ja active Pending
- 2010-04-08 US US13/382,485 patent/US20120117068A1/en not_active Abandoned
- 2010-04-08 WO PCT/JP2010/002563 patent/WO2011004524A1/ja active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000259658A (ja) * | 1999-03-10 | 2000-09-22 | Fujitsu Ltd | 文書分類装置 |
JP2000305950A (ja) * | 1999-04-26 | 2000-11-02 | Ricoh Co Ltd | 文書分類装置および文書分類方法 |
JP2005346560A (ja) * | 2004-06-04 | 2005-12-15 | Hitachi Ltd | 検索結果提示方法およびその装置並びに検索結果提示プログラムを格納した記憶媒体 |
JP2006092468A (ja) * | 2004-09-27 | 2006-04-06 | Nec Corp | 文書処理装置、文書処理方法、および、文書処理プログラム |
JP2006120069A (ja) * | 2004-10-25 | 2006-05-11 | Nippon Telegr & Teleph Corp <Ntt> | 話題文書提示方法及び装置及びプログラム |
JP2009129373A (ja) * | 2007-11-27 | 2009-06-11 | Nippon Telegr & Teleph Corp <Ntt> | 同姓同名文書分別装置及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2011004524A1 (ja) | 2011-01-13 |
US20120117068A1 (en) | 2012-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3851975A1 (en) | Method and apparatus for generating text topics, and electronic device | |
Borth et al. | Sentibank: large-scale ontology and classifiers for detecting sentiment and emotions in visual content | |
CN110287278A (zh) | 评论生成方法、装置、服务器及存储介质 | |
US20120041953A1 (en) | Text mining of microblogs using latent topic labels | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
Atagün et al. | Topic modeling using LDA and BERT techniques: Teknofest example | |
CN106663123B (zh) | 以评论为中心的新闻阅读器 | |
WO2011004524A1 (ja) | テキストマイニング装置 | |
US20210312333A1 (en) | Semantic relationship learning device, semantic relationship learning method, and storage medium storing semantic relationship learning program | |
JP6373243B2 (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP2024502400A (ja) | グラフ・ニューラル・ネットワークを用いたポータブル・ドキュメント・フォーマットの表形式データの自動描写及び抽出 | |
JP2019220098A (ja) | 動画編集サーバおよびプログラム | |
CN111353070A (zh) | 视频标题的处理方法、装置、电子设备及可读存储介质 | |
CN109241272B (zh) | 一种中文文本摘要生成方法、计算机可读储存介质及计算机设备 | |
WO2017071190A1 (zh) | 输入数据的处理方法、装置、设备及非易失性计算机存储介质 | |
WO2018040310A1 (zh) | 基于人工智能的推荐数据的获取方法、装置、设备及非易失性计算机存储介质 | |
JP6900334B2 (ja) | 映像出力装置、映像出力方法および映像出力プログラム | |
KR100832859B1 (ko) | 모바일 웹 콘텐츠 서비스 시스템 및 그 방법 | |
CN114238689A (zh) | 视频生成方法、装置、电子设备、存储介质和程序产品 | |
JP6863648B1 (ja) | サーバおよびデータ割り当て方法 | |
JP2019053262A (ja) | 学習システム | |
JP7247593B2 (ja) | 生成装置、ソフトウェアロボットシステム、生成方法及び生成プログラム | |
JP6805927B2 (ja) | インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法 | |
JP5644244B2 (ja) | 文書処理装置、文書処理方法、及び、プログラム | |
JP5557791B2 (ja) | マイクロブログテキスト分類装置、マイクロブログテキスト分類方法、及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130409 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130529 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131203 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140129 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20140708 |