WO2011004529A1 - 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム - Google Patents
分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム Download PDFInfo
- Publication number
- WO2011004529A1 WO2011004529A1 PCT/JP2010/002855 JP2010002855W WO2011004529A1 WO 2011004529 A1 WO2011004529 A1 WO 2011004529A1 JP 2010002855 W JP2010002855 W JP 2010002855W WO 2011004529 A1 WO2011004529 A1 WO 2011004529A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- classification
- hierarchy
- data
- group
- classifications
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 42
- 238000004364 calculation method Methods 0.000 claims abstract description 18
- 239000000284 extract Substances 0.000 claims description 14
- 239000003814 drug Substances 0.000 description 16
- 238000010586 diagram Methods 0.000 description 14
- 238000013500 data storage Methods 0.000 description 6
- 235000008694 Humulus lupulus Nutrition 0.000 description 5
- 230000000694 effects Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000000528 statistical test Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
Abstract
Description
図1は、本発明の第1の実施形態における分類階層再作成システムの例を示すブロック図である。本実施形態における分類階層再作成システムは、データ処理装置100と、データ記憶装置101と、入力手段11と、出力手段16とを備えている。入力手段11は、例えば、キーボードなどの入力デバイスであるが、入力手段11の態様はキーボードに限定されない。例えば、入力手段11は、別の装置からのデータを受信する入力インタフェースであってもよい。また、出力手段16は、例えば、ティスプレイ装置などの出力デバイスであるが、出力手段16の態様はディスプレイ装置に限定されない。例えば、出力手段16は、別の装置へデータを送信する出力インタフェースであってもよい。
図12は、本発明の第2の実施形態における分類階層再作成システムの例を示すブロック図である。第2の実施形態では、第1の実施形態に比べ、入力手段11が第2入力手段21に変わり、クラスタリング手段13が第2クラスタリング手段23に変わっている点が異なる。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。
図14は、本発明の第3の実施形態における分類階層再作成システムの例を示すブロック図である。第3の実施形態では、第1の実施形態に比べ、データ処理装置100が再更新手段31を含んでいる点が異なる。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。すなわち、第3の実施形態におけるデータ処理装置100は、クラスタリング手段13と、共起度計算手段14と、分類階層更新手段15と、再更新手段31とを備えている。クラスタリング手段13、共起度計算手段14及び分類階層更新手段15については、第1の実施形態と同様であるため、説明を省略する。
12 分類階層記憶手段
13 クラスタリング手段
14 共起度計算手段
15 分類階層更新手段
21 第2入力手段
23 第2クラスタリング手段
31 再更新手段
100 データ処理装置
101 データ記憶装置
Claims (22)
- 階層化された分類に対応付けられたデータ群をクラスタ化し、当該クラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成するクラスタリング手段と、
前記分類グループから選択した二つの分類の共起度を計算する共起度計算手段と、
前記分類グループ及び共起度をもとに、前記分類の階層を再作成する分類階層再作成手段とを備えた
ことを特徴とする分類階層再作成システム。 - クラスタリング手段は、作成した分類グループ内の分類が、予め定められた距離以上離れている場合に、当該分類グループを分割した分類グループを作成する
請求項1記載の分類階層再作成システム。 - 共起度計算手段は、二つの分類が共起しているデータ数である共起頻度と各分類に属するデータ数とをもとに共起度を計算し、
分類階層再作成手段は、前記二つの分類が包含関係か同意関係かを前記共起度をもとに判断し、前記二つの分類が包含関係か同意関係かを示す判断結果に基づいて分類の階層を再作成する
請求項1または請求項2記載の分類階層再作成システム。 - 分類階層再作成手段は、二つの分類の関係が包含関係の場合に、包含する側の分類を親分類に、包含される側の分類を子分類にした階層を追加することにより分類の階層を再作成し、二つの分類の関係が同意関係の場合に、当該二つの分類のうち、含まれるデータ数が多い分類に対して少ない分類を統合した分類を作成することにより分類の階層を再作成する
請求項3記載の分類階層再作成システム。 - 分類階層再作成手段は、包含される側の分類を子分類にした階層を追加した場合に、分類階層を再作成する前の当該子分類の親子関係を削除することにより分類の階層を再作成する
請求項4記載の分類階層再作成システム。 - 分類階層再作成手段は、属するデータがない分類が子分類を持たない分類の場合に当該分類を削除することにより分類の階層を再作成し、属するデータがない分類であって、子分類を1つしか持たない分類の場合、当該分類を削除して、当該削除される分類の親分類と、前記子分類との間に階層関係を作成することにより分類の階層を再作成する
請求項1から請求項5のうちのいずれか1項に記載の分類階層再作成システム。 - クラスタリング手段は、構造化されたデータである構造付きデータと、当該構造付きデータの各部分を識別する名称である構造部分名称とに基づき、前記構造部分名称に該当する部分を前記構造付きデータから抽出したデータを用いて前記構造付きデータ群をクラスタ化する
請求項1から請求項6記載の分類階層再作成システム。 - 分類階層再作成手段が再作成した分類階層を再度更新する指示を行う再更新手段を備え、
前記再更新手段は、再作成された分類階層が予め定められた要件を満たさない場合、分類グループを作成するための条件、分類の階層を再作成するための共起度の条件のうちの少なくとも1つの条件を変更し、
クラスタリング手段は、変更された条件を満たす分類を抽出した分類グループを作成し、
分類階層再作成手段は、変更された条件をもとに分類の階層を再作成する
請求項1から請求項7のうちのいずれか1項に記載の分類階層再作成システム。 - 再更新手段は、分類階層の分類数、分類階層の深さ、分類階層の再更新回数、停止指示の有無のうちの少なくとも1つの要件が予め定められた要件を満たさない場合に、条件を変更する
請求項8記載の分類階層再作成システム。 - クラスタリング手段は、クラスタ内の各データに対応する分類のうち、当該分類に属するデータ数が予め定められた数よりも多い分類を抽出して分類グループを作成する
請求項1から請求項9のうちのいずれか1項に記載の分類階層再作成システム。 - 階層化された分類に対応付けられたデータ群をクラスタ化し、
前記クラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成し、
前記分類グループから選択した二つの分類の共起度を計算し、
前記分類グループ及び共起度をもとに、前記分類の階層を再作成する
ことを特徴とする分類階層再作成方法。 - 作成した分類グループ内の分類が、予め定められた距離以上離れている場合に、当該分類グループを分割した分類グループを作成する
請求項11記載の分類階層再作成方法。 - 二つの分類が共起しているデータ数である共起頻度と各分類に属するデータ数とをもとに共起度を計算し、
前記二つの分類が包含関係か同意関係かを前記共起度をもとに判断し、
二つの分類が包含関係か同意関係かを示す判断結果に基づいて分類の階層を再作成する
請求項11または請求項12記載の分類階層再作成方法。 - 二つの分類の関係が包含関係の場合に、包含する側の分類を親分類に、包含される側の分類を子分類にした階層を追加することにより分類の階層を再作成し、二つの分類の関係が同意関係の場合に、当該二つの分類のうち、含まれるデータ数が多い分類に、少ない分類を統合した一つの分類を作成することにより分類の階層を再作成する
請求項13記載の分類階層再作成方法。 - 包含される側の分類を子分類にした階層を追加した場合に、分類階層を再作成する前の当該子分類の親子関係を削除することにより分類の階層を再作成する
請求項14記載の分類階層再作成方法。 - 属するデータがない分類が子分類を持たない分類の場合に当該分類を削除することにより分類の階層を再作成し、属するデータがない分類であって、子分類を1つしか持たない分類の場合、当該分類を削除して、当該削除される分類の親分類と、前記子分類との間に階層関係を作成することにより分類の階層を再作成する
請求項11から請求項15のうちのいずれか1項に記載の分類階層再作成方法。 - 構造化されたデータである構造付きデータと、当該構造付きデータの各部分を識別する名称である構造部分名称とに基づき、前記構造部分名称に該当する部分を前記構造付きデータから抽出したデータを用いて前記構造付きデータ群をクラスタ化する
請求項11から請求項16記載の分類階層再作成方法。 - 再作成された分類階層が予め定められた要件を満たさない場合、分類グループを作成するための条件、分類の階層を再作成するための共起度の条件のうちの少なくとも1つの条件を変更して、前記再作成した分類階層を再度更新する指示を行い、
変更された条件を満たす分類を抽出した分類グループを作成し、
変更された条件をもとに分類の階層を再作成する
請求項11から請求項17のうちのいずれか1項に記載の分類階層再作成方法。 - 分類階層の分類数、分類階層の深さ、分類階層の再更新回数、停止指示の有無のうちの少なくとも1つの要件が予め定められた要件を満たさない場合に、条件を変更する
請求項18記載の分類階層再作成方法。 - クラスタ内の各データに対応する分類のうち、当該分類に属するデータ数が予め定められた数よりも多い分類を抽出して分類グループを作成する
請求項11から請求項19のうちのいずれか1項に記載の分類階層再作成方法。 - コンピュータに、
階層化された分類に対応付けられたデータ群をクラスタ化し、当該クラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成するクラスタリング処理、
前記分類グループから選択した二つの分類の共起度を計算する共起度計算処理、および、
前記分類グループ及び共起度をもとに、前記分類の階層を再作成する分類階層再作成処理
を実行させるための分類階層再作成プログラム。 - コンピュータに、
クラスタリング処理で、作成した分類グループ内の分類が、予め定められた距離以上離れている場合に、当該分類グループを分割した分類グループを作成させる
請求項21記載の分類階層再作成プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/382,381 US8732173B2 (en) | 2009-07-06 | 2010-04-20 | Classification hierarchy regeneration system, classification hierarchy regeneration method, and classification hierarchy regeneration program |
JP2011521779A JP5621773B2 (ja) | 2009-07-06 | 2010-04-20 | 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009160071 | 2009-07-06 | ||
JP2009-160071 | 2009-07-06 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2011004529A1 true WO2011004529A1 (ja) | 2011-01-13 |
Family
ID=43428962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2010/002855 WO2011004529A1 (ja) | 2009-07-06 | 2010-04-20 | 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8732173B2 (ja) |
JP (1) | JP5621773B2 (ja) |
WO (1) | WO2011004529A1 (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013012172A (ja) * | 2011-06-03 | 2013-01-17 | Toshiba Corp | 株取引知見抽出装置、知見更新装置、及びプログラム |
JP2013117866A (ja) * | 2011-12-02 | 2013-06-13 | Nippon Telegr & Teleph Corp <Ntt> | キーワード地名ペア抽出装置及び方法及びプログラム |
JP2015135640A (ja) * | 2014-01-20 | 2015-07-27 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP2017107603A (ja) * | 2017-03-10 | 2017-06-15 | 一般財団法人工業所有権協力センター | 関連語統合プログラム |
JP2017167831A (ja) * | 2016-03-16 | 2017-09-21 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
US10002122B2 (en) | 2012-05-31 | 2018-06-19 | Kabushiki Kaisha Toshiba | Forming knowledge information based on a predetermined threshold of a concept and a predetermined threshold of a target word extracted from a document |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2013015341A1 (ja) * | 2011-07-25 | 2013-01-31 | 楽天株式会社 | ジャンル生成装置 |
US8650198B2 (en) * | 2011-08-15 | 2014-02-11 | Lockheed Martin Corporation | Systems and methods for facilitating the gathering of open source intelligence |
PL398136A1 (pl) * | 2012-02-17 | 2013-08-19 | Binartech Spólka Jawna Aksamit | Sposób wykrywania kontekstu urzadzenia przenosnego i urzadzenie przenosne z modulem wykrywania kontekstu |
US9286391B1 (en) | 2012-03-19 | 2016-03-15 | Amazon Technologies, Inc. | Clustering and recommending items based upon keyword analysis |
US9928232B2 (en) | 2015-02-27 | 2018-03-27 | Microsoft Technology Licensing, Llc | Topically aware word suggestions |
US10430450B2 (en) * | 2016-08-22 | 2019-10-01 | International Business Machines Corporation | Creation of a summary for a plurality of texts |
US10635939B2 (en) | 2018-07-06 | 2020-04-28 | Capital One Services, Llc | System, method, and computer-accessible medium for evaluating multi-dimensional synthetic data using integrated variants analysis |
US11361028B2 (en) * | 2020-06-09 | 2022-06-14 | Microsoft Technology Licensing, Llc | Generating a graph data structure that identifies relationships among topics expressed in web documents |
CN113536806B (zh) * | 2021-07-18 | 2023-09-08 | 北京奇艺世纪科技有限公司 | 一种文本分类方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196177A (ja) * | 1997-09-22 | 1999-04-09 | Nippon Telegr & Teleph Corp <Ntt> | 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体 |
JP2000010996A (ja) * | 1998-06-24 | 2000-01-14 | Fujitsu Ltd | 文書整理装置および方法 |
JP2003140942A (ja) * | 2001-10-19 | 2003-05-16 | Xerox Corp | 共起する対象の階層的ソフトクラスタリングのための製造方法、装置および製品 |
US20040181554A1 (en) * | 1998-06-25 | 2004-09-16 | Heckerman David E. | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
JP2005266866A (ja) * | 2004-03-16 | 2005-09-29 | Fuji Xerox Co Ltd | 文書分類装置ならびに文書分類装置の分類体系生成装置および方法 |
JP2008299382A (ja) * | 2007-05-29 | 2008-12-11 | Fujitsu Ltd | データ分割プログラム、該プログラムを記録した記録媒体、データ分割装置、およびデータ分割方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8055597B2 (en) * | 2006-05-16 | 2011-11-08 | Sony Corporation | Method and system for subspace bounded recursive clustering of categorical data |
JP4884871B2 (ja) | 2006-07-27 | 2012-02-29 | 東京エレクトロン株式会社 | 塗布方法及び塗布装置 |
US20080109454A1 (en) * | 2006-11-03 | 2008-05-08 | Willse Alan R | Text analysis techniques |
-
2010
- 2010-04-20 WO PCT/JP2010/002855 patent/WO2011004529A1/ja active Application Filing
- 2010-04-20 JP JP2011521779A patent/JP5621773B2/ja active Active
- 2010-04-20 US US13/382,381 patent/US8732173B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1196177A (ja) * | 1997-09-22 | 1999-04-09 | Nippon Telegr & Teleph Corp <Ntt> | 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体 |
JP2000010996A (ja) * | 1998-06-24 | 2000-01-14 | Fujitsu Ltd | 文書整理装置および方法 |
US20040181554A1 (en) * | 1998-06-25 | 2004-09-16 | Heckerman David E. | Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications |
JP2003140942A (ja) * | 2001-10-19 | 2003-05-16 | Xerox Corp | 共起する対象の階層的ソフトクラスタリングのための製造方法、装置および製品 |
JP2005266866A (ja) * | 2004-03-16 | 2005-09-29 | Fuji Xerox Co Ltd | 文書分類装置ならびに文書分類装置の分類体系生成装置および方法 |
JP2008299382A (ja) * | 2007-05-29 | 2008-12-11 | Fujitsu Ltd | データ分割プログラム、該プログラムを記録した記録媒体、データ分割装置、およびデータ分割方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013012172A (ja) * | 2011-06-03 | 2013-01-17 | Toshiba Corp | 株取引知見抽出装置、知見更新装置、及びプログラム |
JP2013117866A (ja) * | 2011-12-02 | 2013-06-13 | Nippon Telegr & Teleph Corp <Ntt> | キーワード地名ペア抽出装置及び方法及びプログラム |
US10002122B2 (en) | 2012-05-31 | 2018-06-19 | Kabushiki Kaisha Toshiba | Forming knowledge information based on a predetermined threshold of a concept and a predetermined threshold of a target word extracted from a document |
JP2015135640A (ja) * | 2014-01-20 | 2015-07-27 | 富士ゼロックス株式会社 | 情報処理装置及び情報処理プログラム |
JP2017167831A (ja) * | 2016-03-16 | 2017-09-21 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
JP2017107603A (ja) * | 2017-03-10 | 2017-06-15 | 一般財団法人工業所有権協力センター | 関連語統合プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5621773B2 (ja) | 2014-11-12 |
US8732173B2 (en) | 2014-05-20 |
JPWO2011004529A1 (ja) | 2012-12-13 |
US20120109963A1 (en) | 2012-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5621773B2 (ja) | 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム | |
JP5531395B2 (ja) | 単語親和度による単語クラスタの識別 | |
JP5338238B2 (ja) | ワードの類似性を用いたオントロジーの自動生成 | |
US9454599B2 (en) | Automatic definition of entity collections | |
US11126647B2 (en) | System and method for hierarchically organizing documents based on document portions | |
KR100756921B1 (ko) | 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체. | |
US8332439B2 (en) | Automatically generating a hierarchy of terms | |
JP5594145B2 (ja) | 検索装置、検索方法、及びプログラム | |
JP2006018829A (ja) | 自動分類生成 | |
JP6260294B2 (ja) | 情報検索装置、情報検索方法および情報検索プログラム | |
US20150100605A1 (en) | Determining collection membership in a data graph | |
JP2009294939A (ja) | 文書分類装置 | |
JP7110554B2 (ja) | オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法 | |
JP2013130965A (ja) | データ分析装置、データ分析方法及びプログラム | |
US20220292127A1 (en) | Information management system | |
JP6081609B2 (ja) | データ分析システム及びその方法 | |
JP5954742B2 (ja) | 文書を検索する装置及び方法 | |
US11960522B2 (en) | Information management system for database construction | |
JP6476638B2 (ja) | 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム | |
JP2014102624A (ja) | キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム | |
Font Corbera et al. | Folksonomy-based tag recommendation for collaborative tagging systems | |
Kumar et al. | Enhancing the Search Results through Web Structure Mining Using Frequent Pattern Analysis and Linear Correlation Method | |
KR20180009501A (ko) | 반 구조 문서 검색 방법 | |
Vadivukkarasi | PRODUCT REVIEW RANKING SUMMARIZATION |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 10796843 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2011521779 Country of ref document: JP |
|
WWE | Wipo information: entry into national phase |
Ref document number: 13382381 Country of ref document: US |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 10796843 Country of ref document: EP Kind code of ref document: A1 |