WO2011004529A1 - 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム - Google Patents

分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム Download PDF

Info

Publication number
WO2011004529A1
WO2011004529A1 PCT/JP2010/002855 JP2010002855W WO2011004529A1 WO 2011004529 A1 WO2011004529 A1 WO 2011004529A1 JP 2010002855 W JP2010002855 W JP 2010002855W WO 2011004529 A1 WO2011004529 A1 WO 2011004529A1
Authority
WO
WIPO (PCT)
Prior art keywords
classification
hierarchy
data
group
classifications
Prior art date
Application number
PCT/JP2010/002855
Other languages
English (en)
French (fr)
Inventor
水口弘紀
久寿居大
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US13/382,381 priority Critical patent/US8732173B2/en
Priority to JP2011521779A priority patent/JP5621773B2/ja
Publication of WO2011004529A1 publication Critical patent/WO2011004529A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types

Abstract

 既存の分類階層を再構築して新たな分類階層を作成する場合に、分類の上下関係を考慮した分類階層や、同じ意味の分類を統合した分類階層を効率的に作成できる分類階層再作成システムを提供する。クラスタリング手段は、階層化された分類に対応付けられたデータ群をクラスタ化し、そのクラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成する。共起度計算手段は、分類グループから選択した2つの分類の共起度を計算する。分類階層再作成手段は、分類グループ及び共起度をもとに、分類の階層を再作成する。

Description

分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム
 本発明は、階層化された分類を再構築して新たな分類階層を作成する分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラムに関する。
 特許文献1には、階層構造を持つ項目で多次元データを分割する際、分析目的に合致した適切なグループに分割するデータ分割方法が記載されている。特許文献1に記載されたデータ分割装置は、データ群とデータ群の分類階層を受け取ると、受け取ったデータ群の分布をもとに、分類階層の中から特徴的でない階層を削除した分類階層を出力する。具体的には、判定手段が、特定の分類を分割対象とし、そのデータ群(分割対象グループ)の分布に基づいて統計的検定を行うことにより、分割対象グループが特徴的か否かを示す属性を判定する。次に、分割手段は、判定結果に基づいて、分割対象グループを子階層に属する子グループ群に分割し、新たに分割対象にする。そして、統合手段は、判定結果の属性に基づいて特徴的でない子グループ群を親グループに統合する。具体的には、統合手段は、特徴的でない階層を削除し、特徴的な階層のみを残す。そのため、出力される分類階層を親分類から順番にたどることで、特徴的な子階層までの分類を得ることができる。
 また、特許文献2には、入力された文書データをもとに、用語間の関係を出力する用語辞書生成方法が記載されている。特許文献2に記載された用語辞書生成方法では、まず、文書データの各単語及び位置情報をもとに関連語を選択する。次に、単語と関連語をノードとしたグラフを作成する。また、グラフのあらゆる二つのノードの組合せについて、共起統計量を計算し、さらに、類義語辞書やその他の文書データなどから類似度を計算する。そして、共起統計量と類似度の値を利用する変換ルールに基づいてグラフを変換する。
 特許文献3には、情報処理装置に蓄えられた大量の文書群を、その特徴に従って高い精度で自動的に分類する文書整理装置が記載されている。特許文献3に記載された文書整理装置は、キーワード対(H,B)の共起出現頻度を表すサポートsup(H→B)および確信度conf(H→B)を定義する。そして、点(X,Y)=(conf(kw→wi ),conf(wi →kw))で定められるXY平面を5つに分け、階層関係、同値関係、および連想関係を決定する。
 特許文献4には、フラットな分類枠から階層化構造の分類体系を自動的に構築する分類体系生成装置が記載されている。特許文献4に記載された分類体系生成装置では、非階層型(すなわちフラットな分類枠)から出発してクラスタリングによりクラスタを生成する。そして、生成したこれらクラスタを上位の分類枠として階層構造分類体系を準備し、分類精度が基準値より低い上位分類枠(すなわちクラスタ)に着目して他のクラスタと統合した後、再クラスタリングを行うことで階層を伸ばしていく。また、特許文献4に記載された分類体系生成装置では、既存の分類体系の分類精度が基準値より低い場合や、状況に併せて分類体系を修正した場合に、文書分類部の分類体系を分類体系記憶部に記憶して最適化対象とする。そして、文書入力部から入力された分類済み文書や、状況を代表するサンプル文書をもとに分類を評価し、変更を行うことで、分類精度を向上させる。
特開2008-299382号公報(段落0027、0047~0048、0079) 特開平11-96177号公報(段落0015~0017、図1) 特開2005-266866号公報(段落0021、0051、図4) 特開2000-10996号公報(段落0081、0084~0085、図11)
 特許文献1に記載されたデータ分割方法では、特徴的でない階層は削除されてしまうため、削除対象になった階層を分類することができないという課題がある。例えば、特許文献1に記載されたデータ分割方法では、データの特性に合う観点が分類階層にある場合はよいが、データ特性に合う観点がない場合は、適切な分類階層を得ることはできない。このような分類対象にならない階層であっても、その階層の上下関係を考慮した分類や、同じ意味の分類を統合した分類(例えば、分類1と分類2がまったく同じデータに割り振られている場合は、同じ意味の分類として一つにまとめる、など)を作成できることが望ましい。
 また、特許文献1に記載されたデータ分割方法では、各階層が特徴的か否かを判定するために、すべての階層に対し判定をする必要があるため、効率的でないという課題がある。同様に、特許文献2に記載された用語辞書生成方法においても、ノード間の関係を変換するために、すべてのノードに当たる単語間の関係で共起統計量や類似度を計算しておく必要があり、効率的でないという課題がある。また、特許文献3に記載された文書整理装置も、記憶された全てのキーワードをもとにディレクトリファイルを生成するため、効率的でないという課題がある。
 また、特許文献4に記載された分類体系生成装置は、サンプル文書との関連度に基づいて分類枠のクラスタリングを繰り返すことで分類枠を階層化する。しかし、関連度は、各クラスタにおける単語の出現頻度に基づいて判断されるため、特許文献4に記載された文書分類装置では、階層の上下関係を考慮した分類や、同じ意味の分類を統合した分類ができないという課題がある。
 そこで、本発明は、既存の分類階層を再構築して新たな分類階層を作成する場合に、分類の上下関係を考慮した分類階層や、同じ意味の分類を統合した分類階層を効率的に作成できる分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラムを提供することを目的とする
 本発明による分類階層再作成システムは、階層化された分類に対応付けられたデータ群をクラスタ化し、そのクラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成するクラスタリング手段と、分類グループから選択した二つの分類の共起度を計算する共起度計算手段と、分類グループ及び共起度をもとに、分類の階層を再作成する分類階層再作成手段とを備えたことを特徴とする。
 本発明による分類階層再作成方法は、階層化された分類に対応付けられたデータ群をクラスタ化し、クラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成し、分類グループから選択した二つの分類の共起度を計算し、分類グループ及び共起度をもとに、分類の階層を再作成することを特徴とする。
 本発明による分類階層再作成プログラムは、コンピュータに、階層化された分類に対応付けられたデータ群をクラスタ化し、そのクラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成するクラスタリング処理、分類グループから選択した二つの分類の共起度を計算する共起度計算処理、および、分類グループ及び共起度をもとに、分類の階層を再作成する分類階層再作成処理を実行させることを特徴とする。
 本発明によれば、既存の分類階層を再構築して新たな分類階層を作成する場合に、分類の上下関係を考慮した分類階層や、同じ意味の分類を統合した分類階層を効率的に作成できる。
本発明の第1の実施形態における分類階層再作成システムの例を示すブロック図である。 入力手段11に入力されるデータ群とその分類の例を示す説明図である。 第1の実施形態におけるデータ処理装置100の動作の例を示すフローチャートである。 分類階層の例を示す説明図である。 クロス集計表の例を示す説明図である。 分割された結果のクロス集計表の例を示す説明図である。 共起度の計算結果の例を示す説明図である。 分類階層を更新する途中の例を示す説明図である。 分類階層を更新した結果の例を示す説明図である。 更新された分類階層の例を示す説明図である。 更新された分類階層の例を示す説明図である。 本発明の第2の実施形態における分類階層再作成システムの例を示すブロック図である。 構造付きデータの例を示す説明図である。 本発明の第3の実施形態における分類階層再作成システムの例を示すブロック図である。 第3の実施形態におけるデータ処理装置100の動作の例を示すフローチャートである。 入力手段11が受け取るデータ群の例を示す説明図である。 分類階層の例を示す説明図である。 クロス集計表の例を示す説明図である。 クロス集計表を分割した結果の例を示す説明図である。 共起スコアの計算結果例を示す説明図である。 分類階層の例を示す説明図である。 分類階層の例を示す説明図である。 本発明の最小構成を示すブロック図である。
 以下、本発明の実施形態を図面を参照して説明する。
実施形態1.
 図1は、本発明の第1の実施形態における分類階層再作成システムの例を示すブロック図である。本実施形態における分類階層再作成システムは、データ処理装置100と、データ記憶装置101と、入力手段11と、出力手段16とを備えている。入力手段11は、例えば、キーボードなどの入力デバイスであるが、入力手段11の態様はキーボードに限定されない。例えば、入力手段11は、別の装置からのデータを受信する入力インタフェースであってもよい。また、出力手段16は、例えば、ティスプレイ装置などの出力デバイスであるが、出力手段16の態様はディスプレイ装置に限定されない。例えば、出力手段16は、別の装置へデータを送信する出力インタフェースであってもよい。
 データ処理装置100は、クラスタリング手段13と、共起度計算手段14と、分類階層更新手段15とを備えている。
 また、データ記憶装置101は、分類の階層的な関係(以下、分類階層と記す)を記憶する分類階層記憶手段12を備えている。分類階層とは、分類の上下関係を表す階層であり、例えば、分類をノードとする有向グラフ構造で表わされる。以下の説明では、分類をノードとする有効グラフ構造で分類階層を表す場合について説明するが、分類階層は上記構造に限定されない。分類階層は、各分類の階層的な関係を示すことができる他の構造であってもよい。分類階層記憶手段12は、例えば、データ記憶装置101が備える磁気ディスク装置等によって実現される。以上の手段は、それぞれ以下のように動作する。
 入力手段11は、入力されたデータ群と各データの分類を受信し、クラスタリング手段13に通知する。図2は、入力されるデータ群とその分類の例を示す説明図である。図2に示す例では、データとそのデータが属する分類(以下、データ分類、もしくは、単に「分類」と記すこともある。)を1レコードで表わしており、そのレコードを含む表全体がデータ群を表す。なお、表中の「・・・」は省略を表す。また、図2に示す例では、「,」(カンマ)で区切られた複数の分類が、各データの属する分類を表す。例えば、1レコード目の「テキストデータ1」は、分類「F」、「G」及び「H」に属していることを示す。
 クラスタリング手段13は、入力手段11からデータ群と各データの分類を受け取り、受け取ったデータ群をクラスタリングする。クラスタリング手段13は、例えば、K-MEANSなどのクラスタリング方法を用いてデータ群をクラスタリングしてもよい。なお、クラスタリング手段13は、クラスタリング方法として、K-MEANS以外の他の方法を用いてもよい。
 次に、クラスタリング手段13は、各クラスタ内のデータを分類ごとに集計し、データ数の多い分類をクラスタごとにグループ化する。例えば、クラスタリング手段13は、各クラスタ内の各データに対応する分類を用いてクロス集計表を作成する。具体的には、クラスタリング手段13は、横にクラスタを示す情報を、縦に分類を示す情報をそれぞれ配置し、各クラスタ及び分類のデータ数を値とするクロス集計表を作成する。そして、クラスタリング手段13は、集計表を参照してデータ数の多い部分をマークし、クラスタごとにマークした部分をグループ化する。
 次に、クラスタリング手段13は、分類階層を参照し、クラスタ内のマークした分類群(すなわち、グループ化した分類)が階層的に遠い場合、この分類群を分割する。そして、クラスタリング手段13は、分割結果をもとに作成した分類のグループ(以下、分類グループと記す。)を共起度計算手段14に通知する。
 共起度計算手段14は、分類グループを受け取り、分類グループ内から選択した二つの分類の組合せごとに共起度を計算する。ここで、共起とは、1つのデータに二つの分類がともに出現している(属している)ことである。また、共起度とは、共起を元に算出した統計量であり、共起の度合いを示す値である。共起度計算手段14は、各分類の共起度を、例えば、二つの分類が共起しているデータ数を分母とし、各分類に属するデータ数を分子として計算する。例えば、分類「F」と分類「G」が共起しているデータ数を10、分類「G」のデータ数を9とする。このとき、共起度計算手段14は、P(分類「F」,分類「G」|分類「G」)=9/10=0.9のように共起度Pを計算する。なお、以下の説明では、二つの分類が共起しているデータ数を共起頻度と記す。上記例では、分類「F」と分類「G」の共起頻度は10になる。
 分類階層更新手段15は、分類グループと共起度とを用いて、分類の上下関係の作成や、分類の統合を行うことにより分類階層を更新する。まず、分類階層更新手段15は、1つの分類グループを取り出し、その分類グループ内の中から二つの分類を取り出す。取出した二つの分類が、所定の閾値以上の共起度を有し、さらに、包含関係を満たす場合、分類階層更新手段15は、その二つの分類に対して親から子への上下関係を作成する。一方、取出した二つの分類が、所定の閾値以上の共起度を有し、さらに、同意関係を満たす場合、分類階層更新手段15は、その二つの分類を統合する。分類階層更新手段15は、グループ内の二つの分類の組合せ、及び、すべての分類グループに対して、以上の処理を繰り返すことで、分類階層を更新する。
 ここで、包含関係とは、二つの分類が示す概念において、片方が広くもう一方が狭い場合で、広い概念が狭い概念を包含している関係のことをいう。また、同意関係とは、二つの分類が示す概念において、両方の概念が同じ広い概念に包含されている関係のことをいう。すなわち、分類階層更新手段15は、共起度を用いて、二つの分類が包含関係か同意関係かを判断し、判断したこれらの関係をもとに分類階層を更新する。
 出力手段16は、更新された分類階層の内容をティスプレイ装置などに出力する。
 クラスタリング手段13と、共起度計算手段14と、分類階層更新手段15とは、プログラム(分類階層再作成プログラム)に従って動作するコンピュータのCPUによって実現される。例えば、プログラムは、データ処理装置100の記憶部(図示せず)に記憶され、CPUは、そのプログラムを読み込み、プログラムに従って、クラスタリング手段13、共起度計算手段14及び分類階層更新手段15として動作してもよい。また、クラスタリング手段13と、共起度計算手段14と、分類階層更新手段15とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、動作について説明する。図3は、本実施形態におけるデータ処理装置100の動作の例を示すフローチャートである。
 まず、入力手段11が、受け取ったデータ群をクラスタリング手段13に通知すると、クラスタリング手段13は、そのデータ群をもとにクラスタリングを行う(ステップS1)。クラスタリング手段13は、クラスタリングの手法として、受信したデータに適したクラスタリング手法を用いることができる。例えば、クラスタリング手段13は、K-MEANSなどのよく知られた手法を用いてもよい。なお、本実施形態では、クラスタリング手段13が、テキストデータをクラスタリングする場合について説明するが、クラスタリングするデータ群はテキストデータに限られない。例えば、クラスタリング手段13は、データ群として、音声や画像などのバイナリデータをクラスタリングしてもよい。
 次に、クラスタリング手段13は、分類階層記憶手段12に記憶された分類階層を参照し、クラスタリングした各クラスタとデータ分類のクロス集計表を作成し、分類グループを作成する(ステップS2)。図4は、分類階層の例を示す説明図である。また、図5は、クロス集計表の例を示す説明図である。
 図4に示す例では、分類をノードとする有向グラフ構造で分類階層を表現していることを示す。また、図5に示す例では、クロス集計表が、横にクラスタを示す情報を、縦に分類を示す情報をそれぞれ配置した表で構成されていることを示す。また、図5に例示するクロス集計表の値は、クラスタに存在するデータで分類に属しているデータ数(すなわち、各分類に属するデータ数をクラスタ内のデータを対象に集計した値)を示すが、これは一例である。例えば、データ数をクラスタの合計データ数で割った値を用いてもよいし、データ数を分類の合計データ数で割った値を用いてもよい。
 ここで、クラスタリング手段13は、ある閾値以上のセルにマークする。図5に示す例では、マークした部分を太線で囲んで表わすものとし、クラスタリング手段13が閾値10以上のセルにマークしたことを示す。マークされた部分は、クラスタに含まれるデータが多く属する分類であることを示している。例えば、図5に例示する「クラスタ1」は、分類H、分類I、分類Jに属するデータを多く含んでいることを示している。ここで、分類に属するデータが多いとは、予め定められた閾値以上であることを意味する。
 クラスタリング手段13は、クラスタごとにマークされている分類をもとに、分類グループを作成する。例えば、図5に示す例では、クラスタリング手段13は、「クラスタ2」の中でマークされている分類(分類H、分類I及び分類J)を一つのグループ(分類群)にする。次に、クラスタリング手段13は、クロス集計表と分類階層を参照し、階層的距離が離れている分類群を分割する(ステップS3)。クラスタリング手段13は、分類群の分類それぞれに対し、階層的距離が閾値以上であるか否かを判定する。そして、階層的距離が閾値以上であれば、クラスタリング手段13は、分類群を分割する。ここで、階層的距離とは、階層化された分類同士の隔たりの程度を示す指標であり、本実施形態においては、二つの分類の分類階層内での最短ホップ数を意味するものとする。
 以下、クラスタリング手段13が、閾値が5ホップの場合に分類群を分割する方法について、図4及び図5を用いて説明する。図4及び図5に示す例では、「クラスタ3」の分類群(分類O、分類P、分類Q、分類R)において、分類Oと分類Q、分類Oと分類R、分類Pと分類Q及び分類Pと分類Rがそれぞれ6ホップ離れているので分割対象になる。上記の分類ペアは、(分類O、分類P)と、(分類Q、分類R)の別グループにそれぞれ分割される。クロス集計表を分割した結果の例を図6に示す。図6に示す例では、「クラスタ3」の分類群(分類O、分類P、分類Q、分類R)が、「クラスタ3」の分類グループ(分類O、分類P)と、「クラスタ3’」の分類グループ(分類Q、分類R)に分割されたことを示す。なお、以下の説明では、図6に例示するクラスタ番号を、分類グループの番号(以下、グループ番号と記す。)として記載する。
 次に、共起度計算手段14は、分類グループから選択した二つの分類の共起度を計算する(ステップS4)。図7は、共起度の計算結果の例を示す説明図である。図7に例示する表は、グループ番号、共起度を計算する対象の二つの分類である「分類1」と「分類2」、及び、それぞれの分類の共起度を示す「共起スコア1」と「共起スコア2」からなる表である。以下の説明では、共起度を示す「共起スコア1」と「共起スコア2」は、それぞれ、「分類1」と「分類2」の共起する条件付確率とする。すなわち、「共起スコア1」は、「分類1」に対する共起の確率であり、「共起スコア2」は、「分類2」に対する共起の確率である。「共起スコア1」の値は、以下の(式1)で、「共起スコア2」の値は、以下の(式2)でそれぞれ算出できる。
 共起スコア1=P(分類1,分類2|分類1)=分類1と分類2の共起頻度/分類1の頻度 (式1)
 共起スコア2=P(分類1,分類2|分類2)=分類1と分類2の共起頻度/分類2の頻度 (式2)
 共起度計算手段14は、この二つの値(すなわち、共起スコア1及び共起スコア2)をもとに、二つの分類が包含関係か同意関係かを判断する。
 例えば、共起スコア1と共起スコア2のうちの片方のスコアが高い場合、高いスコアに対応する分類と他方の分類との間には包含関係があると言える。また、共起スコア1と共起スコア2のスコアが両方高い場合、両方の分類の間には同意関係があると言える。これは、分子となる共通部分が同じであるが、分母となるそれぞれの分類頻度が異なるためである。
 共起スコア1が高く、共起スコア2が低い場合を例に挙げて具体的に説明する。共起スコア1が高い場合、分類1に属しているデータは、ほぼすべて分類2にも属していることになる。逆にいえば、共起スコア2が小さい場合、分類2に属しているデータは、分類1の他にもさまざまなデータに属していることになる。したがって、分類2は分類1より大きく、分類2は分類1を包含していると言える。逆に、共起スコア2が高く、共起スコア1が低い場合は、分類1が分類2を包含していると言える。
 一方、二つの共起スコア(すなわち、共起スコア1と共起スコア2)が同じく高い場合、それぞれの分類(すなわち、分類1と分類2)の中には同じデータが出現することが多いため、分類1と分類2は同意であるといえる。
 次に、分類階層更新手段15は、分類グループ及び共起度に基づき、分類階層を更新する(ステップS5)。分類階層更新手段15は、共起度をもとに判断した結果、二つの分類の関係が包含関係を満たす場合、この二つの分類を親子分類として更新する。一方、二つの分類の関係が同意関係を満たす場合、分類階層更新手段15は、この二つの分類を、一つの分類に統合する。分類階層更新手段15は、閾値を用いて共起スコアの高低を判断する。以下、この閾値を共起スコア閾値と記す。
 以下、分類階層を更新する処理について、図4及び図7に示す例を用いて説明する。ここでは、共起スコア閾値は予めシステムに設定されているものとする。また、分類階層更新手段15は、共起スコア閾値が0.7以上の場合に高いと判断し、共起スコア閾値が0.3以下の場合に低いと判断するものとする。
 図7に例示する「グループ1」の分類Gと分類Hの共起スコアによれば、「共起スコア1」が高く、「共起スコア2」が低いと言える。よって、この二つの分類には包含関係があり、分類Hが親、分類Gが子の関係にあることが分かる。したがって、分類階層更新手段15は、図4に例示する分類Hが親、分類Gが子の関係になるように分類階層を更新する。分類階層を更新する途中の例を図8に示す。図8に示す例では、分類Gが分類Hの子供として更新されていることが分かる。なお、分類Bから分類Gに向けて引かれている破線は、更新前の親子関係を示す線である。分類階層更新手段15は、更新前の親子関係を削除してもよいし、しなくともよい。なお、以下の説明では、更新前の親子関係を後ほど削除することにする。
 また、図7に例示する「グループ2」の分類Hと分類Iの共起スコアをみると、「共起スコア2」が高く、「共起スコア1」が低いと言える。よって、この二つの分類にも包含関係があり、分類Hが親、分類Iが子の関係にあることが分かる。同様に、分類Hと分類Jの共起スコアから、分類Hが親、分類Jが子の関係にあることがわかる。一方、分類Iと分類Jは両方の共起スコアが高いため、同意関係にあることがわかる。そのため、分類階層更新手段15は、この二つの分類を統合する。
 「グループ2」の分類グループをもとに分類階層を更新した結果の例を図9に示す。図9に例示する分類階層は、「グループ1」と「グループ2」によって更新されたものである。なお、同意関係の分類を統合する際、それぞれの分類の親分類が異なる場合がある。この場合、分類階層更新手段15は、二つの分類のうち含まれるデータ量が多い分類にデータ量が少ない分類を統合して一つの分類を作成する。
 また、図7に例示する「グループ3」の分類Oと分類Pは、同意関係であることがわかるため、分類階層更新手段15は、この二つの分類を統合する。一方、図7に例示する「グループ3’」の分類Qと分類Rは、包含関係でも同意関係でもないため、分類階層更新手段15は、分類階層を更新しない。
 以上の結果、更新された分類階層の例を図10に示す。ここで、図10に例示する太線で囲まれた分類は、属するデータが存在する分類である。分類階層更新手段15は、更新前の親子関係(図中の破線で結ばれた関係)を削除してもよいし、削除しなくてもよい。削除せずに残す場合、例えば、更新前の分類階層を用いてデータを分類したいといった要求に応える事ができる。
 さらに、分類階層更新手段15は、属するデータがない分類に対する処理を行ってもよい。例えば、分類階層更新手段15は、属するデータがない分類が子分類を持たない場合、その分類を削除してもよい。例えば、図10に示す例では、分類L、分類M、分類Nには属するデータがないため、分類階層更新手段15は、これらの分類を削除してもよい。
 また、分類階層更新手段15は、分類に属するデータがない分類であって、子分類を一つしか持たない分類に対し、その分類を削除し、削除される分類の親分類と子分類との間に階層関係を作成してもよい。すなわち、分類階層更新手段15は、孫分類を子供分類にした上下関係を作成してもよい。子分類を一つしかもたないこのような分類の階層を保持しておく意味はあまりないからである。例えば、分類Eは分類O+Pしか子供を持たないため、分類階層更新手段15は、分類Eを削除し、分類Bと分類O+Pに対し直接上下関係を作成する。以上の結果、更新された分類階層の例を図11に示す。
 以上のように、本実施形態によれば、クラスタリング手段13が、階層化された分類に対応付けられたデータ群をクラスタ化する。そして、クラスタリング手段13は、クラスタ内の各データに対応する分類のうち、予め定められた条件(例えば、「属するデータ数が多い」という条件)を満たす分類を抽出した分類グループを作成する。そして、共起度計算手段14が、分類グループから選択した二つの分類の共起度を計算すると、分類階層更新手段15は、分類グループ及び共起度をもとに分類階層を再作成する。よって、既存の分類階層を再構築して新たな分類階層を作成する場合に、分類の上下関係を考慮した分類階層や、同じ意味の分類を統合した分類階層を効率的に作成できる。
 すなわち、本実施形態によれば、分類階層更新手段15が分類グループ内の分類の共起度をもとに、分類の上下関係の作成や分類の統合を行うため、データの特性を考慮し分類階層の上下関係の作成や分類の統合を行うことができる。また、本実施形態によれば、クラスタリング手段13が、似ている分類のグループをあらかじめ作成し、共起度計算手段14が、そのグループ内の共起度のみを計算するため、データの特性を考慮し効果的に分類階層を更新できる。
実施形態2.
 図12は、本発明の第2の実施形態における分類階層再作成システムの例を示すブロック図である。第2の実施形態では、第1の実施形態に比べ、入力手段11が第2入力手段21に変わり、クラスタリング手段13が第2クラスタリング手段23に変わっている点が異なる。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。
 本実施形態における分類階層再作成システムは、データ処理装置100と、データ記憶装置101と、第2入力手段21と、出力手段16とを備えている。データ記憶装置101については、第1の実施形態と同様であり、第2入力手段21の態様は、第1の実施形態における入力手段11と同様である。第2入力手段21は、入力された構造付きデータ群と、各データの分類とを受信する。なお、以下の説明では、構造付きデータとは、構造化されたデータの各部分を識別する名称(以下、構造部分名称と記す。)が付与されたデータを意味するものとする。
 図13は構造付きデータの例を示す説明図である。図13は特許データの例である。特許データはあらかじめ、要約や目的、課題といった構造情報を持っている。第2入力手段21は、このような構造付きのデータを一つのデータとして受信する。なお、上記説明では、第2入力手段21が、構造付きデータとしてテキストデータを受信する場合について説明したが、第2入力手段21は、音声データや画像データなどを受信してもよい。音声データの場合、構造付きデータが、音声の特定話者の発話部であってもよく、画像データの場合、構造付きデータが、画像の特定の人などであってもよい。
 さらに、第2入力手段21は、後述の第2クラスタリング手段23が分析対象(クラスタリングの対象)とする構造部分名称も受信する。なお、構造部分名称は、構造情報の名称と言うことができる。図13に示す例では、構造部分名称は、要約や目的、課題などである。第2入力手段21は、構造部分名称を複数受信してもよい。例えば、第2入力手段21は、「課題」と「発明の目的」の二つの構造部分名称を受信してもよい。
 データ処理装置100は、第2クラスタリング手段23と、共起度計算手段14と、分類階層更新手段15とを備えている。共起度計算手段14及び分類階層更新手段15については、第1の実施形態と同様であるため、説明を省略する。
 第2クラスタリング手段23は、第2入力手段21から、構造付きデータ群と、各データの分類と、構造部分名称を受け取り、構造付きデータ群のクラスタリングを行う。具体的には、第2クラスタリング手段23は、構造付きデータ全体をもとにクラスタリングを行うのではなく、受信した構造部分名称に該当する部分のみを各データから抽出し、抽出した部分の情報をもとにクラスタリングを行う。例えば、第2クラスタリング手段23は、図13に例示する構造を備えた構造付きデータから、「課題」と「発明の目的」に該当する部分のテキストを抽出し、この部分のテキストのみを使って類似度などを判断し、クラスタリングを行う。第2クラスタリング手段23は、例えば、K-MEANSなどのクラスタリング方法を用いてデータ群をクラスタリングしてもよい。なお、第2クラスタリング手段23は、クラスタリング方法として、K-MEANS以外の他の方法を用いてもよい。
 なお、構造付きデータが音声データの場合であり、構造部分名称として特定の発話者名を受信した場合、第2クラスタリング手段23は、例えば、この発話者名に該当する部分の波形を抽出し、類似度を計算してクラスタリングを行ってもよい。また、構造付きデータが画像データの場合であり、構造部分名称として特定の人物名を受信した場合、第2クラスタリング手段23は、この人物が映っている画像の領域のみを抽出し、類似度を計算してクラスタリングを行ってもよい。
 第2クラスタリング手段23と、共起度計算手段14と、分類階層更新手段15とは、プログラム(分類階層再作成プログラム)に従って動作するコンピュータのCPUによって実現される。また、第2クラスタリング手段23と、共起度計算手段14と、分類階層更新手段15とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、動作について説明する。本実施形態におけるデータ処理装置100の動作は、図3に例示するフローチャートと同様である。第2の実施形態では、第2クラスタリング手段23が、第2入力手段21から、構造付きデータ群と、各データの分類と、構造部分名称を受け取り、構造付きデータ群のクラスタリングを行う点で第1の実施形態と同様である。具体的には、第1の実施形態では、クラスタリング手段13が、データ全体をもとにクラスタリングする。一方、第2の実施形態では、第2クラスタリング手段23が、受信した構造部分名称に該当する部分のみを各データから抽出し、抽出した部分の情報をもとにクラスタリングを行う。それ以外の動作については、第1の実施形態と同様である。
 以上のように、本実施形態によれば、第2クラスタリング手段23が、構造付きデータと構造部分名称とに基づき、構造部分名称に該当する部分を構造付きデータから抽出したデータを用いて構造付きデータ群をクラスタ化する。よって、第1の実施形態の効果に加え、ユーザが分析したい観点で分類階層を再作成できる。
 すなわち、本実施形態によれば、第2クラスタリング手段23が、分析対象となる部分のみを抽出してクラスタリングする。具体的には、構造付きデータと分析対象になる構造部分名称とを用いてクラスタリングする。そのため、ユーザが分析したい観点で分類階層を更新できる。このように、分析対象を変更することで分類グループを変化させることができるため、分析対象の部分が示す特徴を分類階層に反映できる。例えば、対象のデータが特許データであれば、目的別に分けたい、課題別に分けたいなどの観点で分類階層を更新できる。
実施形態3.
 図14は、本発明の第3の実施形態における分類階層再作成システムの例を示すブロック図である。第3の実施形態では、第1の実施形態に比べ、データ処理装置100が再更新手段31を含んでいる点が異なる。なお、第1の実施形態と同様の構成については、図1と同一の符号を付し、説明を省略する。すなわち、第3の実施形態におけるデータ処理装置100は、クラスタリング手段13と、共起度計算手段14と、分類階層更新手段15と、再更新手段31とを備えている。クラスタリング手段13、共起度計算手段14及び分類階層更新手段15については、第1の実施形態と同様であるため、説明を省略する。
 再更新手段31は、分類階層更新手段15から更新結果の分類階層を受け取り、受け取った分類階層が所定の条件を満たさない場合、分類階層の再更新を行うよう指示する。ここで、所定の条件とは、分類階層の分類数や深さ、再更新回数、ユーザからの停止指示の有無の少なくとも1つ、又は、その組み合わせであるが、所定の条件はこれらの内容に限定されない。
 具体的には、再更新手段31は、更新した分類階層でデータ群の分類や分類階層を書き直す。また、再更新手段31は、クラスタリングを行う場合の閾値や、分類階層更新手段15が包含関係と同意関係を決める閾値(すなわち、共起スコア閾値)を緩和した値に変更する。そして、再更新手段31は、分類階層の再作成を行うようクラスタリング手段13に指示する。
 クラスタリング手段13と、共起度計算手段14と、分類階層更新手段15と、再更新手段31とは、プログラム(分類階層再作成プログラム)に従って動作するコンピュータのCPUによって実現される。また、クラスタリング手段13と、共起度計算手段14と、分類階層更新手段15と、再更新手段31とは、それぞれが専用のハードウェアで実現されていてもよい。
 次に、動作について説明する。図15は、本実施形態におけるデータ処理装置100の動作の例を示すフローチャートである。入力手段11がデータを受信し、分類階層更新手段が分類階層を更新するまでの処理は、図3におけるステップS1~S5の処理と同様であるため、説明を省略する。再更新手段31は、分類階層更新手段15から更新結果の分類階層を受け取り、受け取った分類階層が所定の条件を満たすか否かを判断する(ステップS6)。所定の条件を満たさない場合(ステップS6におけるNO)、再更新手段31は、クラスタリングを行う場合の閾値や、共起スコア閾値を緩和した値に変更し(ステップS7)、分類階層の再作成を行うようクラスタリング手段13に指示する。以降、ステップS1~S6の処理を繰り返す。一方、所定の条件を満たす場合(ステップS6におけるYES)、再更新手段31は、更新処理を終了する。
 以上のように、本実施形態によれば、再更新手段31が、分類階層更新手段15が再作成した分類階層を再度更新する指示を行う。具体的には、再更新手段31は、再作成された分類階層が、予め定められた要件を満たさない場合、分類グループを作成するための条件や分類の階層を再作成するための共起度の条件を変更する。そして、クラスタリング手段13が、変更された条件を満たす分類を抽出した分類グループを作成し、分類階層再作成手段15は、変更された条件をもとに分類の階層を再作成する。よって、第1の実施形態の効果に加え、より条件に近い分類階層を得ることができる。すなわち、条件に合わない場合であっても、再更新手段31が再度更新を行うことで、より条件に近い分類階層を得ることができる。
 以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。本実施例では、図1に例示するブロック図及び図3に例示するフローチャートをもとに、具体例を挙げて説明する。
 まず、入力手段11が、受け取ったデータ群をクラスタリング手段13に通知すると、クラスタリング手段13は、そのデータ群をもとにクラスタリングを行う(図3におけるステップS1)。入力手段11が受け取るデータ群の例を図16に示す。図16に例示するデータ群は、1レコードに「データ」と「分類」を含む。本実施例では、データとしてテキストデータを例に挙げて説明するが、データは音声や画像などでもよい。また、図16に例示する分類は、カンマで区切られ、複数指定されていることを示す。
 以下、クラスタリング手段13が、このデータをクラスタリングする場合について説明する。クラスタリング手段13は、データに適したクラスタリング手法を用いてクラスタリングする。本実施例の場合、受信するデータがテキストデータであるので、クラスタリング手段13は、各データのテキストをベクトルデータとして類似度を計算するK-MEANS手法を用いる。具体的には、クラスタリング手段13は、まず、各データのテキストを形態素解析し単語に分割する。次に、クラスタリング手段13は、次元を単語、値を単語数とするベクトルデータに変換する。次に、クラスタリング手段13は、ベクトルデータ間のコサイン類似度からK個のクラスタを作成する。本実施例ではK=4とし、クラスタリング手段13が、4つのクラスタを作成するものとする。
 なお、受信するデータがテキストデータではなく、音声や画像などのバイナリデータの場合、クラスタリング手段13は、それぞれのデータに適した方法を用いればよい。例えば、音声データの場合、クラスタリング手段13は、音声波形データを読み取り、その類似度を元に計算してクラスタリングしてもよい。また、画像の場合、画像から色ヒストグラムを生成し、その類似度を元に計算してクラスタリングしてもよい。
 次に、クラスタリング手段13は、分類階層記憶手段12に記憶された分類階層を参照し、クラスタリング結果のクラスタと分類のクロス集計表を作成し、分類グループを作成する(図3におけるステップS2)。分類階層の例を図17に、クロス集計表の例を図18に示す。
 図17に例示する分類階層は分類をノードとする有向グラフ構造である。図17に示す例では、「主要カテゴリ」をルート分類に、その分類の下位階層に分類「社会」及び「自然」が存在し、さらに分類「社会」の下位階層にも様々な幅広い分類が存在していることを示す。
 また、図18に例示するクロス集計表は、横にクラスタを示す情報を、縦に分類を示す情報をそれぞれ配置した表である。図18に例示するクロス集計表の値は、クラスタに存在するデータで、各分類に属しているデータ数を示す。ただし、図18に例示する値は一例であり、値として、データ数をクラスタの合計データ数で割った値でもよいし、データ数を分類の合計データ数で割った値でもよい。なお、本実施例では、分類「社会」以下の分類に属するデータのみ入力されているとする。
 ここで、クラスタリング手段13は、ある閾値以上のセルにマークする。図18に示す例では、マークした部分を太線で囲んで表わすものとし、クラスタリング手段13が閾値10以上のセルにマークしたことを示す。マークされた部分は、クラスタに含まれるデータが多く属する分類であることを示している。例えば、図18に例示する「クラスタ1」は、分類「移植」と、分類「親族」に属するデータを多く含んでいることを示している。ここで、分類に属するデータが多いとは、予め定められた閾値以上であることを意味する。
 クラスタリング手段13は、クラスタごとにマークされている分類をもとに、分類グループを作成する。例えば、図18に示す例では、クラスタリング手段13は、「クラスタ1」の中でマークされている分類(「移植」、「親族」)を一つのグループ(分類群)にする。他にも、クラスタリング手段13は、「クラスタ2」の中から、(「健康」、「医学」、「移植」)のグループを、「クラスタ3」の中から(「行政」、「外交官」)のグループを、「クラスタ4」の中から、(「家庭」、「育児」)のグループをそれぞれ作成する。
 次に、クラスタリング手段13は、クロス集計表と分類階層を参照し、階層的距離が離れている分類群を分割する(図3におけるステップS3)。クラスタリング手段13は、分類群の分類それぞれに対し、階層的距離が閾値以上であるか否かを判定する。そして、階層的距離が閾値以上であれば、クラスタリング手段13は、分類群を分割する。本実施例において、階層的距離とは、二つの分類の分類階層内での最短ホップ数を意味するものとする。
 以下、閾値が5ホップの場合について、図17を用いて説明する。図17に示す例では、(「移植」、「親族」)のグループでは、「移植」と「分類」が5ホップ離れているので分割対象となる。よって、このグループは、(「移植」)、(「親族」)に分割される。クロス集計表を分割した結果の例を、図19に示す。図19に示す例では、「クラスタ1」の分類「移植」と「親族」が、「クラスタ1」と「クラスタ1’」それぞれに分割されたことがわかる。なお、以下の説明では、図19に例示するクラスタ番号、をグループ番号として記載する。
 次に、共起度計算手段14は、分類グループから選択した二つの分類の共起度を計算する(図3におけるステップS4)。ここで、共起度は、二つの分類の共起頻度を元にした統計量である。図20に共起スコアの計算結果例を示す。図20に例示する表は、分類グループ番号、共起度を計算する対象の二つの分類である「分類1」と「分類2」、及び、それぞれの分類の共起度を示す「共起スコア1」と「共起スコア2」からなる表である。本実施例では、共起度を示す「共起スコア1」と「共起スコア2」は、それぞれ、「分類1」と「分類2」の共起する条件付確率とする。すなわち、「共起スコア1」は、「分類1」に対する共起の確率であり、「共起スコア2」は、「分類2」に対する共起の確率である。「共起スコア1」の値、及び、「共起スコア2」の値は、上述の(式1)及び(式2)でそれぞれ算出できる。
 共起スコアの値は、具体的には以下のように計算される。「分類グループ1」及び「分類グループ1’」には、マークがついた分類(すなわち、ある閾値以上のデータが属する分類)が一つしか存在しない。よって、共起度計算手段14は、共起スコアを計算しない。一方、「分類グループ1」及び「分類グループ1’」には、マークがついた分類が二つ(すなわち、分類「健康」、「医学」)存在する。よって、共起度計算手段14は、「分類グループ2」の、二つの分類「健康」、「医学」について、共起スコアを以下のように計算する。
 ここで、「健康」と「医学」が同じデータに割振られている数(すなわち、「健康」と「医学」の共起頻度)を16とし、「健康」の出現頻度を21、「医学」の出現頻度を20とする。このとき、それぞれの共起スコアは、以下のように計算される。
 共起スコア1=P(健康,医学|健康)=「健康」と「医学」の共起頻度/「健康」の頻度=16/21=0.77
 共起スコア2=P(健康,医学|医学)=「健康」と「医学」の共起頻度/「医学」の頻度=16/20=0.8
 なお、その他の共起スコアについても同様に算出されるため、説明を省略する。
 次に、分類階層更新手段15は、分類グループと共起度に基づき、分類階層を更新する(図3におけるステップS5)。分類階層更新手段15は、共起スコア閾値を用いて共起度(すなわち、共起スコア)の高低を判断する。本実施例では、分類階層更新手段15は、共起スコア閾値0.7以上の場合に共起スコアが高いと判断し、共起スコア閾値0.2以下の場合に共起スコアが低いと判断するものとする。
 図20に例示する「グループ2」の「健康」と「医学」の共起度(共起スコア)によれば、「共起スコア1」が高く、「共起スコア2」も高いと判断される。よって、この二つの分類には同意関係があると言える。また、上述の通り、「健康」の出現頻度が21、「医学」の出現頻度が20であるので、「健康」のほうが大きな分類と言える。したがって、分類階層更新手段15は、「医学」を「健康」に統合することにより分類階層を更新する。
 一方、図20に例示する「グループ2」の「健康」と「移植」の共起度、及び、「グループ2」の「医学」と「移植」の共起度は、いずれも高いと言えず、また低いとも言えない。そのため、分類階層更新手段15は、分類階層を更新しない。
 また、図20に例示する「グループ3」の「行政」と「外交官」の共起度によれば、「共起スコア1」は低く、「共起スコア2」は高いと判断される。よって、この二つの分類には包含関係があると言える。したがって、分類階層更新手段15は、「行政」を親、「外交官」を子として分類階層を更新する。
 同様に、図20に例示する「グループ4」の「家庭」と「育児」の共起度は、「共起スコア1」が高く、「共起スコア2」も高いと判断される。よって、この二つの分類には同意関係があると言える。ここで、「家庭」の方が大きな分類である場合、分類階層更新手段15は、「育児」を「家庭」に統合することにより分類階層を更新する。
 以上の結果得られる分類階層の例を図21に示す。図21に示す破線は、分類階層を更新する前の親子関係を示す線である。また、図21に例示する分類の中で、その分類に属するデータが存在する分類を太線で囲んで表わすものとし、その分類にデータが存在しない分類は太線で囲まずに表現するものとする。なお、更新前の親子関係は削除してもよいし、しなくともよい。本実施例では、分類階層更新手段15が、後ほど削除することにする。
 さらに、分類階層更新手段15は、属するデータがない分類に対する処理を行ってもよい。本実施例では、属するデータがない分類であって、子供分類がない分類を削除する。例えば、図21に例示する分類のうち、「家族法」「外交史」「官公庁」は、分類に属すデータがない分類であって、子供分類がない分類である。よって、分類階層更新手段15は、これらの分類を削除することにより分類階層を更新する。また、分類階層更新手段15は、分類に属すデータがない分類であって、子供分類が一つしかない分類に対し、その分類を削除し、子供分類を繰り上げて直接上下関係を作成してもよい。ただし、本実施例では、そのようは分類がないため、分類階層の更新は行わない。以上の結果得られる分類階層の例を図22に示す。
 他にも、情報検索結果を表示する際、検索結果を分類して表示するといった用途に本発明を適用できる。また、更新された分類階層とその分類内の単語との関係をもとに定められる関連語を表示する場合にも本発明を適用できる。
 次に、本発明の最小構成を説明する。図23は、本発明の最小構成を示すブロック図である。本発明による分類階層再作成システムは、階層化された分類に対応付けられたデータ群をクラスタ化し、そのクラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類(例えば、属するデータ数の多い分類)を抽出したグループである分類グループ(例えば、分類群、分類グループ)を作成するクラスタリング手段81(例えば、クラスタリング手段13)と、分類グループから選択した二つの分類の共起度を計算する(例えば、(式1)、(式2)によって計算する)共起度計算手段82(例えば、共起度計算手段14)と、分類グループ及び共起度をもとに、分類の階層(例えば、分類階層)を再作成する分類階層再作成手段83(分類階層更新手段15)とを備えている。
 そのような構成により、既存の分類階層を再構築して新たな分類階層を作成する場合に、分類の上下関係を考慮した分類階層や、同じ意味の分類を統合した分類階層を効率的に作成できる。
 また、少なくとも以下に示すような分類階層再作成システムも、上記に示すいずれかの実施形態に記載されていると言える。
(1)階層化された分類に対応付けられたデータ群をクラスタ化し、そのクラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類(例えば、属するデータ数の多い分類)を抽出したグループである分類グループ(例えば、分類群、分類グループ)を作成するクラスタリング手段(例えば、クラスタリング手段13)と、分類グループから選択した二つの分類の共起度を計算する(例えば、(式1)、(式2)によって計算する)共起度計算手段(例えば、共起度計算手段14)と、分類グループ及び共起度をもとに、分類の階層(例えば、分類階層)を再作成する分類階層再作成手段(分類階層更新手段15)とを備える分類階層再作成システム。
(2)クラスタリング手段が、作成した分類グループ内の分類が、予め定められた距離以上離れている場合に、その分類グループ(例えば、分類群)を分割した分類グループを作成する分類階層再作成システム。
(3)共起度計算手段が、二つの分類が共起しているデータ数である共起頻度と各分類に属するデータ数とをもとに共起度を計算し、分類階層再作成手段が、二つの分類が包含関係か同意関係かを共起度をもとに判断し、二つの分類が包含関係か同意関係かを示す判断結果に基づいて分類の階層を再作成する分類階層再作成システム。
(4)分類階層再作成手段が、二つの分類の関係が包含関係の場合に、包含する側の分類を親分類に、包含される側の分類を子分類にした階層を追加することにより分類の階層を再作成し、二つの分類の関係が同意関係の場合に、その二つの分類のうち、含まれるデータ数が多い分類に対して少ない分類を統合した分類を作成することにより分類の階層を再作成する分類階層再作成システム。
(5)分類階層再作成手段が、包含される側の分類を子分類にした階層を追加した場合に、分類階層を再作成する前のその子分類の親子関係を削除することにより分類の階層を再作成する分類階層再作成システム。
(6)分類階層再作成手段が、属するデータがない分類が子分類を持たない分類の場合にその分類を削除することにより分類の階層を再作成し、属するデータがない分類であって、子分類を1つしか持たない分類の場合、その分類を削除して、その削除される分類の親分類と、子分類との間に階層関係を作成することにより分類の階層を再作成する分類階層再作成システム。
(7)クラスタリング手段(例えば、第2クラスタリング手段23)が、構造化されたデータである構造付きデータと、その構造付きデータの各部分を識別する名称である構造部分名称とに基づき、構造部分名称に該当する部分を構造付きデータから抽出したデータを用いて構造付きデータ群をクラスタ化する分類階層再作成システム。
(8)分類階層再作成手段が再作成した分類階層を再度更新する指示を行う再更新手段(例えば、再更新手段31)を備え、再更新手段が、再作成された分類階層が予め定められた要件を満たさない場合、分類グループを作成するための条件、分類の階層を再作成するための共起度の条件のうちの少なくとも1つの条件を変更し、クラスタリング手段が、変更された条件を満たす分類を抽出した分類グループを作成し、分類階層再作成手段が、変更された条件をもとに分類の階層を再作成する分類階層再作成システム。
(9)再更新手段が、分類階層の分類数、分類階層の深さ、分類階層の再更新回数、停止指示の有無のうちの少なくとも1つの要件が予め定められた要件を満たさない場合に、条件を変更する分類階層再作成システム。
(10)クラスタリング手段が、クラスタ内の各データに対応する分類のうち、その分類に属するデータ数が予め定められた数よりも多い分類を抽出して分類グループを作成する分類階層再作成システム。
 以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
 この出願は、2009年7月6日に出願された日本特許出願2009-160071を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、階層化された分類を再構築して新たな分類階層を作成する分類階層再作成システムに好適に適用される。
 11 入力手段
 12 分類階層記憶手段
 13 クラスタリング手段
 14 共起度計算手段
 15 分類階層更新手段
 21 第2入力手段
 23 第2クラスタリング手段
 31 再更新手段
 100 データ処理装置
 101 データ記憶装置

Claims (22)

  1.  階層化された分類に対応付けられたデータ群をクラスタ化し、当該クラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成するクラスタリング手段と、
     前記分類グループから選択した二つの分類の共起度を計算する共起度計算手段と、
     前記分類グループ及び共起度をもとに、前記分類の階層を再作成する分類階層再作成手段とを備えた
     ことを特徴とする分類階層再作成システム。
  2.  クラスタリング手段は、作成した分類グループ内の分類が、予め定められた距離以上離れている場合に、当該分類グループを分割した分類グループを作成する
     請求項1記載の分類階層再作成システム。
  3.  共起度計算手段は、二つの分類が共起しているデータ数である共起頻度と各分類に属するデータ数とをもとに共起度を計算し、
     分類階層再作成手段は、前記二つの分類が包含関係か同意関係かを前記共起度をもとに判断し、前記二つの分類が包含関係か同意関係かを示す判断結果に基づいて分類の階層を再作成する
     請求項1または請求項2記載の分類階層再作成システム。
  4.  分類階層再作成手段は、二つの分類の関係が包含関係の場合に、包含する側の分類を親分類に、包含される側の分類を子分類にした階層を追加することにより分類の階層を再作成し、二つの分類の関係が同意関係の場合に、当該二つの分類のうち、含まれるデータ数が多い分類に対して少ない分類を統合した分類を作成することにより分類の階層を再作成する
     請求項3記載の分類階層再作成システム。
  5.  分類階層再作成手段は、包含される側の分類を子分類にした階層を追加した場合に、分類階層を再作成する前の当該子分類の親子関係を削除することにより分類の階層を再作成する
     請求項4記載の分類階層再作成システム。
  6.  分類階層再作成手段は、属するデータがない分類が子分類を持たない分類の場合に当該分類を削除することにより分類の階層を再作成し、属するデータがない分類であって、子分類を1つしか持たない分類の場合、当該分類を削除して、当該削除される分類の親分類と、前記子分類との間に階層関係を作成することにより分類の階層を再作成する
     請求項1から請求項5のうちのいずれか1項に記載の分類階層再作成システム。
  7.  クラスタリング手段は、構造化されたデータである構造付きデータと、当該構造付きデータの各部分を識別する名称である構造部分名称とに基づき、前記構造部分名称に該当する部分を前記構造付きデータから抽出したデータを用いて前記構造付きデータ群をクラスタ化する
     請求項1から請求項6記載の分類階層再作成システム。
  8.  分類階層再作成手段が再作成した分類階層を再度更新する指示を行う再更新手段を備え、
     前記再更新手段は、再作成された分類階層が予め定められた要件を満たさない場合、分類グループを作成するための条件、分類の階層を再作成するための共起度の条件のうちの少なくとも1つの条件を変更し、
     クラスタリング手段は、変更された条件を満たす分類を抽出した分類グループを作成し、
     分類階層再作成手段は、変更された条件をもとに分類の階層を再作成する
     請求項1から請求項7のうちのいずれか1項に記載の分類階層再作成システム。
  9.  再更新手段は、分類階層の分類数、分類階層の深さ、分類階層の再更新回数、停止指示の有無のうちの少なくとも1つの要件が予め定められた要件を満たさない場合に、条件を変更する
     請求項8記載の分類階層再作成システム。
  10.  クラスタリング手段は、クラスタ内の各データに対応する分類のうち、当該分類に属するデータ数が予め定められた数よりも多い分類を抽出して分類グループを作成する
     請求項1から請求項9のうちのいずれか1項に記載の分類階層再作成システム。
  11.  階層化された分類に対応付けられたデータ群をクラスタ化し、
     前記クラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成し、
     前記分類グループから選択した二つの分類の共起度を計算し、
     前記分類グループ及び共起度をもとに、前記分類の階層を再作成する
     ことを特徴とする分類階層再作成方法。
  12.  作成した分類グループ内の分類が、予め定められた距離以上離れている場合に、当該分類グループを分割した分類グループを作成する
     請求項11記載の分類階層再作成方法。
  13.  二つの分類が共起しているデータ数である共起頻度と各分類に属するデータ数とをもとに共起度を計算し、
     前記二つの分類が包含関係か同意関係かを前記共起度をもとに判断し、
     二つの分類が包含関係か同意関係かを示す判断結果に基づいて分類の階層を再作成する
     請求項11または請求項12記載の分類階層再作成方法。
  14.  二つの分類の関係が包含関係の場合に、包含する側の分類を親分類に、包含される側の分類を子分類にした階層を追加することにより分類の階層を再作成し、二つの分類の関係が同意関係の場合に、当該二つの分類のうち、含まれるデータ数が多い分類に、少ない分類を統合した一つの分類を作成することにより分類の階層を再作成する
     請求項13記載の分類階層再作成方法。
  15.  包含される側の分類を子分類にした階層を追加した場合に、分類階層を再作成する前の当該子分類の親子関係を削除することにより分類の階層を再作成する
     請求項14記載の分類階層再作成方法。
  16.  属するデータがない分類が子分類を持たない分類の場合に当該分類を削除することにより分類の階層を再作成し、属するデータがない分類であって、子分類を1つしか持たない分類の場合、当該分類を削除して、当該削除される分類の親分類と、前記子分類との間に階層関係を作成することにより分類の階層を再作成する
     請求項11から請求項15のうちのいずれか1項に記載の分類階層再作成方法。
  17.  構造化されたデータである構造付きデータと、当該構造付きデータの各部分を識別する名称である構造部分名称とに基づき、前記構造部分名称に該当する部分を前記構造付きデータから抽出したデータを用いて前記構造付きデータ群をクラスタ化する
     請求項11から請求項16記載の分類階層再作成方法。
  18.  再作成された分類階層が予め定められた要件を満たさない場合、分類グループを作成するための条件、分類の階層を再作成するための共起度の条件のうちの少なくとも1つの条件を変更して、前記再作成した分類階層を再度更新する指示を行い、
     変更された条件を満たす分類を抽出した分類グループを作成し、
     変更された条件をもとに分類の階層を再作成する
     請求項11から請求項17のうちのいずれか1項に記載の分類階層再作成方法。
  19.  分類階層の分類数、分類階層の深さ、分類階層の再更新回数、停止指示の有無のうちの少なくとも1つの要件が予め定められた要件を満たさない場合に、条件を変更する
     請求項18記載の分類階層再作成方法。
  20.  クラスタ内の各データに対応する分類のうち、当該分類に属するデータ数が予め定められた数よりも多い分類を抽出して分類グループを作成する
     請求項11から請求項19のうちのいずれか1項に記載の分類階層再作成方法。
  21.  コンピュータに、
     階層化された分類に対応付けられたデータ群をクラスタ化し、当該クラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成するクラスタリング処理、
     前記分類グループから選択した二つの分類の共起度を計算する共起度計算処理、および、
     前記分類グループ及び共起度をもとに、前記分類の階層を再作成する分類階層再作成処理
     を実行させるための分類階層再作成プログラム。
  22.  コンピュータに、
     クラスタリング処理で、作成した分類グループ内の分類が、予め定められた距離以上離れている場合に、当該分類グループを分割した分類グループを作成させる
     請求項21記載の分類階層再作成プログラム。
PCT/JP2010/002855 2009-07-06 2010-04-20 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム WO2011004529A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US13/382,381 US8732173B2 (en) 2009-07-06 2010-04-20 Classification hierarchy regeneration system, classification hierarchy regeneration method, and classification hierarchy regeneration program
JP2011521779A JP5621773B2 (ja) 2009-07-06 2010-04-20 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2009160071 2009-07-06
JP2009-160071 2009-07-06

Publications (1)

Publication Number Publication Date
WO2011004529A1 true WO2011004529A1 (ja) 2011-01-13

Family

ID=43428962

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2010/002855 WO2011004529A1 (ja) 2009-07-06 2010-04-20 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム

Country Status (3)

Country Link
US (1) US8732173B2 (ja)
JP (1) JP5621773B2 (ja)
WO (1) WO2011004529A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013012172A (ja) * 2011-06-03 2013-01-17 Toshiba Corp 株取引知見抽出装置、知見更新装置、及びプログラム
JP2013117866A (ja) * 2011-12-02 2013-06-13 Nippon Telegr & Teleph Corp <Ntt> キーワード地名ペア抽出装置及び方法及びプログラム
JP2015135640A (ja) * 2014-01-20 2015-07-27 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2017107603A (ja) * 2017-03-10 2017-06-15 一般財団法人工業所有権協力センター 関連語統合プログラム
JP2017167831A (ja) * 2016-03-16 2017-09-21 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
US10002122B2 (en) 2012-05-31 2018-06-19 Kabushiki Kaisha Toshiba Forming knowledge information based on a predetermined threshold of a concept and a predetermined threshold of a target word extracted from a document

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013015341A1 (ja) * 2011-07-25 2013-01-31 楽天株式会社 ジャンル生成装置
US8650198B2 (en) * 2011-08-15 2014-02-11 Lockheed Martin Corporation Systems and methods for facilitating the gathering of open source intelligence
PL398136A1 (pl) * 2012-02-17 2013-08-19 Binartech Spólka Jawna Aksamit Sposób wykrywania kontekstu urzadzenia przenosnego i urzadzenie przenosne z modulem wykrywania kontekstu
US9286391B1 (en) 2012-03-19 2016-03-15 Amazon Technologies, Inc. Clustering and recommending items based upon keyword analysis
US9928232B2 (en) 2015-02-27 2018-03-27 Microsoft Technology Licensing, Llc Topically aware word suggestions
US10430450B2 (en) * 2016-08-22 2019-10-01 International Business Machines Corporation Creation of a summary for a plurality of texts
US10635939B2 (en) 2018-07-06 2020-04-28 Capital One Services, Llc System, method, and computer-accessible medium for evaluating multi-dimensional synthetic data using integrated variants analysis
US11361028B2 (en) * 2020-06-09 2022-06-14 Microsoft Technology Licensing, Llc Generating a graph data structure that identifies relationships among topics expressed in web documents
CN113536806B (zh) * 2021-07-18 2023-09-08 北京奇艺世纪科技有限公司 一种文本分类方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1196177A (ja) * 1997-09-22 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
JP2000010996A (ja) * 1998-06-24 2000-01-14 Fujitsu Ltd 文書整理装置および方法
JP2003140942A (ja) * 2001-10-19 2003-05-16 Xerox Corp 共起する対象の階層的ソフトクラスタリングのための製造方法、装置および製品
US20040181554A1 (en) * 1998-06-25 2004-09-16 Heckerman David E. Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
JP2005266866A (ja) * 2004-03-16 2005-09-29 Fuji Xerox Co Ltd 文書分類装置ならびに文書分類装置の分類体系生成装置および方法
JP2008299382A (ja) * 2007-05-29 2008-12-11 Fujitsu Ltd データ分割プログラム、該プログラムを記録した記録媒体、データ分割装置、およびデータ分割方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8055597B2 (en) * 2006-05-16 2011-11-08 Sony Corporation Method and system for subspace bounded recursive clustering of categorical data
JP4884871B2 (ja) 2006-07-27 2012-02-29 東京エレクトロン株式会社 塗布方法及び塗布装置
US20080109454A1 (en) * 2006-11-03 2008-05-08 Willse Alan R Text analysis techniques

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1196177A (ja) * 1997-09-22 1999-04-09 Nippon Telegr & Teleph Corp <Ntt> 用語辞書生成方法および用語辞書生成プログラムを記録した記録媒体
JP2000010996A (ja) * 1998-06-24 2000-01-14 Fujitsu Ltd 文書整理装置および方法
US20040181554A1 (en) * 1998-06-25 2004-09-16 Heckerman David E. Apparatus and accompanying methods for visualizing clusters of data and hierarchical cluster classifications
JP2003140942A (ja) * 2001-10-19 2003-05-16 Xerox Corp 共起する対象の階層的ソフトクラスタリングのための製造方法、装置および製品
JP2005266866A (ja) * 2004-03-16 2005-09-29 Fuji Xerox Co Ltd 文書分類装置ならびに文書分類装置の分類体系生成装置および方法
JP2008299382A (ja) * 2007-05-29 2008-12-11 Fujitsu Ltd データ分割プログラム、該プログラムを記録した記録媒体、データ分割装置、およびデータ分割方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013012172A (ja) * 2011-06-03 2013-01-17 Toshiba Corp 株取引知見抽出装置、知見更新装置、及びプログラム
JP2013117866A (ja) * 2011-12-02 2013-06-13 Nippon Telegr & Teleph Corp <Ntt> キーワード地名ペア抽出装置及び方法及びプログラム
US10002122B2 (en) 2012-05-31 2018-06-19 Kabushiki Kaisha Toshiba Forming knowledge information based on a predetermined threshold of a concept and a predetermined threshold of a target word extracted from a document
JP2015135640A (ja) * 2014-01-20 2015-07-27 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP2017167831A (ja) * 2016-03-16 2017-09-21 ヤフー株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2017107603A (ja) * 2017-03-10 2017-06-15 一般財団法人工業所有権協力センター 関連語統合プログラム

Also Published As

Publication number Publication date
JP5621773B2 (ja) 2014-11-12
US8732173B2 (en) 2014-05-20
JPWO2011004529A1 (ja) 2012-12-13
US20120109963A1 (en) 2012-05-03

Similar Documents

Publication Publication Date Title
JP5621773B2 (ja) 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム
JP5531395B2 (ja) 単語親和度による単語クラスタの識別
JP5338238B2 (ja) ワードの類似性を用いたオントロジーの自動生成
US9454599B2 (en) Automatic definition of entity collections
US11126647B2 (en) System and method for hierarchically organizing documents based on document portions
KR100756921B1 (ko) 문서 분류방법 및 그 문서 분류방법을 컴퓨터에서 실행시키기 위한 프로그램을 포함하는 컴퓨터로 읽을 수있는 기록매체.
US8332439B2 (en) Automatically generating a hierarchy of terms
JP5594145B2 (ja) 検索装置、検索方法、及びプログラム
JP2006018829A (ja) 自動分類生成
JP6260294B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
US20150100605A1 (en) Determining collection membership in a data graph
JP2009294939A (ja) 文書分類装置
JP7110554B2 (ja) オントロジー生成装置、オントロジー生成プログラム及びオントロジー生成方法
JP2013130965A (ja) データ分析装置、データ分析方法及びプログラム
US20220292127A1 (en) Information management system
JP6081609B2 (ja) データ分析システム及びその方法
JP5954742B2 (ja) 文書を検索する装置及び方法
US11960522B2 (en) Information management system for database construction
JP6476638B2 (ja) 固有用語候補抽出装置、固有用語候補抽出方法、及び固有用語候補抽出プログラム
JP2014102624A (ja) キーワード関連度スコア算出装置、キーワード関連度スコア算出方法、及びプログラム
Font Corbera et al. Folksonomy-based tag recommendation for collaborative tagging systems
Kumar et al. Enhancing the Search Results through Web Structure Mining Using Frequent Pattern Analysis and Linear Correlation Method
KR20180009501A (ko) 반 구조 문서 검색 방법
Vadivukkarasi PRODUCT REVIEW RANKING SUMMARIZATION

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10796843

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2011521779

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13382381

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 10796843

Country of ref document: EP

Kind code of ref document: A1