WO2011004529A1

WO2011004529A1 - 分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム

Info

Publication number: WO2011004529A1
Application number: PCT/JP2010/002855
Authority: WO
Inventors: 水口弘紀; 久寿居大
Original assignee: 日本電気株式会社
Priority date: 2009-07-06
Filing date: 2010-04-20
Publication date: 2011-01-13
Also published as: JP5621773B2; US8732173B2; JPWO2011004529A1; US20120109963A1

Abstract

　既存の分類階層を再構築して新たな分類階層を作成する場合に、分類の上下関係を考慮した分類階層や、同じ意味の分類を統合した分類階層を効率的に作成できる分類階層再作成システムを提供する。クラスタリング手段は、階層化された分類に対応付けられたデータ群をクラスタ化し、そのクラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成する。共起度計算手段は、分類グループから選択した２つの分類の共起度を計算する。分類階層再作成手段は、分類グループ及び共起度をもとに、分類の階層を再作成する。

Description

分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラム

　本発明は、階層化された分類を再構築して新たな分類階層を作成する分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラムに関する。

　特許文献１には、階層構造を持つ項目で多次元データを分割する際、分析目的に合致した適切なグループに分割するデータ分割方法が記載されている。特許文献１に記載されたデータ分割装置は、データ群とデータ群の分類階層を受け取ると、受け取ったデータ群の分布をもとに、分類階層の中から特徴的でない階層を削除した分類階層を出力する。具体的には、判定手段が、特定の分類を分割対象とし、そのデータ群（分割対象グループ）の分布に基づいて統計的検定を行うことにより、分割対象グループが特徴的か否かを示す属性を判定する。次に、分割手段は、判定結果に基づいて、分割対象グループを子階層に属する子グループ群に分割し、新たに分割対象にする。そして、統合手段は、判定結果の属性に基づいて特徴的でない子グループ群を親グループに統合する。具体的には、統合手段は、特徴的でない階層を削除し、特徴的な階層のみを残す。そのため、出力される分類階層を親分類から順番にたどることで、特徴的な子階層までの分類を得ることができる。

　また、特許文献２には、入力された文書データをもとに、用語間の関係を出力する用語辞書生成方法が記載されている。特許文献２に記載された用語辞書生成方法では、まず、文書データの各単語及び位置情報をもとに関連語を選択する。次に、単語と関連語をノードとしたグラフを作成する。また、グラフのあらゆる二つのノードの組合せについて、共起統計量を計算し、さらに、類義語辞書やその他の文書データなどから類似度を計算する。そして、共起統計量と類似度の値を利用する変換ルールに基づいてグラフを変換する。

　特許文献３には、情報処理装置に蓄えられた大量の文書群を、その特徴に従って高い精度で自動的に分類する文書整理装置が記載されている。特許文献３に記載された文書整理装置は、キーワード対（Ｈ，Ｂ）の共起出現頻度を表すサポートｓｕｐ（Ｈ→Ｂ）および確信度ｃｏｎｆ（Ｈ→Ｂ）を定義する。そして、点（Ｘ，Ｙ）＝（ｃｏｎｆ（ｋｗ→ｗi ），ｃｏｎｆ（ｗi →ｋｗ））で定められるＸＹ平面を５つに分け、階層関係、同値関係、および連想関係を決定する。

　特許文献４には、フラットな分類枠から階層化構造の分類体系を自動的に構築する分類体系生成装置が記載されている。特許文献４に記載された分類体系生成装置では、非階層型（すなわちフラットな分類枠）から出発してクラスタリングによりクラスタを生成する。そして、生成したこれらクラスタを上位の分類枠として階層構造分類体系を準備し、分類精度が基準値より低い上位分類枠（すなわちクラスタ）に着目して他のクラスタと統合した後、再クラスタリングを行うことで階層を伸ばしていく。また、特許文献４に記載された分類体系生成装置では、既存の分類体系の分類精度が基準値より低い場合や、状況に併せて分類体系を修正した場合に、文書分類部の分類体系を分類体系記憶部に記憶して最適化対象とする。そして、文書入力部から入力された分類済み文書や、状況を代表するサンプル文書をもとに分類を評価し、変更を行うことで、分類精度を向上させる。

特開２００８－２９９３８２号公報（段落００２７、００４７～００４８、００７９）特開平１１－９６１７７号公報（段落００１５～００１７、図１）特開２００５－２６６８６６号公報（段落００２１、００５１、図４）特開２０００－１０９９６号公報（段落００８１、００８４～００８５、図１１）

　特許文献１に記載されたデータ分割方法では、特徴的でない階層は削除されてしまうため、削除対象になった階層を分類することができないという課題がある。例えば、特許文献１に記載されたデータ分割方法では、データの特性に合う観点が分類階層にある場合はよいが、データ特性に合う観点がない場合は、適切な分類階層を得ることはできない。このような分類対象にならない階層であっても、その階層の上下関係を考慮した分類や、同じ意味の分類を統合した分類（例えば、分類１と分類２がまったく同じデータに割り振られている場合は、同じ意味の分類として一つにまとめる、など）を作成できることが望ましい。

　また、特許文献１に記載されたデータ分割方法では、各階層が特徴的か否かを判定するために、すべての階層に対し判定をする必要があるため、効率的でないという課題がある。同様に、特許文献２に記載された用語辞書生成方法においても、ノード間の関係を変換するために、すべてのノードに当たる単語間の関係で共起統計量や類似度を計算しておく必要があり、効率的でないという課題がある。また、特許文献３に記載された文書整理装置も、記憶された全てのキーワードをもとにディレクトリファイルを生成するため、効率的でないという課題がある。

　また、特許文献４に記載された分類体系生成装置は、サンプル文書との関連度に基づいて分類枠のクラスタリングを繰り返すことで分類枠を階層化する。しかし、関連度は、各クラスタにおける単語の出現頻度に基づいて判断されるため、特許文献４に記載された文書分類装置では、階層の上下関係を考慮した分類や、同じ意味の分類を統合した分類ができないという課題がある。

　そこで、本発明は、既存の分類階層を再構築して新たな分類階層を作成する場合に、分類の上下関係を考慮した分類階層や、同じ意味の分類を統合した分類階層を効率的に作成できる分類階層再作成システム、分類階層再作成方法及び分類階層再作成プログラムを提供することを目的とする

　本発明による分類階層再作成システムは、階層化された分類に対応付けられたデータ群をクラスタ化し、そのクラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成するクラスタリング手段と、分類グループから選択した二つの分類の共起度を計算する共起度計算手段と、分類グループ及び共起度をもとに、分類の階層を再作成する分類階層再作成手段とを備えたことを特徴とする。

　本発明による分類階層再作成方法は、階層化された分類に対応付けられたデータ群をクラスタ化し、クラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成し、分類グループから選択した二つの分類の共起度を計算し、分類グループ及び共起度をもとに、分類の階層を再作成することを特徴とする。

　本発明による分類階層再作成プログラムは、コンピュータに、階層化された分類に対応付けられたデータ群をクラスタ化し、そのクラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成するクラスタリング処理、分類グループから選択した二つの分類の共起度を計算する共起度計算処理、および、分類グループ及び共起度をもとに、分類の階層を再作成する分類階層再作成処理を実行させることを特徴とする。

　本発明によれば、既存の分類階層を再構築して新たな分類階層を作成する場合に、分類の上下関係を考慮した分類階層や、同じ意味の分類を統合した分類階層を効率的に作成できる。

本発明の第１の実施形態における分類階層再作成システムの例を示すブロック図である。入力手段１１に入力されるデータ群とその分類の例を示す説明図である。第１の実施形態におけるデータ処理装置１００の動作の例を示すフローチャートである。分類階層の例を示す説明図である。クロス集計表の例を示す説明図である。分割された結果のクロス集計表の例を示す説明図である。共起度の計算結果の例を示す説明図である。分類階層を更新する途中の例を示す説明図である。分類階層を更新した結果の例を示す説明図である。更新された分類階層の例を示す説明図である。更新された分類階層の例を示す説明図である。本発明の第２の実施形態における分類階層再作成システムの例を示すブロック図である。構造付きデータの例を示す説明図である。本発明の第３の実施形態における分類階層再作成システムの例を示すブロック図である。第３の実施形態におけるデータ処理装置１００の動作の例を示すフローチャートである。入力手段１１が受け取るデータ群の例を示す説明図である。分類階層の例を示す説明図である。クロス集計表の例を示す説明図である。クロス集計表を分割した結果の例を示す説明図である。共起スコアの計算結果例を示す説明図である。分類階層の例を示す説明図である。分類階層の例を示す説明図である。本発明の最小構成を示すブロック図である。

　以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
　図１は、本発明の第１の実施形態における分類階層再作成システムの例を示すブロック図である。本実施形態における分類階層再作成システムは、データ処理装置１００と、データ記憶装置１０１と、入力手段１１と、出力手段１６とを備えている。入力手段１１は、例えば、キーボードなどの入力デバイスであるが、入力手段１１の態様はキーボードに限定されない。例えば、入力手段１１は、別の装置からのデータを受信する入力インタフェースであってもよい。また、出力手段１６は、例えば、ティスプレイ装置などの出力デバイスであるが、出力手段１６の態様はディスプレイ装置に限定されない。例えば、出力手段１６は、別の装置へデータを送信する出力インタフェースであってもよい。

　データ処理装置１００は、クラスタリング手段１３と、共起度計算手段１４と、分類階層更新手段１５とを備えている。

　また、データ記憶装置１０１は、分類の階層的な関係（以下、分類階層と記す）を記憶する分類階層記憶手段１２を備えている。分類階層とは、分類の上下関係を表す階層であり、例えば、分類をノードとする有向グラフ構造で表わされる。以下の説明では、分類をノードとする有効グラフ構造で分類階層を表す場合について説明するが、分類階層は上記構造に限定されない。分類階層は、各分類の階層的な関係を示すことができる他の構造であってもよい。分類階層記憶手段１２は、例えば、データ記憶装置１０１が備える磁気ディスク装置等によって実現される。以上の手段は、それぞれ以下のように動作する。

　入力手段１１は、入力されたデータ群と各データの分類を受信し、クラスタリング手段１３に通知する。図２は、入力されるデータ群とその分類の例を示す説明図である。図２に示す例では、データとそのデータが属する分類（以下、データ分類、もしくは、単に「分類」と記すこともある。）を１レコードで表わしており、そのレコードを含む表全体がデータ群を表す。なお、表中の「・・・」は省略を表す。また、図２に示す例では、「，」（カンマ）で区切られた複数の分類が、各データの属する分類を表す。例えば、１レコード目の「テキストデータ１」は、分類「Ｆ」、「Ｇ」及び「Ｈ」に属していることを示す。

　クラスタリング手段１３は、入力手段１１からデータ群と各データの分類を受け取り、受け取ったデータ群をクラスタリングする。クラスタリング手段１３は、例えば、Ｋ－ＭＥＡＮＳなどのクラスタリング方法を用いてデータ群をクラスタリングしてもよい。なお、クラスタリング手段１３は、クラスタリング方法として、Ｋ－ＭＥＡＮＳ以外の他の方法を用いてもよい。

　次に、クラスタリング手段１３は、各クラスタ内のデータを分類ごとに集計し、データ数の多い分類をクラスタごとにグループ化する。例えば、クラスタリング手段１３は、各クラスタ内の各データに対応する分類を用いてクロス集計表を作成する。具体的には、クラスタリング手段１３は、横にクラスタを示す情報を、縦に分類を示す情報をそれぞれ配置し、各クラスタ及び分類のデータ数を値とするクロス集計表を作成する。そして、クラスタリング手段１３は、集計表を参照してデータ数の多い部分をマークし、クラスタごとにマークした部分をグループ化する。

　次に、クラスタリング手段１３は、分類階層を参照し、クラスタ内のマークした分類群（すなわち、グループ化した分類）が階層的に遠い場合、この分類群を分割する。そして、クラスタリング手段１３は、分割結果をもとに作成した分類のグループ（以下、分類グループと記す。）を共起度計算手段１４に通知する。

　共起度計算手段１４は、分類グループを受け取り、分類グループ内から選択した二つの分類の組合せごとに共起度を計算する。ここで、共起とは、１つのデータに二つの分類がともに出現している（属している）ことである。また、共起度とは、共起を元に算出した統計量であり、共起の度合いを示す値である。共起度計算手段１４は、各分類の共起度を、例えば、二つの分類が共起しているデータ数を分母とし、各分類に属するデータ数を分子として計算する。例えば、分類「Ｆ」と分類「Ｇ」が共起しているデータ数を１０、分類「Ｇ」のデータ数を９とする。このとき、共起度計算手段１４は、Ｐ（分類「Ｆ」，分類「Ｇ」｜分類「Ｇ」）＝９／１０＝０．９のように共起度Ｐを計算する。なお、以下の説明では、二つの分類が共起しているデータ数を共起頻度と記す。上記例では、分類「Ｆ」と分類「Ｇ」の共起頻度は１０になる。

　分類階層更新手段１５は、分類グループと共起度とを用いて、分類の上下関係の作成や、分類の統合を行うことにより分類階層を更新する。まず、分類階層更新手段１５は、１つの分類グループを取り出し、その分類グループ内の中から二つの分類を取り出す。取出した二つの分類が、所定の閾値以上の共起度を有し、さらに、包含関係を満たす場合、分類階層更新手段１５は、その二つの分類に対して親から子への上下関係を作成する。一方、取出した二つの分類が、所定の閾値以上の共起度を有し、さらに、同意関係を満たす場合、分類階層更新手段１５は、その二つの分類を統合する。分類階層更新手段１５は、グループ内の二つの分類の組合せ、及び、すべての分類グループに対して、以上の処理を繰り返すことで、分類階層を更新する。

　ここで、包含関係とは、二つの分類が示す概念において、片方が広くもう一方が狭い場合で、広い概念が狭い概念を包含している関係のことをいう。また、同意関係とは、二つの分類が示す概念において、両方の概念が同じ広い概念に包含されている関係のことをいう。すなわち、分類階層更新手段１５は、共起度を用いて、二つの分類が包含関係か同意関係かを判断し、判断したこれらの関係をもとに分類階層を更新する。

　出力手段１６は、更新された分類階層の内容をティスプレイ装置などに出力する。

　クラスタリング手段１３と、共起度計算手段１４と、分類階層更新手段１５とは、プログラム（分類階層再作成プログラム）に従って動作するコンピュータのＣＰＵによって実現される。例えば、プログラムは、データ処理装置１００の記憶部（図示せず）に記憶され、ＣＰＵは、そのプログラムを読み込み、プログラムに従って、クラスタリング手段１３、共起度計算手段１４及び分類階層更新手段１５として動作してもよい。また、クラスタリング手段１３と、共起度計算手段１４と、分類階層更新手段１５とは、それぞれが専用のハードウェアで実現されていてもよい。

　次に、動作について説明する。図３は、本実施形態におけるデータ処理装置１００の動作の例を示すフローチャートである。

　まず、入力手段１１が、受け取ったデータ群をクラスタリング手段１３に通知すると、クラスタリング手段１３は、そのデータ群をもとにクラスタリングを行う（ステップＳ１）。クラスタリング手段１３は、クラスタリングの手法として、受信したデータに適したクラスタリング手法を用いることができる。例えば、クラスタリング手段１３は、Ｋ－ＭＥＡＮＳなどのよく知られた手法を用いてもよい。なお、本実施形態では、クラスタリング手段１３が、テキストデータをクラスタリングする場合について説明するが、クラスタリングするデータ群はテキストデータに限られない。例えば、クラスタリング手段１３は、データ群として、音声や画像などのバイナリデータをクラスタリングしてもよい。

　次に、クラスタリング手段１３は、分類階層記憶手段１２に記憶された分類階層を参照し、クラスタリングした各クラスタとデータ分類のクロス集計表を作成し、分類グループを作成する（ステップＳ２）。図４は、分類階層の例を示す説明図である。また、図５は、クロス集計表の例を示す説明図である。

　図４に示す例では、分類をノードとする有向グラフ構造で分類階層を表現していることを示す。また、図５に示す例では、クロス集計表が、横にクラスタを示す情報を、縦に分類を示す情報をそれぞれ配置した表で構成されていることを示す。また、図５に例示するクロス集計表の値は、クラスタに存在するデータで分類に属しているデータ数（すなわち、各分類に属するデータ数をクラスタ内のデータを対象に集計した値）を示すが、これは一例である。例えば、データ数をクラスタの合計データ数で割った値を用いてもよいし、データ数を分類の合計データ数で割った値を用いてもよい。

　ここで、クラスタリング手段１３は、ある閾値以上のセルにマークする。図５に示す例では、マークした部分を太線で囲んで表わすものとし、クラスタリング手段１３が閾値１０以上のセルにマークしたことを示す。マークされた部分は、クラスタに含まれるデータが多く属する分類であることを示している。例えば、図５に例示する「クラスタ１」は、分類Ｈ、分類Ｉ、分類Ｊに属するデータを多く含んでいることを示している。ここで、分類に属するデータが多いとは、予め定められた閾値以上であることを意味する。

　クラスタリング手段１３は、クラスタごとにマークされている分類をもとに、分類グループを作成する。例えば、図５に示す例では、クラスタリング手段１３は、「クラスタ２」の中でマークされている分類（分類Ｈ、分類Ｉ及び分類Ｊ）を一つのグループ（分類群）にする。次に、クラスタリング手段１３は、クロス集計表と分類階層を参照し、階層的距離が離れている分類群を分割する（ステップＳ３）。クラスタリング手段１３は、分類群の分類それぞれに対し、階層的距離が閾値以上であるか否かを判定する。そして、階層的距離が閾値以上であれば、クラスタリング手段１３は、分類群を分割する。ここで、階層的距離とは、階層化された分類同士の隔たりの程度を示す指標であり、本実施形態においては、二つの分類の分類階層内での最短ホップ数を意味するものとする。

　以下、クラスタリング手段１３が、閾値が５ホップの場合に分類群を分割する方法について、図４及び図５を用いて説明する。図４及び図５に示す例では、「クラスタ３」の分類群（分類Ｏ、分類Ｐ、分類Ｑ、分類Ｒ）において、分類Ｏと分類Ｑ、分類Ｏと分類Ｒ、分類Ｐと分類Ｑ及び分類Ｐと分類Ｒがそれぞれ６ホップ離れているので分割対象になる。上記の分類ペアは、（分類Ｏ、分類Ｐ）と、（分類Ｑ、分類Ｒ）の別グループにそれぞれ分割される。クロス集計表を分割した結果の例を図６に示す。図６に示す例では、「クラスタ３」の分類群（分類Ｏ、分類Ｐ、分類Ｑ、分類Ｒ）が、「クラスタ３」の分類グループ（分類Ｏ、分類Ｐ）と、「クラスタ３’」の分類グループ（分類Ｑ、分類Ｒ）に分割されたことを示す。なお、以下の説明では、図６に例示するクラスタ番号を、分類グループの番号（以下、グループ番号と記す。）として記載する。

　次に、共起度計算手段１４は、分類グループから選択した二つの分類の共起度を計算する（ステップＳ４）。図７は、共起度の計算結果の例を示す説明図である。図７に例示する表は、グループ番号、共起度を計算する対象の二つの分類である「分類１」と「分類２」、及び、それぞれの分類の共起度を示す「共起スコア１」と「共起スコア２」からなる表である。以下の説明では、共起度を示す「共起スコア１」と「共起スコア２」は、それぞれ、「分類１」と「分類２」の共起する条件付確率とする。すなわち、「共起スコア１」は、「分類１」に対する共起の確率であり、「共起スコア２」は、「分類２」に対する共起の確率である。「共起スコア１」の値は、以下の（式１）で、「共起スコア２」の値は、以下の（式２）でそれぞれ算出できる。

　共起スコア１＝Ｐ（分類１，分類２｜分類１）＝分類１と分類２の共起頻度／分類１の頻度　（式１）

　共起スコア２＝Ｐ（分類１，分類２｜分類２）＝分類１と分類２の共起頻度／分類２の頻度　（式２）

　共起度計算手段１４は、この二つの値（すなわち、共起スコア１及び共起スコア２）をもとに、二つの分類が包含関係か同意関係かを判断する。

　例えば、共起スコア１と共起スコア２のうちの片方のスコアが高い場合、高いスコアに対応する分類と他方の分類との間には包含関係があると言える。また、共起スコア１と共起スコア２のスコアが両方高い場合、両方の分類の間には同意関係があると言える。これは、分子となる共通部分が同じであるが、分母となるそれぞれの分類頻度が異なるためである。

　共起スコア１が高く、共起スコア２が低い場合を例に挙げて具体的に説明する。共起スコア１が高い場合、分類１に属しているデータは、ほぼすべて分類２にも属していることになる。逆にいえば、共起スコア２が小さい場合、分類２に属しているデータは、分類１の他にもさまざまなデータに属していることになる。したがって、分類２は分類１より大きく、分類２は分類１を包含していると言える。逆に、共起スコア２が高く、共起スコア１が低い場合は、分類１が分類２を包含していると言える。

　一方、二つの共起スコア（すなわち、共起スコア１と共起スコア２）が同じく高い場合、それぞれの分類（すなわち、分類１と分類２）の中には同じデータが出現することが多いため、分類１と分類２は同意であるといえる。

　次に、分類階層更新手段１５は、分類グループ及び共起度に基づき、分類階層を更新する（ステップＳ５）。分類階層更新手段１５は、共起度をもとに判断した結果、二つの分類の関係が包含関係を満たす場合、この二つの分類を親子分類として更新する。一方、二つの分類の関係が同意関係を満たす場合、分類階層更新手段１５は、この二つの分類を、一つの分類に統合する。分類階層更新手段１５は、閾値を用いて共起スコアの高低を判断する。以下、この閾値を共起スコア閾値と記す。

　以下、分類階層を更新する処理について、図４及び図７に示す例を用いて説明する。ここでは、共起スコア閾値は予めシステムに設定されているものとする。また、分類階層更新手段１５は、共起スコア閾値が０．７以上の場合に高いと判断し、共起スコア閾値が０．３以下の場合に低いと判断するものとする。

　図７に例示する「グループ１」の分類Ｇと分類Ｈの共起スコアによれば、「共起スコア１」が高く、「共起スコア２」が低いと言える。よって、この二つの分類には包含関係があり、分類Ｈが親、分類Ｇが子の関係にあることが分かる。したがって、分類階層更新手段１５は、図４に例示する分類Ｈが親、分類Ｇが子の関係になるように分類階層を更新する。分類階層を更新する途中の例を図８に示す。図８に示す例では、分類Ｇが分類Ｈの子供として更新されていることが分かる。なお、分類Ｂから分類Ｇに向けて引かれている破線は、更新前の親子関係を示す線である。分類階層更新手段１５は、更新前の親子関係を削除してもよいし、しなくともよい。なお、以下の説明では、更新前の親子関係を後ほど削除することにする。

　また、図７に例示する「グループ２」の分類Ｈと分類Ｉの共起スコアをみると、「共起スコア２」が高く、「共起スコア１」が低いと言える。よって、この二つの分類にも包含関係があり、分類Ｈが親、分類Ｉが子の関係にあることが分かる。同様に、分類Ｈと分類Ｊの共起スコアから、分類Ｈが親、分類Ｊが子の関係にあることがわかる。一方、分類Ｉと分類Ｊは両方の共起スコアが高いため、同意関係にあることがわかる。そのため、分類階層更新手段１５は、この二つの分類を統合する。

　「グループ２」の分類グループをもとに分類階層を更新した結果の例を図９に示す。図９に例示する分類階層は、「グループ１」と「グループ２」によって更新されたものである。なお、同意関係の分類を統合する際、それぞれの分類の親分類が異なる場合がある。この場合、分類階層更新手段１５は、二つの分類のうち含まれるデータ量が多い分類にデータ量が少ない分類を統合して一つの分類を作成する。

　また、図７に例示する「グループ３」の分類Ｏと分類Ｐは、同意関係であることがわかるため、分類階層更新手段１５は、この二つの分類を統合する。一方、図７に例示する「グループ３’」の分類Ｑと分類Ｒは、包含関係でも同意関係でもないため、分類階層更新手段１５は、分類階層を更新しない。

　以上の結果、更新された分類階層の例を図１０に示す。ここで、図１０に例示する太線で囲まれた分類は、属するデータが存在する分類である。分類階層更新手段１５は、更新前の親子関係（図中の破線で結ばれた関係）を削除してもよいし、削除しなくてもよい。削除せずに残す場合、例えば、更新前の分類階層を用いてデータを分類したいといった要求に応える事ができる。

　さらに、分類階層更新手段１５は、属するデータがない分類に対する処理を行ってもよい。例えば、分類階層更新手段１５は、属するデータがない分類が子分類を持たない場合、その分類を削除してもよい。例えば、図１０に示す例では、分類Ｌ、分類Ｍ、分類Ｎには属するデータがないため、分類階層更新手段１５は、これらの分類を削除してもよい。

　また、分類階層更新手段１５は、分類に属するデータがない分類であって、子分類を一つしか持たない分類に対し、その分類を削除し、削除される分類の親分類と子分類との間に階層関係を作成してもよい。すなわち、分類階層更新手段１５は、孫分類を子供分類にした上下関係を作成してもよい。子分類を一つしかもたないこのような分類の階層を保持しておく意味はあまりないからである。例えば、分類Ｅは分類Ｏ＋Ｐしか子供を持たないため、分類階層更新手段１５は、分類Ｅを削除し、分類Ｂと分類Ｏ＋Ｐに対し直接上下関係を作成する。以上の結果、更新された分類階層の例を図１１に示す。

　以上のように、本実施形態によれば、クラスタリング手段１３が、階層化された分類に対応付けられたデータ群をクラスタ化する。そして、クラスタリング手段１３は、クラスタ内の各データに対応する分類のうち、予め定められた条件（例えば、「属するデータ数が多い」という条件）を満たす分類を抽出した分類グループを作成する。そして、共起度計算手段１４が、分類グループから選択した二つの分類の共起度を計算すると、分類階層更新手段１５は、分類グループ及び共起度をもとに分類階層を再作成する。よって、既存の分類階層を再構築して新たな分類階層を作成する場合に、分類の上下関係を考慮した分類階層や、同じ意味の分類を統合した分類階層を効率的に作成できる。

　すなわち、本実施形態によれば、分類階層更新手段１５が分類グループ内の分類の共起度をもとに、分類の上下関係の作成や分類の統合を行うため、データの特性を考慮し分類階層の上下関係の作成や分類の統合を行うことができる。また、本実施形態によれば、クラスタリング手段１３が、似ている分類のグループをあらかじめ作成し、共起度計算手段１４が、そのグループ内の共起度のみを計算するため、データの特性を考慮し効果的に分類階層を更新できる。

実施形態２．
　図１２は、本発明の第２の実施形態における分類階層再作成システムの例を示すブロック図である。第２の実施形態では、第１の実施形態に比べ、入力手段１１が第２入力手段２１に変わり、クラスタリング手段１３が第２クラスタリング手段２３に変わっている点が異なる。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。

　本実施形態における分類階層再作成システムは、データ処理装置１００と、データ記憶装置１０１と、第２入力手段２１と、出力手段１６とを備えている。データ記憶装置１０１については、第１の実施形態と同様であり、第２入力手段２１の態様は、第１の実施形態における入力手段１１と同様である。第２入力手段２１は、入力された構造付きデータ群と、各データの分類とを受信する。なお、以下の説明では、構造付きデータとは、構造化されたデータの各部分を識別する名称（以下、構造部分名称と記す。）が付与されたデータを意味するものとする。

　図１３は構造付きデータの例を示す説明図である。図１３は特許データの例である。特許データはあらかじめ、要約や目的、課題といった構造情報を持っている。第２入力手段２１は、このような構造付きのデータを一つのデータとして受信する。なお、上記説明では、第２入力手段２１が、構造付きデータとしてテキストデータを受信する場合について説明したが、第２入力手段２１は、音声データや画像データなどを受信してもよい。音声データの場合、構造付きデータが、音声の特定話者の発話部であってもよく、画像データの場合、構造付きデータが、画像の特定の人などであってもよい。

　さらに、第２入力手段２１は、後述の第２クラスタリング手段２３が分析対象（クラスタリングの対象）とする構造部分名称も受信する。なお、構造部分名称は、構造情報の名称と言うことができる。図１３に示す例では、構造部分名称は、要約や目的、課題などである。第２入力手段２１は、構造部分名称を複数受信してもよい。例えば、第２入力手段２１は、「課題」と「発明の目的」の二つの構造部分名称を受信してもよい。

　データ処理装置１００は、第２クラスタリング手段２３と、共起度計算手段１４と、分類階層更新手段１５とを備えている。共起度計算手段１４及び分類階層更新手段１５については、第１の実施形態と同様であるため、説明を省略する。

　第２クラスタリング手段２３は、第２入力手段２１から、構造付きデータ群と、各データの分類と、構造部分名称を受け取り、構造付きデータ群のクラスタリングを行う。具体的には、第２クラスタリング手段２３は、構造付きデータ全体をもとにクラスタリングを行うのではなく、受信した構造部分名称に該当する部分のみを各データから抽出し、抽出した部分の情報をもとにクラスタリングを行う。例えば、第２クラスタリング手段２３は、図１３に例示する構造を備えた構造付きデータから、「課題」と「発明の目的」に該当する部分のテキストを抽出し、この部分のテキストのみを使って類似度などを判断し、クラスタリングを行う。第２クラスタリング手段２３は、例えば、Ｋ－ＭＥＡＮＳなどのクラスタリング方法を用いてデータ群をクラスタリングしてもよい。なお、第２クラスタリング手段２３は、クラスタリング方法として、Ｋ－ＭＥＡＮＳ以外の他の方法を用いてもよい。

　なお、構造付きデータが音声データの場合であり、構造部分名称として特定の発話者名を受信した場合、第２クラスタリング手段２３は、例えば、この発話者名に該当する部分の波形を抽出し、類似度を計算してクラスタリングを行ってもよい。また、構造付きデータが画像データの場合であり、構造部分名称として特定の人物名を受信した場合、第２クラスタリング手段２３は、この人物が映っている画像の領域のみを抽出し、類似度を計算してクラスタリングを行ってもよい。

　第２クラスタリング手段２３と、共起度計算手段１４と、分類階層更新手段１５とは、プログラム（分類階層再作成プログラム）に従って動作するコンピュータのＣＰＵによって実現される。また、第２クラスタリング手段２３と、共起度計算手段１４と、分類階層更新手段１５とは、それぞれが専用のハードウェアで実現されていてもよい。

　次に、動作について説明する。本実施形態におけるデータ処理装置１００の動作は、図３に例示するフローチャートと同様である。第２の実施形態では、第２クラスタリング手段２３が、第２入力手段２１から、構造付きデータ群と、各データの分類と、構造部分名称を受け取り、構造付きデータ群のクラスタリングを行う点で第１の実施形態と同様である。具体的には、第１の実施形態では、クラスタリング手段１３が、データ全体をもとにクラスタリングする。一方、第２の実施形態では、第２クラスタリング手段２３が、受信した構造部分名称に該当する部分のみを各データから抽出し、抽出した部分の情報をもとにクラスタリングを行う。それ以外の動作については、第１の実施形態と同様である。

　以上のように、本実施形態によれば、第２クラスタリング手段２３が、構造付きデータと構造部分名称とに基づき、構造部分名称に該当する部分を構造付きデータから抽出したデータを用いて構造付きデータ群をクラスタ化する。よって、第１の実施形態の効果に加え、ユーザが分析したい観点で分類階層を再作成できる。

　すなわち、本実施形態によれば、第２クラスタリング手段２３が、分析対象となる部分のみを抽出してクラスタリングする。具体的には、構造付きデータと分析対象になる構造部分名称とを用いてクラスタリングする。そのため、ユーザが分析したい観点で分類階層を更新できる。このように、分析対象を変更することで分類グループを変化させることができるため、分析対象の部分が示す特徴を分類階層に反映できる。例えば、対象のデータが特許データであれば、目的別に分けたい、課題別に分けたいなどの観点で分類階層を更新できる。

実施形態３．
　図１４は、本発明の第３の実施形態における分類階層再作成システムの例を示すブロック図である。第３の実施形態では、第１の実施形態に比べ、データ処理装置１００が再更新手段３１を含んでいる点が異なる。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。すなわち、第３の実施形態におけるデータ処理装置１００は、クラスタリング手段１３と、共起度計算手段１４と、分類階層更新手段１５と、再更新手段３１とを備えている。クラスタリング手段１３、共起度計算手段１４及び分類階層更新手段１５については、第１の実施形態と同様であるため、説明を省略する。

　再更新手段３１は、分類階層更新手段１５から更新結果の分類階層を受け取り、受け取った分類階層が所定の条件を満たさない場合、分類階層の再更新を行うよう指示する。ここで、所定の条件とは、分類階層の分類数や深さ、再更新回数、ユーザからの停止指示の有無の少なくとも１つ、又は、その組み合わせであるが、所定の条件はこれらの内容に限定されない。

　具体的には、再更新手段３１は、更新した分類階層でデータ群の分類や分類階層を書き直す。また、再更新手段３１は、クラスタリングを行う場合の閾値や、分類階層更新手段１５が包含関係と同意関係を決める閾値（すなわち、共起スコア閾値）を緩和した値に変更する。そして、再更新手段３１は、分類階層の再作成を行うようクラスタリング手段１３に指示する。

　クラスタリング手段１３と、共起度計算手段１４と、分類階層更新手段１５と、再更新手段３１とは、プログラム（分類階層再作成プログラム）に従って動作するコンピュータのＣＰＵによって実現される。また、クラスタリング手段１３と、共起度計算手段１４と、分類階層更新手段１５と、再更新手段３１とは、それぞれが専用のハードウェアで実現されていてもよい。

　次に、動作について説明する。図１５は、本実施形態におけるデータ処理装置１００の動作の例を示すフローチャートである。入力手段１１がデータを受信し、分類階層更新手段が分類階層を更新するまでの処理は、図３におけるステップＳ１～Ｓ５の処理と同様であるため、説明を省略する。再更新手段３１は、分類階層更新手段１５から更新結果の分類階層を受け取り、受け取った分類階層が所定の条件を満たすか否かを判断する（ステップＳ６）。所定の条件を満たさない場合（ステップＳ６におけるＮＯ）、再更新手段３１は、クラスタリングを行う場合の閾値や、共起スコア閾値を緩和した値に変更し（ステップＳ７）、分類階層の再作成を行うようクラスタリング手段１３に指示する。以降、ステップＳ１～Ｓ６の処理を繰り返す。一方、所定の条件を満たす場合（ステップＳ６におけるＹＥＳ）、再更新手段３１は、更新処理を終了する。

　以上のように、本実施形態によれば、再更新手段３１が、分類階層更新手段１５が再作成した分類階層を再度更新する指示を行う。具体的には、再更新手段３１は、再作成された分類階層が、予め定められた要件を満たさない場合、分類グループを作成するための条件や分類の階層を再作成するための共起度の条件を変更する。そして、クラスタリング手段１３が、変更された条件を満たす分類を抽出した分類グループを作成し、分類階層再作成手段１５は、変更された条件をもとに分類の階層を再作成する。よって、第１の実施形態の効果に加え、より条件に近い分類階層を得ることができる。すなわち、条件に合わない場合であっても、再更新手段３１が再度更新を行うことで、より条件に近い分類階層を得ることができる。

　以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。本実施例では、図１に例示するブロック図及び図３に例示するフローチャートをもとに、具体例を挙げて説明する。

　まず、入力手段１１が、受け取ったデータ群をクラスタリング手段１３に通知すると、クラスタリング手段１３は、そのデータ群をもとにクラスタリングを行う（図３におけるステップＳ１）。入力手段１１が受け取るデータ群の例を図１６に示す。図１６に例示するデータ群は、１レコードに「データ」と「分類」を含む。本実施例では、データとしてテキストデータを例に挙げて説明するが、データは音声や画像などでもよい。また、図１６に例示する分類は、カンマで区切られ、複数指定されていることを示す。

　以下、クラスタリング手段１３が、このデータをクラスタリングする場合について説明する。クラスタリング手段１３は、データに適したクラスタリング手法を用いてクラスタリングする。本実施例の場合、受信するデータがテキストデータであるので、クラスタリング手段１３は、各データのテキストをベクトルデータとして類似度を計算するＫ－ＭＥＡＮＳ手法を用いる。具体的には、クラスタリング手段１３は、まず、各データのテキストを形態素解析し単語に分割する。次に、クラスタリング手段１３は、次元を単語、値を単語数とするベクトルデータに変換する。次に、クラスタリング手段１３は、ベクトルデータ間のコサイン類似度からＫ個のクラスタを作成する。本実施例ではＫ＝４とし、クラスタリング手段１３が、４つのクラスタを作成するものとする。

　なお、受信するデータがテキストデータではなく、音声や画像などのバイナリデータの場合、クラスタリング手段１３は、それぞれのデータに適した方法を用いればよい。例えば、音声データの場合、クラスタリング手段１３は、音声波形データを読み取り、その類似度を元に計算してクラスタリングしてもよい。また、画像の場合、画像から色ヒストグラムを生成し、その類似度を元に計算してクラスタリングしてもよい。

　次に、クラスタリング手段１３は、分類階層記憶手段１２に記憶された分類階層を参照し、クラスタリング結果のクラスタと分類のクロス集計表を作成し、分類グループを作成する（図３におけるステップＳ２）。分類階層の例を図１７に、クロス集計表の例を図１８に示す。

　図１７に例示する分類階層は分類をノードとする有向グラフ構造である。図１７に示す例では、「主要カテゴリ」をルート分類に、その分類の下位階層に分類「社会」及び「自然」が存在し、さらに分類「社会」の下位階層にも様々な幅広い分類が存在していることを示す。

　また、図１８に例示するクロス集計表は、横にクラスタを示す情報を、縦に分類を示す情報をそれぞれ配置した表である。図１８に例示するクロス集計表の値は、クラスタに存在するデータで、各分類に属しているデータ数を示す。ただし、図１８に例示する値は一例であり、値として、データ数をクラスタの合計データ数で割った値でもよいし、データ数を分類の合計データ数で割った値でもよい。なお、本実施例では、分類「社会」以下の分類に属するデータのみ入力されているとする。

　ここで、クラスタリング手段１３は、ある閾値以上のセルにマークする。図１８に示す例では、マークした部分を太線で囲んで表わすものとし、クラスタリング手段１３が閾値１０以上のセルにマークしたことを示す。マークされた部分は、クラスタに含まれるデータが多く属する分類であることを示している。例えば、図１８に例示する「クラスタ１」は、分類「移植」と、分類「親族」に属するデータを多く含んでいることを示している。ここで、分類に属するデータが多いとは、予め定められた閾値以上であることを意味する。

　クラスタリング手段１３は、クラスタごとにマークされている分類をもとに、分類グループを作成する。例えば、図１８に示す例では、クラスタリング手段１３は、「クラスタ１」の中でマークされている分類（「移植」、「親族」）を一つのグループ（分類群）にする。他にも、クラスタリング手段１３は、「クラスタ２」の中から、（「健康」、「医学」、「移植」）のグループを、「クラスタ３」の中から（「行政」、「外交官」）のグループを、「クラスタ４」の中から、（「家庭」、「育児」）のグループをそれぞれ作成する。

　次に、クラスタリング手段１３は、クロス集計表と分類階層を参照し、階層的距離が離れている分類群を分割する（図３におけるステップＳ３）。クラスタリング手段１３は、分類群の分類それぞれに対し、階層的距離が閾値以上であるか否かを判定する。そして、階層的距離が閾値以上であれば、クラスタリング手段１３は、分類群を分割する。本実施例において、階層的距離とは、二つの分類の分類階層内での最短ホップ数を意味するものとする。

　以下、閾値が５ホップの場合について、図１７を用いて説明する。図１７に示す例では、（「移植」、「親族」）のグループでは、「移植」と「分類」が５ホップ離れているので分割対象となる。よって、このグループは、（「移植」）、（「親族」）に分割される。クロス集計表を分割した結果の例を、図１９に示す。図１９に示す例では、「クラスタ１」の分類「移植」と「親族」が、「クラスタ１」と「クラスタ１’」それぞれに分割されたことがわかる。なお、以下の説明では、図１９に例示するクラスタ番号、をグループ番号として記載する。

　次に、共起度計算手段１４は、分類グループから選択した二つの分類の共起度を計算する（図３におけるステップＳ４）。ここで、共起度は、二つの分類の共起頻度を元にした統計量である。図２０に共起スコアの計算結果例を示す。図２０に例示する表は、分類グループ番号、共起度を計算する対象の二つの分類である「分類１」と「分類２」、及び、それぞれの分類の共起度を示す「共起スコア１」と「共起スコア２」からなる表である。本実施例では、共起度を示す「共起スコア１」と「共起スコア２」は、それぞれ、「分類１」と「分類２」の共起する条件付確率とする。すなわち、「共起スコア１」は、「分類１」に対する共起の確率であり、「共起スコア２」は、「分類２」に対する共起の確率である。「共起スコア１」の値、及び、「共起スコア２」の値は、上述の（式１）及び（式２）でそれぞれ算出できる。

　共起スコアの値は、具体的には以下のように計算される。「分類グループ１」及び「分類グループ１’」には、マークがついた分類（すなわち、ある閾値以上のデータが属する分類）が一つしか存在しない。よって、共起度計算手段１４は、共起スコアを計算しない。一方、「分類グループ１」及び「分類グループ１’」には、マークがついた分類が二つ（すなわち、分類「健康」、「医学」）存在する。よって、共起度計算手段１４は、「分類グループ２」の、二つの分類「健康」、「医学」について、共起スコアを以下のように計算する。

　ここで、「健康」と「医学」が同じデータに割振られている数（すなわち、「健康」と「医学」の共起頻度）を１６とし、「健康」の出現頻度を２１、「医学」の出現頻度を２０とする。このとき、それぞれの共起スコアは、以下のように計算される。

　共起スコア１＝Ｐ（健康，医学｜健康）＝「健康」と「医学」の共起頻度／「健康」の頻度＝１６／２１＝０．７７

　共起スコア２＝Ｐ（健康，医学｜医学）＝「健康」と「医学」の共起頻度／「医学」の頻度＝１６／２０＝０．８

　なお、その他の共起スコアについても同様に算出されるため、説明を省略する。

　次に、分類階層更新手段１５は、分類グループと共起度に基づき、分類階層を更新する（図３におけるステップＳ５）。分類階層更新手段１５は、共起スコア閾値を用いて共起度（すなわち、共起スコア）の高低を判断する。本実施例では、分類階層更新手段１５は、共起スコア閾値０．７以上の場合に共起スコアが高いと判断し、共起スコア閾値０．２以下の場合に共起スコアが低いと判断するものとする。

　図２０に例示する「グループ２」の「健康」と「医学」の共起度（共起スコア）によれば、「共起スコア１」が高く、「共起スコア２」も高いと判断される。よって、この二つの分類には同意関係があると言える。また、上述の通り、「健康」の出現頻度が２１、「医学」の出現頻度が２０であるので、「健康」のほうが大きな分類と言える。したがって、分類階層更新手段１５は、「医学」を「健康」に統合することにより分類階層を更新する。

　一方、図２０に例示する「グループ２」の「健康」と「移植」の共起度、及び、「グループ２」の「医学」と「移植」の共起度は、いずれも高いと言えず、また低いとも言えない。そのため、分類階層更新手段１５は、分類階層を更新しない。

　また、図２０に例示する「グループ３」の「行政」と「外交官」の共起度によれば、「共起スコア１」は低く、「共起スコア２」は高いと判断される。よって、この二つの分類には包含関係があると言える。したがって、分類階層更新手段１５は、「行政」を親、「外交官」を子として分類階層を更新する。

　同様に、図２０に例示する「グループ４」の「家庭」と「育児」の共起度は、「共起スコア１」が高く、「共起スコア２」も高いと判断される。よって、この二つの分類には同意関係があると言える。ここで、「家庭」の方が大きな分類である場合、分類階層更新手段１５は、「育児」を「家庭」に統合することにより分類階層を更新する。

　以上の結果得られる分類階層の例を図２１に示す。図２１に示す破線は、分類階層を更新する前の親子関係を示す線である。また、図２１に例示する分類の中で、その分類に属するデータが存在する分類を太線で囲んで表わすものとし、その分類にデータが存在しない分類は太線で囲まずに表現するものとする。なお、更新前の親子関係は削除してもよいし、しなくともよい。本実施例では、分類階層更新手段１５が、後ほど削除することにする。

　さらに、分類階層更新手段１５は、属するデータがない分類に対する処理を行ってもよい。本実施例では、属するデータがない分類であって、子供分類がない分類を削除する。例えば、図２１に例示する分類のうち、「家族法」「外交史」「官公庁」は、分類に属すデータがない分類であって、子供分類がない分類である。よって、分類階層更新手段１５は、これらの分類を削除することにより分類階層を更新する。また、分類階層更新手段１５は、分類に属すデータがない分類であって、子供分類が一つしかない分類に対し、その分類を削除し、子供分類を繰り上げて直接上下関係を作成してもよい。ただし、本実施例では、そのようは分類がないため、分類階層の更新は行わない。以上の結果得られる分類階層の例を図２２に示す。

　他にも、情報検索結果を表示する際、検索結果を分類して表示するといった用途に本発明を適用できる。また、更新された分類階層とその分類内の単語との関係をもとに定められる関連語を表示する場合にも本発明を適用できる。

　次に、本発明の最小構成を説明する。図２３は、本発明の最小構成を示すブロック図である。本発明による分類階層再作成システムは、階層化された分類に対応付けられたデータ群をクラスタ化し、そのクラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類（例えば、属するデータ数の多い分類）を抽出したグループである分類グループ（例えば、分類群、分類グループ）を作成するクラスタリング手段８１（例えば、クラスタリング手段１３）と、分類グループから選択した二つの分類の共起度を計算する（例えば、（式１）、（式２）によって計算する）共起度計算手段８２（例えば、共起度計算手段１４）と、分類グループ及び共起度をもとに、分類の階層（例えば、分類階層）を再作成する分類階層再作成手段８３（分類階層更新手段１５）とを備えている。

　そのような構成により、既存の分類階層を再構築して新たな分類階層を作成する場合に、分類の上下関係を考慮した分類階層や、同じ意味の分類を統合した分類階層を効率的に作成できる。

　また、少なくとも以下に示すような分類階層再作成システムも、上記に示すいずれかの実施形態に記載されていると言える。

（１）階層化された分類に対応付けられたデータ群をクラスタ化し、そのクラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類（例えば、属するデータ数の多い分類）を抽出したグループである分類グループ（例えば、分類群、分類グループ）を作成するクラスタリング手段（例えば、クラスタリング手段１３）と、分類グループから選択した二つの分類の共起度を計算する（例えば、（式１）、（式２）によって計算する）共起度計算手段（例えば、共起度計算手段１４）と、分類グループ及び共起度をもとに、分類の階層（例えば、分類階層）を再作成する分類階層再作成手段（分類階層更新手段１５）とを備える分類階層再作成システム。

（２）クラスタリング手段が、作成した分類グループ内の分類が、予め定められた距離以上離れている場合に、その分類グループ（例えば、分類群）を分割した分類グループを作成する分類階層再作成システム。

（３）共起度計算手段が、二つの分類が共起しているデータ数である共起頻度と各分類に属するデータ数とをもとに共起度を計算し、分類階層再作成手段が、二つの分類が包含関係か同意関係かを共起度をもとに判断し、二つの分類が包含関係か同意関係かを示す判断結果に基づいて分類の階層を再作成する分類階層再作成システム。

（４）分類階層再作成手段が、二つの分類の関係が包含関係の場合に、包含する側の分類を親分類に、包含される側の分類を子分類にした階層を追加することにより分類の階層を再作成し、二つの分類の関係が同意関係の場合に、その二つの分類のうち、含まれるデータ数が多い分類に対して少ない分類を統合した分類を作成することにより分類の階層を再作成する分類階層再作成システム。

（５）分類階層再作成手段が、包含される側の分類を子分類にした階層を追加した場合に、分類階層を再作成する前のその子分類の親子関係を削除することにより分類の階層を再作成する分類階層再作成システム。

（６）分類階層再作成手段が、属するデータがない分類が子分類を持たない分類の場合にその分類を削除することにより分類の階層を再作成し、属するデータがない分類であって、子分類を１つしか持たない分類の場合、その分類を削除して、その削除される分類の親分類と、子分類との間に階層関係を作成することにより分類の階層を再作成する分類階層再作成システム。

（７）クラスタリング手段（例えば、第２クラスタリング手段２３）が、構造化されたデータである構造付きデータと、その構造付きデータの各部分を識別する名称である構造部分名称とに基づき、構造部分名称に該当する部分を構造付きデータから抽出したデータを用いて構造付きデータ群をクラスタ化する分類階層再作成システム。

（８）分類階層再作成手段が再作成した分類階層を再度更新する指示を行う再更新手段（例えば、再更新手段３１）を備え、再更新手段が、再作成された分類階層が予め定められた要件を満たさない場合、分類グループを作成するための条件、分類の階層を再作成するための共起度の条件のうちの少なくとも１つの条件を変更し、クラスタリング手段が、変更された条件を満たす分類を抽出した分類グループを作成し、分類階層再作成手段が、変更された条件をもとに分類の階層を再作成する分類階層再作成システム。

（９）再更新手段が、分類階層の分類数、分類階層の深さ、分類階層の再更新回数、停止指示の有無のうちの少なくとも１つの要件が予め定められた要件を満たさない場合に、条件を変更する分類階層再作成システム。

（１０）クラスタリング手段が、クラスタ内の各データに対応する分類のうち、その分類に属するデータ数が予め定められた数よりも多い分類を抽出して分類グループを作成する分類階層再作成システム。

　以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２００９年７月６日に出願された日本特許出願２００９－１６００７１を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明は、階層化された分類を再構築して新たな分類階層を作成する分類階層再作成システムに好適に適用される。

　１１　入力手段
　１２　分類階層記憶手段
　１３　クラスタリング手段
　１４　共起度計算手段
　１５　分類階層更新手段
　２１　第２入力手段
　２３　第２クラスタリング手段
　３１　再更新手段
　１００　データ処理装置
　１０１　データ記憶装置

Claims

　階層化された分類に対応付けられたデータ群をクラスタ化し、当該クラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成するクラスタリング手段と、
　前記分類グループから選択した二つの分類の共起度を計算する共起度計算手段と、
　前記分類グループ及び共起度をもとに、前記分類の階層を再作成する分類階層再作成手段とを備えた
　ことを特徴とする分類階層再作成システム。
　クラスタリング手段は、作成した分類グループ内の分類が、予め定められた距離以上離れている場合に、当該分類グループを分割した分類グループを作成する
　請求項１記載の分類階層再作成システム。
　共起度計算手段は、二つの分類が共起しているデータ数である共起頻度と各分類に属するデータ数とをもとに共起度を計算し、
　分類階層再作成手段は、前記二つの分類が包含関係か同意関係かを前記共起度をもとに判断し、前記二つの分類が包含関係か同意関係かを示す判断結果に基づいて分類の階層を再作成する
　請求項１または請求項２記載の分類階層再作成システム。
　分類階層再作成手段は、二つの分類の関係が包含関係の場合に、包含する側の分類を親分類に、包含される側の分類を子分類にした階層を追加することにより分類の階層を再作成し、二つの分類の関係が同意関係の場合に、当該二つの分類のうち、含まれるデータ数が多い分類に対して少ない分類を統合した分類を作成することにより分類の階層を再作成する
　請求項３記載の分類階層再作成システム。
　分類階層再作成手段は、包含される側の分類を子分類にした階層を追加した場合に、分類階層を再作成する前の当該子分類の親子関係を削除することにより分類の階層を再作成する
　請求項４記載の分類階層再作成システム。
　分類階層再作成手段は、属するデータがない分類が子分類を持たない分類の場合に当該分類を削除することにより分類の階層を再作成し、属するデータがない分類であって、子分類を１つしか持たない分類の場合、当該分類を削除して、当該削除される分類の親分類と、前記子分類との間に階層関係を作成することにより分類の階層を再作成する
　請求項１から請求項５のうちのいずれか１項に記載の分類階層再作成システム。
　クラスタリング手段は、構造化されたデータである構造付きデータと、当該構造付きデータの各部分を識別する名称である構造部分名称とに基づき、前記構造部分名称に該当する部分を前記構造付きデータから抽出したデータを用いて前記構造付きデータ群をクラスタ化する
　請求項１から請求項６記載の分類階層再作成システム。
　分類階層再作成手段が再作成した分類階層を再度更新する指示を行う再更新手段を備え、
　前記再更新手段は、再作成された分類階層が予め定められた要件を満たさない場合、分類グループを作成するための条件、分類の階層を再作成するための共起度の条件のうちの少なくとも１つの条件を変更し、
　クラスタリング手段は、変更された条件を満たす分類を抽出した分類グループを作成し、
　分類階層再作成手段は、変更された条件をもとに分類の階層を再作成する
　請求項１から請求項７のうちのいずれか１項に記載の分類階層再作成システム。
　再更新手段は、分類階層の分類数、分類階層の深さ、分類階層の再更新回数、停止指示の有無のうちの少なくとも１つの要件が予め定められた要件を満たさない場合に、条件を変更する
　請求項８記載の分類階層再作成システム。
　クラスタリング手段は、クラスタ内の各データに対応する分類のうち、当該分類に属するデータ数が予め定められた数よりも多い分類を抽出して分類グループを作成する
　請求項１から請求項９のうちのいずれか１項に記載の分類階層再作成システム。
　階層化された分類に対応付けられたデータ群をクラスタ化し、
　前記クラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成し、
　前記分類グループから選択した二つの分類の共起度を計算し、
　前記分類グループ及び共起度をもとに、前記分類の階層を再作成する
　ことを特徴とする分類階層再作成方法。
　作成した分類グループ内の分類が、予め定められた距離以上離れている場合に、当該分類グループを分割した分類グループを作成する
　請求項１１記載の分類階層再作成方法。
　二つの分類が共起しているデータ数である共起頻度と各分類に属するデータ数とをもとに共起度を計算し、
　前記二つの分類が包含関係か同意関係かを前記共起度をもとに判断し、
　二つの分類が包含関係か同意関係かを示す判断結果に基づいて分類の階層を再作成する
　請求項１１または請求項１２記載の分類階層再作成方法。
　二つの分類の関係が包含関係の場合に、包含する側の分類を親分類に、包含される側の分類を子分類にした階層を追加することにより分類の階層を再作成し、二つの分類の関係が同意関係の場合に、当該二つの分類のうち、含まれるデータ数が多い分類に、少ない分類を統合した一つの分類を作成することにより分類の階層を再作成する
　請求項１３記載の分類階層再作成方法。
　包含される側の分類を子分類にした階層を追加した場合に、分類階層を再作成する前の当該子分類の親子関係を削除することにより分類の階層を再作成する
　請求項１４記載の分類階層再作成方法。
　属するデータがない分類が子分類を持たない分類の場合に当該分類を削除することにより分類の階層を再作成し、属するデータがない分類であって、子分類を１つしか持たない分類の場合、当該分類を削除して、当該削除される分類の親分類と、前記子分類との間に階層関係を作成することにより分類の階層を再作成する
　請求項１１から請求項１５のうちのいずれか１項に記載の分類階層再作成方法。
　構造化されたデータである構造付きデータと、当該構造付きデータの各部分を識別する名称である構造部分名称とに基づき、前記構造部分名称に該当する部分を前記構造付きデータから抽出したデータを用いて前記構造付きデータ群をクラスタ化する
　請求項１１から請求項１６記載の分類階層再作成方法。
　再作成された分類階層が予め定められた要件を満たさない場合、分類グループを作成するための条件、分類の階層を再作成するための共起度の条件のうちの少なくとも１つの条件を変更して、前記再作成した分類階層を再度更新する指示を行い、
　変更された条件を満たす分類を抽出した分類グループを作成し、
　変更された条件をもとに分類の階層を再作成する
　請求項１１から請求項１７のうちのいずれか１項に記載の分類階層再作成方法。
　分類階層の分類数、分類階層の深さ、分類階層の再更新回数、停止指示の有無のうちの少なくとも１つの要件が予め定められた要件を満たさない場合に、条件を変更する
　請求項１８記載の分類階層再作成方法。
　クラスタ内の各データに対応する分類のうち、当該分類に属するデータ数が予め定められた数よりも多い分類を抽出して分類グループを作成する
　請求項１１から請求項１９のうちのいずれか１項に記載の分類階層再作成方法。
　コンピュータに、
　階層化された分類に対応付けられたデータ群をクラスタ化し、当該クラスタ内の各データに対応する分類のうち、予め定められた条件を満たす分類を抽出したグループである分類グループを作成するクラスタリング処理、
　前記分類グループから選択した二つの分類の共起度を計算する共起度計算処理、および、
　前記分類グループ及び共起度をもとに、前記分類の階層を再作成する分類階層再作成処理
　を実行させるための分類階層再作成プログラム。
　コンピュータに、
　クラスタリング処理で、作成した分類グループ内の分類が、予め定められた距離以上離れている場合に、当該分類グループを分割した分類グループを作成させる
　請求項２１記載の分類階層再作成プログラム。