JPWO2004084096A1

JPWO2004084096A1 - 事例分類装置および方法

Info

Publication number: JPWO2004084096A1
Application number: JP2004569581A
Authority: JP
Inventors: 塚本　浩司; 浩司塚本
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-03-19
Filing date: 2003-03-19
Publication date: 2006-06-22
Anticipated expiration: 2023-03-19
Also published as: US20050246300A1; WO2004084096A1; US7370024B2; JP4170296B2

Abstract

事例をあるカテゴリ体系のカテゴリに分類する際に、別のカテゴリ体系の各カテゴリに分類された事例集合から得られた情報を利用して分類ルールを生成し、その分類ルールにより事例を分類する。

Description

本発明は、与えられた事例をカテゴリに分類する装置および方法に関する。本発明は、特に、文書の自動分類や画像認識等の分野において、事例をカテゴリに分類するために利用される。

文書を分類する際、人手で事例（文書）を分類した正解事例（正解文書群）をあらかじめ準備しておき、それを用いて未知の事例（未知文書）を分類する多くの方法がこれまで提案されてきた。これらの方法では、特徴抽出部、分類ルール生成器、および分野判定器がしばしば利用される。
図１は、特徴抽出部を示している。図１の特徴抽出部１０１は、事例（文書１１１）を入力として、特徴ベクトル１１２（文書の特徴を表すベクトル）を出力する。文書分類においては、文書中に現れる各単語（特徴語）を特徴ベクトル空間の各次元ｗｉ（ｉ＝１，２，３，．．．）とし、各単語の出現数等を特徴ベクトルの各要素ｆｉとすることが多い。例えば、図２のような文書が入力された場合、図３のような特徴ベクトルが出力される。
図４は、分類ルール生成器を示している。図４の分類ルール生成器１２１は、正解事例（特徴ベクトルとカテゴリのペア）の集合１３１を入力として、分類ルール１３２を出力する。
分類ルール１３２は、特徴ベクトルで表現された事例をカテゴリに分類するためのルールであり、分類ルール生成器１２１の種類によって形式が異なる。この分類ルール１３２としては、ベクトルモデル、ナイーブベイズ（ｎａｉｖｅＢａｙｅｓ）、決定木、決定リスト、サポートベクトルマシン（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ，ＳＶＭ）、およびブースティング（ｂｏｏｓｔｉｎｇ）のように、様々なものがこれまでに提案されている。
また、入力される特徴ベクトルとカテゴリのペアとしては、例えば、図５のようなものが用いられる。図５においては、特徴ベクトルがカテゴリ“ソフトウェア”に対応付けられている。
図６は、分野判定器を示している。図６の分野判定器１４１は、特徴ベクトル１５１で表現された事例を入力として、分類ルール１３２を用いることで、その事例がそれぞれのカテゴリｃｉに属する確信度ｐｉのリスト１５２を求める。例えば、図７のような特徴ベクトルが入力された場合、図８のような確信度のリストが出力される。
図９は、このような特徴抽出部、分類ルール生成器、および分野判定器を利用した、未知の事例（文書）の分類方法を示している。図９の分類ルール生成部１６１は、特徴抽出部１０１および分類ルール生成器１２１を備え、分野判定部１６２は、特徴抽出部１０１および分野判定器１４１を備える。
まず、カテゴリ体系Ｓのカテゴリ（α，β，γ）に分類された正解事例（正解文書）の集合１７１が分類ルール生成部１６１に入力され、特徴抽出部１０１により特徴ベクトルの集合が生成される。そして、その特徴ベクトルの集合が分類ルール生成器１２１に入力され、分類ルール１３２が生成される。
次に、未知の事例（未知文書１７２）が分野判定部１６２に入力され、特徴抽出部１０１により特徴ベクトルに変換される。そして、その特徴ベクトルが分野判定器１４１に入力され、未知文書１７２がα、β、およびγのそれぞれのカテゴリに属する確信度１７３が求められる。
このような分類方法の応用分野は多数あり、文書分類に関して言えば、文書の特徴として単語を用いる方法として、以下のような例が挙げられる。
（１）文書を特徴ベクトルで表現し、ＳＶＭという学習方式で分類する（例えば、非特許文献１参照）。
（２）上記のような方式に加えて、適合フィードバックを用いて精度を向上させる（例えば、特許文献１参照）。
（３）未知文書に対して、特定のカテゴリの文書から抽出した単語に基づいた関連度と、一般の文書から抽出した単語に基づいた関連度とを比較して、未知文書が特定のカテゴリに属するかどうかを決める（例えば、特許文献２参照）。
また、文書分類に関して、単語の特徴以外を用いた方法としては、以下のような例が挙げられる。
（１）連言を用いることによって、精度向上を図る（例えば、特許文献３参照）。
（２）ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋ−ｕｐＬａｎｇｕａｇｅ）文書からタグで囲まれた部分を抽出し、それを特徴として用いて分類を行う（例えば、特許文献４参照）。
（３）リンク情報を特徴に加えることによって、精度向上を図る（例えば、特許文献５、６、および７参照）。
（４）シソーラス辞書を利用して、文書中に出現した単語の意味カテゴリを特徴として学習を行うことによって、精度向上を図る（例えば、特許文献８参照）。
しかしながら、上述した従来の文書分類方法には、次のような問題がある。
文書を必要となるカテゴリ体系に分類するためには、あらかじめ十分な量の正解文書を人手で作成しておく必要がある。正解文書が少量の場合に分類精度が低い原因としては、分類対象の未知文書に出現する特徴（単語等）が正解文書に現れないことや、現れたとしてもその出現数が少なく統計的な意味を持たないため、有効であるはずの未知文書に現れる特徴を分野判定の特徴として使用できないことが考えられる。
例えば、“ＮＡＴＯ首脳会議、イラク攻撃に対する各国間の．．．”のような未知文書を分類することを考える。単語を特徴とした場合、単語“ＮＡＴＯ”は、一般的に“国際”や“軍事”等に関するものである。しかしながら、従来の分類方法を用いた場合は、正解文書中に単語“ＮＡＴＯ”が出現していなければ、単語“ＮＡＴＯ”はこの文書を分類する特徴としてまったく寄与しなくなる。正解文書が少ない場合には、このように、未知文書に出現する特徴が正解文書に出現しないという場合が多くなる。
また、上述した従来の方法のうち、連言やリンク情報等を特徴として加えて分類を行う方法を採用したとしても、正解文書が少ない場合には未知文書に出現する特徴が正解文書に出現しないので、問題の解決にはならない。
さらに、上述した従来の方法のうち、シソーラス辞書を用いた方法は、未知文書の特徴のうち正解文書に出現しない単語を特徴として分野判定に寄与させることができるという点で優れているが、シソーラス辞書に登録されていない単語が分類対象の未知文書に出現した場合には無力である。この場合に対処するためには大規模なシソーラス辞書を準備する必要があるが、そのコストは非常に高くつく。
このように、従来の文書分類方法では、正解文書が少量しかない場合には未知文書に出現する特徴が正解文書に出現しにくいため、分類精度が低い、あるいは、精度を上げるためにコストのかかる辞書作成が必要になる等の問題がある。
ＴｈｏｒｓｔｅｎＪｏａｃｈｉｍｓ，"ＴｅｘｔＣａｔｅｇｏｒｉｚａｔｉｏｎｗｉｔｈＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅｓ：ＬｅａｒｎｉｎｇｗｉｔｈＭａｎｙＲｅｌｅｖａｎｔＦｅａｔｕｒｅｓ"，［ｏｎｌｉｎｅ］，ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，Ｓｐｒｉｎｇｅｒ，１９９８，［２００３年２月１７日検索］，インターネット＜ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｃｓ．ｃｏｒｎｅｌｌ．ｅｄｕ／Ｐｅｏｐｌｅ／ｔｊ／ｐｕｂｌｉｃａｔｉｏｎｓ／ｊｏａｃｈｉｍｓ＿９８ａ．ｐｄｆ＞特開平０９−０２６９６３号公報特開２０００−２５０９１６号公報特開平１１−３１６７６３号公報特開平１０−１１６２９０号公報特開２０００−１８１９３６号公報国際公開第９９／１４６９０号パンフレット特開平１０−２５４８９９号公報特開平１１−０３９３１３号公報

本発明の課題は、コストのかかる大規模なシソーラス辞書等を用意することなく、正解事例が少量の場合にも高い精度で事例を分類することができる事例分類装置およびその方法を提供することである。
本発明の第１の局面において、第１の事例分類装置は、格納部、入力部、特徴抽出部、相関付与部、分野判定器、および出力部を備える。格納部は、第１のカテゴリ体系の各カテゴリに分類された事例集合から抽出された各特徴と第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を登録した相関辞書と、事例を第２のカテゴリ体系のカテゴリに分類するための分類ルールを格納する。入力部は、未知事例を入力する。特徴抽出部は、未知事例から特徴を抽出する。相関付与部は、相関辞書を参照して、未知事例から抽出された特徴と第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、取得した情報を未知事例から抽出された特徴に付加する。分野判定器は、関連の強さを表す情報が付加された未知事例の特徴を用いて、分類ルールにより未知事例を第２のカテゴリ体系のカテゴリに分類する。出力部は、未知事例の分類結果を出力する。
本発明の第２の局面において、第１の事例分類装置は、上記相関辞書を生成する相関抽出部をさらに備える。特徴抽出部は、第１のカテゴリ体系の各カテゴリに分類された事例集合から特徴を抽出し、相関抽出部は、事例集合から抽出された特徴と第１のカテゴリ体系の各カテゴリとの関連の強さを計算して、相関辞書を生成する。
本発明の第３の局面において、第１の事例分類装置は、上記分類ルールを生成する分類ルール生成器をさらに備える。特徴抽出部は、第２のカテゴリ体系に対する正解事例から特徴を抽出し、相関付与部は、上記相関辞書を参照して、正解事例から抽出された特徴と第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、取得した情報を正解事例から抽出された特徴に付加する。分類ルール生成器は、関連の強さを表す情報が付加された正解事例の特徴を用いて、分類ルールを生成する。
本発明の第４の局面において、第２の事例分類装置は、格納部、入力部、特徴抽出部、判定結果付与部、分野判定器、および出力部を備える。格納部は、事例を第１のカテゴリ体系のカテゴリに分類するための第１の分類ルールと、事例を第２のカテゴリ体系のカテゴリに分類するための第２の分類ルールを格納する。入力部は、未知事例を入力する。特徴抽出部は、未知事例から特徴を抽出する。判定結果付与部は、未知事例から抽出された特徴および第１の分類ルールを用いて、未知事例が第１のカテゴリ体系の各カテゴリに属する確信度を判定し、確信度の情報を未知事例から抽出された特徴に付加する。分野判定器は、確信度の情報が付加された未知事例の特徴を用いて、第２の分類ルールにより未知事例を第２のカテゴリ体系のカテゴリに分類する。出力部は、未知事例の分類結果を出力する。
本発明の第５の局面において、第２の事例分類装置は、上記第２の分類ルールを生成する分類ルール生成器をさらに備える。特徴抽出部は、第２のカテゴリ体系に対する正解事例から特徴を抽出し、判定結果付与部は、正解事例から抽出された特徴および第１の分類ルールを用いて、正解事例が第１のカテゴリ体系の各カテゴリに属する確信度を判定し、確信度の情報を正解事例から抽出された特徴に付加する。分類ルール生成器は、確信度の情報が付加された正解事例の特徴を用いて、第２の分類ルールを生成する。

図１は、特徴抽出部を示す図である。
図２は、文書の例を示す図である。
図３は、特徴ベクトルの第１の例を示す図である。
図４は、分類ルール生成器を示す図である。
図５は、特徴ベクトルとカテゴリのペアの例を示す図である。
図６は、分野判定器を示す図である。
図７は、特徴ベクトルの第２の例を示す図である。
図８は、確信度のリストの例を示す図である。
図９は、従来の分類方法を示す図である。
図１０は、本発明の第１の文書分類システムの構成図である。
図１１は、特徴−カテゴリ相関辞書生成処理のフローチャートである。
図１２は、特徴−カテゴリ相関辞書の構造の例を示す図である。
図１３は、特徴−カテゴリ相関辞書の第１の例を示す図である。
図１４は、第１の分類ルール生成部の処理を示す図である。
図１５は、相関付与部の処理を示す図である。
図１６は、分類ルール生成処理のフローチャートである。
図１７は、評価値ベクトルの例を示す図である。
図１８は、第１の分野判定部の処理を示す図である。
図１９は、分野判定処理のフローチャートである。
図２０は、特徴−カテゴリ相関辞書の第２の例を示す図である。
図２１は、本発明の第２の文書分類システムの構成図である。
図２２は、第２の分類ルール生成部の処理を示す図である。
図２３は、第２の分野判定部の処理を示す図である。
図２４は、情報処理装置の構成を示す図である。
図２５は、記録媒体を示す図である。

以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
本実施形態では、あるカテゴリ体系へ事例を分類する際に、別のカテゴリ体系へ分類された事例の特徴の出現パターンやそのカテゴリ体系への分類ルールを利用することで、正解事例が少量の場合にも高い精度で分類を行う。以下では、主として文書を分類する場合の実施形態について説明する。
図１０は、本実施形態の文書分類システムの構成図である。図１０の文書分類システムは、特徴抽出部２０１、相関抽出部２０２、分類ルール生成部２０３、および分野判定部２０４を備える。分類ルール生成部２０３は、特徴抽出部２０１、相関付与部２０５、および分類ルール生成器２０６を含み、分野判定部２０４は、特徴抽出部２０１、相関付与部２０５、および分野判定器２０７を含む。
この文書分類システムの目的は、未知文書２１５をカテゴリ体系Ｓのカテゴリ（α，β，γ）に分類することである。そのために、別のカテゴリ体系Σの各カテゴリ（Ａ，Ｂ，Ｃ，Ｄ）に分類されている文書の集合２１１の情報を用いる。
まず、特徴抽出部２０１は、文書集合２１１の各文書から特徴を抽出し、相関抽出部２０２は、その特徴とカテゴリ体系Σの各カテゴリとの関連の強さを計算して、特徴−カテゴリ相関辞書２１２に登録する。
次に、分類ルール生成部２０３は、特徴−カテゴリ相関辞書２１２に登録された情報を参照しながら、正解文書の集合２１３から分類ルール２１４を生成する。このとき、各正解文書に出現した特徴に応じて、上記関連の強さの評価値を特徴として各正解文書に付与した後に、分類ルール２１４を生成する。
そして、分野判定部２０４は、特徴−カテゴリ相関辞書２１２に登録された情報を参照しながら、分類ルール２１４を用いて、未知文書２１５をカテゴリ体系Ｓのカテゴリに分類し、未知文書２１５がそれぞれのカテゴリに属する確信度２１６を求める。このとき、未知文書２１５に出現した特徴に応じて、上記関連の強さの評価値を特徴として未知文書２１５に付与した後に、分類ルール２１４を用いて未知文書２１５を分類する。
このような特徴−カテゴリ相関辞書２１２を用いることにより、未知文書２１５に出現したが正解文書２１３に現れなかった特徴ｆは、カテゴリ体系Σのいずれかのカテゴリと相関を持っていれば、分類のための特徴として間接的に使用することができる。ここで、文書集合２１１に特徴ｆが現れていれば、大抵の場合、特徴ｆはカテゴリ体系Σのカテゴリと相関を持っており、この特徴を分類に使用することができる。
図９に示した従来の分類方法では、未知文書をカテゴリ体系Ｓのカテゴリに分類する際に、同じカテゴリ体系Ｓに分類されたデータしか用いていない。このため、未知文書を分類ルールを用いて分類する際には、正解文書に現れた特徴しか用いることができない。
例えば、“ＮＡＴＯ首脳会議、イラク攻撃に対する各国間の．．．”のような文書を省庁のカテゴリ体系Ｓの中のカテゴリ“Ｓ：防衛庁”へ分類したいとする。従来の分類方法であれば、防衛庁の正解文書に“ＮＡＴＯ”という単語が出現していないと、この特徴“ＮＡＴＯ”を手がかりとして用いることができなかった。
これに対して、本実施形態の分類方法では、省庁のカテゴリ体系Ｓとは別のニュースのカテゴリ体系Σに分類された文書の情報を使用することができる。例えば、カテゴリ体系Σのカテゴリに大量のニュースが分類されているとし、“ＮＡＴＯ”、“自衛隊”、“防衛”等の単語がカテゴリ“Σ：国際”や“Σ：軍事”との相関が強いとする。
この場合、単語“自衛隊”および“防衛”がカテゴリ“Ｓ：防衛庁”の正解文書中に現れていれば、“Σ：国際”や“Σ：軍事”と相関の強い単語が現れる文書を“Ｓ：防衛庁”に分類するような分類ルールを生成することができる。“ＮＡＴＯ首脳会議、イラク攻撃に対する各国間の．．．”の文書は単語“ＮＡＴＯ”を含み、この単語は“Σ：国際”や“Σ：軍事”と相関が強いので、この文書は希望通り“Ｓ：防衛庁”に分類されることになる。
次に、図１１から図２０までを参照しながら、図１０の文書分類システムが行う処理をより詳細に説明する。以下の説明では、文書分類の具体例として、少量のプレスリリースの文書から分類ルールを作成するために、特許分類を利用する場合を考える。情報通信関連のプレスリリースのカテゴリ（カテゴリ体系Ｓ）としては、以下のようなものが考えられる。
ｉ）パソコン
ｉｉ）サーバ
ｉｉｉ）周辺機器
ｉｖ）モバイル製品
ｖ）ソフトウェア
ｖｉ）ストレージ
ｖｉｉ）電子デバイス
ｖｉｉｉ）ネットワーク製品
ｉｖ）ソリューション
ｘ）ニフティ（登録商標）
また、特許分類のカテゴリ（カテゴリ体系Σ）としては、例えば、以下のようなＩＰＣ（ＩｎｔｅｒｎａｔｉｏｎａｌＰａｔｅｎｔｓＣｌａｓｓｉｆｉｃａｔｉｏｎ）コードがある。
Ａ生活必需品
Ｂ処理操作；運輸
Ｃ化学；冶金
Ｄ繊維；紙
Ｅ固定構造物
Ｆ機械工学；照明；加熱；武器；爆破
Ｇ物理学
Ｈ電気（Ｈ０１，Ｈ０２，Ｈ０３，．．．）
図１１は、特徴−カテゴリ相関辞書生成処理のフローチャートである。この処理では、あらかじめ用意された文書集合２１１を用いて、文書の特徴とカテゴリの関連性が定量化される。このとき、相関抽出部２０２は、過去に分類された文書から生成した特徴ベクトルとカテゴリのペアを入力として用いて、特徴−カテゴリ相関辞書２１２を生成する。
まず、特徴抽出部２０１は、図１に示したような処理により、各文書から特徴を抽出して、文書を特徴ベクトルの形式に変換する（ステップＳ１）。例えば、特徴として単語を抽出する場合は、公知の形態素解析等の技術が用いられ、特徴ベクトルとして単語ベクトルが生成される。また、著者名や、作成年月日、リンクしている文書の情報、リンクされている文書の情報等、他の情報を特徴として抽出してもよい。
次に、相関抽出部２０２は、抽出された各特徴とカテゴリ体系Σの各カテゴリとの関連の強さを表すスコアを計算する（ステップＳ２）。スコアとしては、相関係数、相互情報量基準、情報量利得基準、カイ２乗検定基準等の指標が用いられる。例えば、相関係数を用いる場合は、カテゴリｃと特徴ｗの相関係数ｒｃｗが次式により計算される。

ここで、ｎは全文書数を表し、ｘ_ｗｉはｉ番目の文書に特徴ｗが出現してい

出現数を表す。また、ｙ_ｃｉはｉ番目の文書にカテゴリｃが付与されていれば

均付与率を表す。
相関抽出部２０２は、得られた各スコアを特徴−カテゴリ相関辞書２１２に保存する（ステップＳ３）。
図１２は、こうして生成された特徴−カテゴリ相関辞書２１２の例を示している。この例では、ｉ番目の特徴ｗｉ（ｉ＝１，２，３，．．．）とｊ番目のカテゴリｃｊ（ｊ＝１，２，３，．．．）の関連の強さを表すスコアが、ｓｃｏｒｅｉ，ｊのように表現されている。
上述の特許分類のカテゴリを用いた場合、特徴−カテゴリ相関辞書２１２は図１３のようになる。図１３の特徴−カテゴリ相関辞書では、例えば、“肥料”という単語とカテゴリ“Ａ生活必需品”の関連の強さは０．７である。
図１４は、分類ルール生成部２０３の処理を示している。この処理では、あらかじめ用意された文書集合２１３を教師事例とする学習が行われ、分類ルール２１４が生成される。
まず、分類ルール生成部２０３内の特徴抽出部２０１により、正解文書の集合２１３から特徴ベクトル２２１が生成され、相関付与部２０５に渡される。次に、相関付与部２０５は、特徴−カテゴリ相関辞書２１２を参照して、対象とする文書に対して新たな特徴ベクトル２２２を生成する。
次に、元の特徴ベクトル２２１と、相関付与部２０５によって生成された特徴ベクトル２２２とを統合した特徴ベクトル２２３が、分類ルール生成器２０６に渡される。そして、分類ルール生成器２０６は、特徴ベクトル２２３とカテゴリのペアを入力として用いて、図４に示したような処理により、分類ルール２１４を生成する。
図１５は、相関付与部２０５の処理を示している。相関付与部２０５は、特徴ベクトル２２１を入力として用い、特徴−カテゴリ相関辞書２１２の情報を新たな特徴ベクトル２２２として特徴ベクトル２２１に付与する。
図１６は、分類ルール生成部２０３により行われる分類ルール生成処理のフローチャートである。まず、特徴抽出部２０１は、文書集合２１３の各文書から特徴を抽出して、文書を特徴ベクトル２２１に変換する（ステップＳ１１）。
次に、相関付与部２０５は、特徴−カテゴリ相関辞書２１２に登録された特徴のうち、文書に出現した特徴ｗｉに対応するカテゴリ毎のスコアｓｃｏｒｅｉ，ｊを、特徴−カテゴリ相関辞書２１２から取得する（ステップＳ１２）。そして、スコアｓｃｏｒｅｉ，ｊを用いてカテゴリ毎の評価値を計算する（ステップＳ１３）。
特徴−カテゴリ相関辞書２１２のカテゴリｃｊに対する評価値ｐｊは、その文書がカテゴリ体系Σのカテゴリｃｊに属する確信度を表している。このｐｊは、例えば、文書中における特徴ｗｉの出現数ｆｉを重みとして用いて、次式のような重み付き加算により求められる。

ただし、評価値の計算方法は（２）式に限られるわけではなく、スコアｓｃｏｒｅｉ，ｊを用いた他の方法で計算してもよい。
相関付与部２０５は、カテゴリ毎の評価値を要素とする特徴ベクトル２２２（評価値ベクトル）を生成し、それを元の特徴ベクトル２２１と統合して新たな特徴ベクトル２２３を生成する（ステップＳ１４）。例えば、元の特徴ベクトル２２１として、図７のような単語ベクトルが抽出された場合、特徴ベクトル２２２として、図１７のような評価値ベクトルが生成される。
次に、分類ルール生成器２０６は、特徴ベクトル２２３を用いて学習を行い、分類ルール２１４を生成する（ステップＳ１５）。
実際には、分類ルールに用いられるカテゴリ判別方法には様々な方法があり、分類ルールを学習する方法にも様々な方法がある。したがって、どのようなカテゴリ判別方法や学習方法を採用するかは任意である。カテゴリ判別方法として線形判別を用いることで文書がカテゴリαに属するか否かを判別する分類ルールでは、以下のような値が用いられる。

ここで、ａ_ｉはｉ番目の特徴の係数であり、ｘ_ｉはｉ番目の特徴が文書にあれば１となり、なければ０となる変数であり、ｎはすべての特徴の数である。
（３）の値ｐがあらかじめ決められたしきい値（通常は０等）以上であれば、その文書はカテゴリαに属すると判定され、ｐがしきい値に満たなければ、その文書はカテゴリαに属さないと判定される。
また、文書があるカテゴリに属するか否かを判別するための分類ルールを重心に基づく線形判別ルール生成法により作成する場合は、ステップＳ１１において、それぞれの文書がｘ_１，．．．，ｘ_ｎという特徴ベクトルで表現され、ステップＳ１４において、特徴ベクトル２２３はｘ_１，．．．，ｘ_ｎ，ｘ_ｃ１，．．．，ｘ_ｃｍのようになる。ここで、ｘ_ｃ１，．．．，ｘ_ｃｍは、ステップＳ１３で計算されたカテゴリ毎の評価値である。
そして、ステップＳ１５において、分類ルール生成器２０６は、文書集合２１３の文書のうち、あるカテゴリに属する文書群の重心ｃ_ｐｏｓｉと属さない文書群の重心ｃ_ｎｅｇａをそれぞれ求め、重心ｃ_ｐｏｓｉとｃ_ｎｅｇａの垂直２等分面を求める。これらの重心は、特徴ベクトル空間内の点として表現される。垂直２等分面は、次式により表現される。

ここで、ｘ_{ｐｏｓｉ，ｉ}とｘ_{ｎｅｇａ，ｉ}は、それぞれｃ_ｐｏｓｉとｃ_ｎｅｇａのｉ番目の座標値である。（４）式の左辺は（３）式の右辺と同じ形になっている。したがって、分類対象の文書の特徴ベクトルをｘ_ｉとして（４）式の右辺により値ｐを計算すれば、その文書があるカテゴリに属するか否かを判別することができる。
図１８は、分野判定部２０４の処理を示している。まず、分野判定部２０４内の特徴抽出部２０１により、未知文書２１５から特徴ベクトル２３１が生成され、相関付与部２０５に渡される。次に、相関付与部２０５は、特徴−カテゴリ相関辞書２１２を参照して、未知文書２１５に対して新たな特徴ベクトル２３２を生成する。
次に、元の特徴ベクトル２３１と、相関付与部２０５によって生成された特徴ベクトル２３２とを統合した特徴ベクトル２３３が、分野判定器２０７に渡される。分野判定器２０７は、特徴ベクトル２３３を入力として用い、分類ルール２１４により分類を行って、それぞれのカテゴリに対する確信度２１６を出力する。
図１９は、分野判定部２０４により行われる分野判定処理のフローチャートである。まず、特徴抽出部２０１は、未知文書２１５から特徴を抽出して、未知文書２１５を特徴ベクトル２３１に変換する（ステップＳ２１）。
次に、相関付与部２０５は、特徴−カテゴリ相関辞書２１２に登録された特徴のうち、未知文書２１５に出現した特徴ｗｉに対応するカテゴリ毎のスコアｓｃｏｒｅｉ，ｊを、特徴−カテゴリ相関辞書２１２から取得する（ステップＳ２２）。そして、スコアｓｃｏｒｅｉ，ｊを用いてカテゴリ毎の評価値を計算する（ステップＳ２３）。
次に、相関付与部２０５は、カテゴリ毎の評価値を要素とする特徴ベクトル２３２（評価値ベクトル）を生成し、それを元の特徴ベクトル２３１と統合して新たな特徴ベクトル２３３を生成する（ステップＳ２４）。
次に、分野判定器２０７は、特徴ベクトル２３３を用いて分野判定を行い、カテゴリに対する確信度２１６を求める（ステップＳ２５）。
例えば、上述した線形判別に基づく分類ルールを用いて、未知文書２１５がカテゴリαに属するか否かを判別する場合は、ステップＳ２１において、未知文書２１５がｘ_１，．．．，ｘ_ｎという特徴ベクトルで表現され、ステップＳ２４において、特徴ベクトル２３３はｘ_１，．．．，ｘ_ｎ，ｘ_ｃ１，．．．，ｘ_ｃ _ｍのようになる。
そして、ステップＳ２５において、分野判定器２０７は、（３）式により値ｐを計算し、ｐがしきい値以上であれば、未知文書２１５はカテゴリαに属すると判定し、ｐがしきい値に満たなければ未知文書２１５はカテゴリαに属さないと判定する。この場合、未知文書２１５がカテゴリαに属する確信度は、例えば、ｐの値に基づいて計算される。
次に、図１０の文書分類システムが行う処理の具体例を、従来の分類方法と比較しながら説明する。
未知文書が前述したプレスリリースのカテゴリ“ｖｉｉ）電子デバイス”（カテゴリ体系Ｓ）に属する（プレスリリースカテゴリ“電子デバイス”）か、属さない（プレスリリースカテゴリ“Ｎｏｔ電子デバイス”）かの分類を自動的に行う目的で、特許分類のカテゴリ“Ｈ電気”の“Ｈ０１Ｌ半導体装置”（カテゴリ体系Σ）に属する文書（特許カテゴリ“半導体装置”）と属さない文書（特許カテゴリ“Ｎｏｔ半導体装置”）の情報を利用する場合を考える。
例えば、情報通信関連企業のプレスリリースで、新しく“当社はデュアルオペレーションフラッシュメモリの販売を開始しました”という文書がリリースされたとする。これをプレスリリースカテゴリ“電子デバイス”に属するように自動的に分類できることが望ましい。
従来の分類方法では、“デュアルオペレーションフラッシュメモリ”が教師事例に含まれていない限り、カテゴリ“電子デバイス”にうまく分類することはできなかった。その原因は、この文章中にはプレスリリースカテゴリ“電子デバイス”の特徴になり得る単語がこの“デュアルオペレーションフラッシュメモリ”しかないためであると考えられる。上述した線形判別を用いた場合、従来の分類ルール生成処理は、以下の通りである。
１．教師事例（以前のプレスリリース）として、カテゴリ“電子デバイス”に属する文書と属さない文書とを、それぞれ用意する。
２．教師事例から単語を抜き出し、それを特徴として、それぞれの文書をｘ_１，．．．，ｘ_ｎというｎ次元の特徴ベクトルで表現する。
３．２で得られた特徴ベクトルを用いて学習を行い、プレスリリースカテゴリ“電子デバイス”に属する文書群の重心ｃ_ｐｏｓｉとプレスリリースカテゴリ“Ｎｏｔ電子デバイス”に属する文書群の重心ｃ_ｎｅｇａをそれぞれ求める。
４．重心ｃ_ｐｏｓｉとｃ_ｎｅｇａの垂直２等分面を求める。
５．得られた垂直２等分面の式が、分類ルールの線形判別の式となる。
この場合、従来の分野判定処理は、以下の通りである。
１．未知文書“当社はデュアルオペレーションフラッシュメモリの販売を開始しました”から単語を抜き出し、この文書をｘ_１，．．．，ｘ_ｎという特徴ベクトルで表現する。
２．（３）式により値ｐを求める。
３．ｐがあらかじめ決められたしきい値以上か否かを判定する。この文章には特徴として利用できる単語がないので、プレスリリースカテゴリ“電子デバイス”に属さないと判定される。
これに対して、図１０の文書分類システムによれば、次のようにして上記未知文書をプレスリリースカテゴリ“電子デバイス”に分類することができる。まず、特徴−カテゴリ相関辞書生成処理は、以下の通りである。
１．特許文書で特許カテゴリ“半導体装置”に属する文書と属さない文書を、それぞれ用意する。
２．特徴抽出部２０１は、それぞれの文書の特徴として単語を抽出する。
３．相関抽出部２０２は、抽出されたすべての単語に対して、特許カテゴリ“半導体装置”との関連の強さを相関係数等に基づき計算し、特徴−カテゴリ相関辞書２１２を生成する。相関係数を用いた場合、例えば、図２０のような特徴−カテゴリ相関辞書が得られる。
４．相関抽出部２０２は、生成された特徴−カテゴリ相関辞書２１２を保存する。
次に、分類ルール生成処理は、以下の通りである。
１．教師事例（企業の以前のプレスリリース）のうち、プレスリリースカテゴリ“電子デバイス”に属する文書と属さない文書を、それぞれ用意する。
２．分類ルール生成部２０３内の特徴抽出部２０１は、教師事例から単語を抜き出し、それを特徴として、それぞれの文書をｘ_１，．．．，ｘ_ｎという特徴ベクトルで表現する。
３．相関付与部２０５は、それぞれの文書に対して、文書中に出現した単語毎に特徴−カテゴリ相関辞書２１２を参照することで、各単語と各特許カテゴリの関連の強さを表すスコアを取得する。
例えば、以前のプレスリリースで既にプレスリリースカテゴリ“電子デバイス”に属すると分かっている“メモリ搭載１６ビットＣＡＮ内蔵マイコン新発売”という文書があったとする。この文書では“メモリ”および“マイコン”という単語が、図２０の特徴−カテゴリ相関辞書の単語に該当し、これらの単語と特許カテゴリ“半導体装置”との関連の強さを表すスコア（相関係数）は、それぞれ０．５および０．４であることが分かる。
４．相関付与部２０５は、文書毎に３で得られたスコアの重み付き加算を行って、カテゴリ毎の評価値を求める。上述の文書の場合、カテゴリ“半導体装置”に対する評価値は、次式のように計算される。
“半導体装置”：１×０．５＋１×０．４＝０．９
ここで計算された評価値を、特許カテゴリ“半導体装置”に対する帰属度スコアと呼ぶことにする。
５．相関付与部２０５は、４で得られた帰属度スコアを特徴ベクトルに加えて、新たな特徴ベクトルを生成する。特徴ベクトルはｘ_１，．．．，ｘ_ｎ，ｘ_ｃ１，．．．，ｘ_ｃｍのようになる。ここでは、例えば、ｘ_ｃ１が特許カテゴリ“半導体装置”に対する帰属度スコアを表すものとする。
６．分類ルール生成器２０６は、相関付与部２０５が生成した特徴ベクトルを用いて学習を行い、プレスリリースカテゴリ“電子デバイス”に属する文書群の重心ｃ_ｐｏｓｉとプレスリリースカテゴリ“Ｎｏｔ電子デバイス”に属する文書群の重心ｃ_ｎｅｇａをそれぞれ求める。
このとき、プレスリリースカテゴリ“電子デバイス”に出現する単語の多くが特許カテゴリ“半導体装置”に出現し、プレスリリースカテゴリ“Ｎｏｔ電子デバイス”に出現する単語の多くが特許カテゴリ“半導体装置”に出現しないとすれば、分類ルール生成器２０６は、以下の理由により“半導体装置”に対する帰属度スコアが高い文書をプレスリリースカテゴリ“電子デバイス”に分類する分類ルールを生成する。
・プレスリリースカテゴリ“電子デバイス”に属する多くの文書の特許カテゴリ“半導体装置”に対する帰属度スコアは大きくなる。つまり、多くの文書のｘ_ｃ１の値が、例えば、１に近い大きな値をとる。上述した“メモリ搭載１６ビットＣＡＮ内蔵マイコン新発売”という文書の場合、この帰属度スコアは０．９である。
・一方、プレスリリースカテゴリ“Ｎｏｔ電子デバイス”に属する多くの文書の特許カテゴリ“半導体装置”に対する帰属度スコアは小さくなる。つまり、多くの文書のｘ_ｃ１の値が、例えば、−１に近い小さな値をとる。例えば、“Ｎｏｔ電子デバイス”に属する“魚介の冷蔵運搬法に関する特許”という文書では、図２０の特徴−カテゴリ相関辞書の相関係数として−０．７（冷蔵）および−０．３（運搬）が取得され、“半導体装置”に対する帰属度スコアは、次式のように計算される。
“半導体装置”：１×（−０．７）＋１×（−０．３）＝−１．０
・こうして、プレスリリースカテゴリ“電子デバイス”に属する文書群の重心ｃ_ｐｏｓｉの座標値のうち、特許カテゴリ“半導体装置”に対する帰属度スコアｘ_ｃ１の値は大きくなる。
・一方、プレスリリースカテゴリ“Ｎｏｔ電子デバイス”に属する文書群の重心ｃ_ｎｅｇａの座標値のうち、特許カテゴリ“半導体装置”に対する帰属度スコアｘ_ｃ１の値は小さくなる。
７．分類ルール生成器２０６は、重心ｃ_ｐｏｓｉとｃ_ｎｅｇａの垂直２等分面を求める。このとき、ｘ_ｃ１の値は、上述したように、プレスリリースカテゴリ“電子デバイス”に属する文書群では大きく、プレスリリースカテゴリ“Ｎｏｔ電子デバイス”に属する文書群では小さいことから、垂直２等分面は、特許カテゴリ“半導体装置”に対する帰属度スコアが大きな文書をプレスリリースカテゴリ“電子デバイス”に分類するように、特徴ベクトル空間を分割するような面になる。
次に、分野判定処理は、以下の通りである。
１．分野判定部２０４内の特徴抽出部２０１は、未知文書“当社はデュアルオペレーションフラッシュメモリの販売を開始しました”から単語を抜き出し、この文書をｘ_１，．．．，ｘ_ｎという特徴ベクトルで表現する。
２．相関付与部２０５は、抽出された単語をキーとして特徴−カテゴリ相関辞書２１２を引く。図２０の特徴−カテゴリ相関辞書を用いた場合、未知文書に“デュアルオペレーションフラッシュメモリ”が出現することから、この未知文書の特許カテゴリ“半導体装置”に対する帰属度スコアは、次式のように計算される。
“半導体装置”：１×０．９３＝０．９３
４．相関付与部２０５は、３で得られた帰属度スコアを特徴ベクトルに加えて、新たな特徴ベクトルを生成する。特徴ベクトルはｘ_１，．．．，ｘ_ｎ，ｘ_ｃ１，．．．，ｘ_ｃｍのようになる。
５．分野判定器２０７は、（３）式により値ｐを求める。
６．ｐがあらかじめ決められたしきい値以上か否かを判定する。４で得られた特徴ベクトルの要素のうち、特許カテゴリ“半導体装置”に対する帰属度スコアを表すｘ_ｃ１が０．９３という大きな値をとるため、ｐはしきい値以上となる。こうして、未知文書はプレスリリースカテゴリ“電子デバイス”に自動的に分類される。
このように、図１０の文書分類システムによれば、教師事例以外のカテゴリ化された文書集合から生成された特徴−カテゴリ相関辞書と、その辞書を参照して生成された分類ルールとを用いることで、教師事例に含まれていない単語を未知文書の特徴として使用することができ、未知文書を正しいカテゴリに分類することが可能となる。
次に、図１０の文書分類システムが行う処理の他の具体例を説明する。
分類対象となる文書が社内の技術文書であり、そのカテゴリ（カテゴリ体系Ｓ）は“ソフトウェア”、“デバイス”、“情報処理”、“通信”、および“金融”の５つであるとする。大量の技術文書をこれらの５つのカテゴリに分類することを目的として、これらのカテゴリに分類された少量の文書を教師事例として用意する。さらに、別のカテゴリ体系Σによりカテゴリ化された文書集合として、上述した特許分類のカテゴリに分類された大量の特許文書が存在するものとする。まず、特徴−カテゴリ相関辞書生成処理は、以下の通りである。
１．特徴抽出部２０１は、それぞれの特許文書の特徴として単語を抽出する。例えば、図２のような文書の場合、図３のような特徴ベクトルが生成される。
２．相関抽出部２０２は、抽出されたすべての単語に対して、各特許カテゴリとの関連の強さを相関係数等に基づき計算し、特徴−カテゴリ相関辞書２１２を生成する。これにより、例えば、図１３のような特徴−カテゴリ相関辞書が得られる。
３．相関抽出部２０２は、生成された特徴−カテゴリ相関辞書２１２を保存する。
次に、分類ルール生成処理は、以下の通りである。
１．分類ルール生成部２０３内の特徴抽出部２０１は、教師事例から単語を抜き出し、それを特徴として、それぞれの文書を特徴ベクトルで表現する。そして、文書の特徴ベクトルとカテゴリのペアの集合を出力する。例えば、“パソコン用帳票作成ソフトを新発売。当社は．．．”のような文書は、（“パソコン”：２，“帳票”：５，“ソフト”：３，．．．）のような特徴ベクトルと“ソフトウェア”のようなカテゴリのペアに変換される。
２．相関付与部２０５は、それぞれの文書に対して、文書中に出現した単語毎に特徴−カテゴリ相関辞書２１２を参照することで、各単語と各特許カテゴリの関連の強さを表すスコアを取得する。そして、スコアの重み付き加算を行って、カテゴリ毎の評価値を求める。これにより、例えば、図１７のようなカテゴリ毎の評価値が得られる。
３．相関付与部２０５は、２で得られた評価値を特徴ベクトルに加えて、新たな特徴ベクトルを生成する。これにより、例えば、（“パソコン”：２，“帳票”：５，“ソフト”：３，．．．，“生活必需品”：１．１，“処理操作；運輸”：２．７，．．．）のような特徴ベクトルが生成される。
４．分類ルール生成器２０６は、相関付与部２０５が生成した特徴ベクトルと特徴抽出部２０１が出力したカテゴリのペアの集合を用いて学習を行い、分類ルール２１４を生成する。例えば、各カテゴリに属する文書群毎に重心を求め、隣接する２つの重心の垂直２等分面を順次計算することで特徴ベクトル空間を分割すれば、分類ルールを生成することができる。
次に、分野判定処理は、以下の通りである。
１．分野判定部２０４内の特徴抽出部２０１は、未知文書２１５から単語を抜き出し、この文書を特徴ベクトルで表現する。例えば、“操作が簡単なスキャナーを販売。方式は従来の光学的．．．”という未知文書が入力された場合、（“操作”：３，“光学”：２，“スキャナー”：８，．．．）のような特徴ベクトルが生成される。
２．相関付与部２０５は、抽出された単語をキーとして特徴−カテゴリ相関辞書２１２を引き、カテゴリ毎の評価値を求める。図１３の特徴−カテゴリ相関辞書を用いた場合、例えば、（“生活必需品”：０．８，“処理操作；運輸”：０．３，．．．）のようなカテゴリ毎の評価値が得られる。
３．相関付与部２０５は、２で得られた評価値を特徴ベクトルに加えて、新たな特徴ベクトルを生成する。これにより、例えば、（“操作”：３，“光学”：２，“スキャナー”：８，．．．，“生活必需品”：０．８，“処理操作；運輸”：０．３，．．．）のような特徴ベクトルが生成される。
４．分野判定器２０７は、相関付与部２０５が生成した特徴ベクトルを元に、分類ルール２１４を用いて分野判定を行う。
“操作が簡単なスキャナーを販売。方式は従来の光学的．．．”という未知文書を分類する際、“光学”という単語が教師事例となる少量の正解文書に出現しないとすると、従来の分類方法では、この単語は分類ルールに反映されないため、まったく分類の手がかりにはならない。
この未知文書を技術カテゴリ“ソフトウェア”に分類したい場合、図１０の文書分類システムによれば、以下のような処理が可能となる。
まず、相関抽出部２０２は、大量の特許文書を元に、“パソコン”，“ソフト”，“光学”等の単語が特許カテゴリ“電気”との関連が強いことを示すスコアを計算し、それを特徴−カテゴリ相関辞書２１２に出力する。
次に、分類ルール生成部２０３内の相関付与部２０５は、少量の正解文書中に“パソコン”，“ソフト”，“光学”等の単語が出現した場合、特徴−カテゴリ相関辞書２１２を用いて、特許カテゴリ“電気”に対する帰属度スコアが大きくなるような特徴ベクトルを生成する。そして、分類ルール生成器２０６は、この特徴ベクトルを入力として用いて、特許カテゴリ“電気”に対する帰属度スコアが大きな値を持つ文書を技術カテゴリ“ソフトウェア”に分類する分類ルール２１４を生成する。
次に、分野判定部２０４内の相関付与部２０５は、“操作が簡単なスキャナーを販売。方式は従来の光学的．．．”という未知文書に“光学”という単語が出現するので、特徴−カテゴリ相関辞書２１２の情報に従って、特許カテゴリ“電気”に対する帰属度スコアが大きくなるような特徴ベクトルを生成する。そして、分野判定器２０７は、分類ルール２１４に従って、この特徴ベクトルを有する未知文書を、技術カテゴリ“ソフトウェア”に分類する。
以上説明した実施形態では、分類に用いるカテゴリ体系Ｓとは別のカテゴリ体系Σに分類された文書集合から特徴−カテゴリ相関辞書を生成し、この辞書を分類ルール生成と分野判定に利用している。しかし、特徴−カテゴリ相関辞書の代わりに、カテゴリ体系Σにおける分類ルールそのものを生成し、それを用いてカテゴリ体系Ｓにおける分類ルールを生成して、分野判定を行うことも可能である。
図２１は、このような文書分類システムの構成図である。図２１の文書分類システムは、特徴抽出部２０１、分類ルール生成器２４１、分類ルール生成部２４２、および分野判定部２４３を備える。分類ルール生成部２４２は、特徴抽出部２０１、判定結果付与部２４４、および分類ルール生成器２０６を含み、分野判定部２４３は、特徴抽出部２０１、判定結果付与部２４４、および分野判定器２０７を含む。
このうち、特徴抽出部２０１、分類ルール生成器２０６、および分野判定器２０７が行う処理については、図１０の文書分類システムと同様である。分類ルール生成器２４１は、分類ルール生成器２０６と同様にして、文書集合２１１の各文書の特徴とカテゴリのペアから分類ルール２５１を生成する。
次に、分類ルール生成部２４２は、分類ルール２５１を参照しながら、正解文書の集合２１３から分類ルール２５２を生成する。このとき、各正解文書に出現した特徴を用いて分類ルール２５１により分野を判定した結果を、特徴として各正解文書に付与した後に、分類ルール２５２を生成する。
そして、分野判定部２４３は、分類ルール２５１を参照しながら、分類ルール２５２により、未知文書２１５をカテゴリ体系Ｓのカテゴリに分類し、未知文書２１５がそれぞれのカテゴリに属する確信度２１６を求める。このとき、未知文書２１５に出現した特徴を用いて分類ルール２５１により分野を判定した結果を、特徴として未知文書２１５に付与した後に、分類ルール２５２により未知文書２１５を分類する。
このような別のカテゴリ体系Σの分類ルール２５１を用いることにより、図１０の文書分類システムと同様に、未知文書２１５に出現したが正解文書２１３に現れなかった特徴を分類に使用することができる。
図２２は、分類ルール生成部２４２の処理を示している。この処理では、あらかじめ用意された文書集合２１３を教師事例とする学習が行われ、分類ルール２５２が生成される。
まず、分類ルール生成部２４２内の特徴抽出部２０１により、正解文書の集合２１３から特徴ベクトル２２１が生成され、判定結果付与部２４４に渡される。
次に、判定結果付与部２４４は、その特徴ベクトル２２１を用いて分類ルール２５１により分類を行い、その文書がカテゴリ体系Σの各カテゴリに属する確信度を求める。そして、その確信度を要素とする特徴ベクトル２６１を生成し、特徴ベクトル２２１と特徴ベクトル２６１とを統合して新たな特徴ベクトル２６２を生成する。
次に、分類ルール生成器２０６は、特徴ベクトル２６２とカテゴリのペアを入力として用いて、分類ルール２５２を生成する。
図２３は、分野判定部２０４の処理を示している。まず、分野判定部２０４内の特徴抽出部２０１により、未知文書２１５から特徴ベクトル２３１が生成され、判定結果付与部２４４に渡される。
次に、判定結果付与部２４４は、その特徴ベクトル２３１を用いて分類ルール２５１により分類を行い、未知文書２１５がカテゴリ体系Σの各カテゴリに属する確信度を求める。そして、その確信度を要素とする特徴ベクトル２７１を生成し、特徴ベクトル２３１と特徴ベクトル２７１とを統合して新たな特徴ベクトル２７２を生成する。
次に、分野判定器２０７は、特徴ベクトル２７２を入力として用い、分類ルール２５２により分類を行って、未知文書２１５がカテゴリ体系Ｓの各カテゴリに属する確信度２１６を出力する。
以上では、文書分類システムの実施形態について説明したが、本発明はこれに限らず、他の多くの事例分類システムに適用することができる。
例えば、文字認識（ｏｐｔｉｃａｌｃｈａｒａｃｔｅｒｒｅｃｏｇｎｉｔｉｏｎ，ＯＣＲ）においては、単語の代わりに、入力画像における所定の位置の画素の濃度や、入力画像内に特定の線素、曲線、閉曲線等が含まれるか否かという情報を特徴として用いて、入力画像を所定の文字カテゴリに分類することができる。
また、画像認識においても、単語の代わりに、入力画像における所定の位置の画素の色や濃度や、入力画像内に特定の線素や曲線が含まれるか否かという情報を特徴として用いて、入力画像を所定の画像カテゴリに分類することができる。
図１０および図２１の文書分類システムは、例えば、図２４に示すような情報処理装置（コンピュータ）を用いて構成することかできる。図２４の情報処理装置は、ＣＰＵ（中央処理装置）２８１、メモリ２８２、入力装置２８３、出力装置２８４、外部記憶装置２８５、媒体駆動装置２８６、ネットワーク接続装置２８７、および事例入力装置２８８を備え、それらはバス２８９により互いに接続されている。
メモリ２８２は、例えば、ＲＯＭ（ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ＲＡＭ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）等を含み、処理に用いられるプログラムおよびデータを格納する。ＣＰＵ２８１は、メモリ２８２を利用してプログラムを実行することにより、必要な処理を行う。
図１０および図２１の特徴抽出部２０１、相関抽出部２０２、分類ルール生成部２０３、２４２、分野判定部２０４、２４３、相関付与部２０５、分類ルール生成器２０６、２４１、分野判定器２０７、および判定結果付与部２４４は、メモリ２８２に格納されたプログラムに対応する。
また、図１０および図２１の文書集合２１１、２１３、未知文書２１５、特徴−カテゴリ相関辞書２１２、および分類ルール２１４、２５１、２５２は、メモリ２８２に格納されたデータに対応する。
入力装置２８３は、例えば、キーボード、ポインティングデバイス、タッチパネル等であり、ユーザからの指示や情報の入力に用いられる。出力装置２８４は、例えば、ディスプレイ、プリンタ、スピーカ等であり、ユーザへの問い合わせや処理結果の出力に用いられる。
外部記憶装置２８５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。情報処理装置は、この外部記憶装置２８５に、上記プログラムおよびデータを格納しておき、必要に応じて、それらをメモリ２８２にロードして使用する。外部記憶装置２８５は、図１０および図２１の文書集合２１１、２１３を格納するデータベースとしても用いられる。
媒体駆動装置２８６は、可搬記録媒体２９０を駆動し、その記録内容にアクセスする。可搬記録媒体２９０は、メモリカード、フレキシブルディスク、ＣＤ−ＲＯＭ（ｃｏｍｐａｃｔｄｉｓｋｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、光ディスク、光磁気ディスク等の任意のコンピュータ読み取り可能な記録媒体である。ユーザは、この可搬記録媒体２９０に上記プログラムおよびデータを格納しておき、必要に応じて、それらをメモリ２８２にロードして使用する。
ネットワーク接続装置２８７は、ＬＡＮ（ｌｏｃａｌａｒｅａｎｅｔｗｏｒｋ）、インターネット等の任意の通信ネットワークに接続され、通信に伴うデータ変換を行う。情報処理装置は、必要に応じて、上記プログラムおよびデータを外部の装置からネットワーク接続装置２８７を介して受け取り、それらをメモリ２８２にロードして使用する。
事例入力装置２８８は、文書や画像等の処理対象の事例データを入力するために用いられる。
図２５は、図２４の情報処理装置にプログラムおよびデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体２９０やサーバ２９１のデータベース２９３に格納されたプログラムおよびデータは、情報処理装置２９２のメモリ２８２にロードされる。サーバ２９１は、そのプログラムおよびデータを搬送する搬送信号を生成し、ネットワーク上の任意の伝送媒体を介して情報処理装置２９２に送信する。ＣＰＵ２８１は、そのデータを用いてそのプログラムを実行し、必要な処理を行う。

本発明によれば、未知事例をあるカテゴリ体系へ分類する際に、未知事例に現れる個別の特徴あるいは特徴ベクトル全体を、別のカテゴリ体系へ分類された事例のカテゴリと関連付け、関連付けられたカテゴリを未知事例の特徴として考慮することができる。したがって、分類対象のカテゴリ体系のみを考慮する場合と比較して、より高い精度で事例を分類することが可能となる。

【書類名】明細書
【特許請求の範囲】
【請求項１】第１のカテゴリ体系の各カテゴリに分類された事例集合から
抽出された各特徴と該第１のカテゴリ体系の各カテゴリとの関連の強さを表す情
報を登録した相関辞書と、事例を第２のカテゴリ体系のカテゴリに分類するため
の分類ルールを格納する格納部と、
未知事例を入力する入力部と、
前記未知事例から特徴を抽出する特徴抽出部と、
前記相関辞書を参照して、前記未知事例から抽出された特徴と前記第１のカテ
ゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、取得した情報を該未
知事例から抽出された特徴に付加する相関付与部と、
前記関連の強さを表す情報が付加された前記未知事例の特徴を用いて、前記分
類ルールにより前記未知事例を前記第２のカテゴリ体系のカテゴリに分類する分
野判定器と、
前記未知事例の分類結果を出力する出力部と
を備えることを特徴とする事例分類装置。
【請求項２】前記相関辞書を生成する相関抽出部をさらに備え、前記特徴
抽出部は、前記事例集合から特徴を抽出し、前記相関抽出部は、前記事例集合か
ら抽出された特徴と前記第１のカテゴリ体系の各カテゴリとの関連の強さを計算
して、前記相関辞書を生成することを特徴とする請求項１記載の事例分類装置。
【請求項３】前記分類ルールを生成する分類ルール生成器をさらに備え、
前記特徴抽出部は、前記第２のカテゴリ体系に対する正解事例から特徴を抽出し
、前記相関付与部は、前記相関辞書を参照して、前記正解事例から抽出された特
徴と前記第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、
取得した情報を該正解事例から抽出された特徴に付加し、前記分類ルール生成器
は、前記関連の強さを表す情報が付加された前記正解事例の特徴を用いて、前記
分類ルールを生成することを特徴とする請求項１記載の事例分類装置。
【請求項４】事例を第１のカテゴリ体系のカテゴリに分類するための第１
の分類ルールと、事例を第２のカテゴリ体系のカテゴリに分類するための第２の
分類ルールを格納する格納部と、
未知事例を入力する入力部と、
前記未知事例から特徴を抽出する特徴抽出部と、
前記未知事例から抽出された特徴および前記第１の分類ルールを用いて、前記
未知事例が前記第１のカテゴリ体系の各カテゴリに属する確信度を判定し、該確
信度の情報を該未知事例から抽出された特徴に付加する判定結果付与部と、
前記確信度の情報が付加された前記未知事例の特徴を用いて、前記第２の分類
ルールにより前記未知事例を前記第２のカテゴリ体系のカテゴリに分類する分野
判定器と、
前記未知事例の分類結果を出力する出力部と
を備えることを特徴とする事例分類装置。
【請求項５】前記第２の分類ルールを生成する分類ルール生成器をさらに
備え、前記特徴抽出部は、前記第２のカテゴリ体系に対する正解事例から特徴を
抽出し、前記判定結果付与部は、前記正解事例から抽出された特徴および前記第
１の分類ルールを用いて、前記正解事例が前記第１のカテゴリ体系の各カテゴリ
に属する確信度を判定し、該確信度の情報を該正解事例から抽出された特徴に付
加し、前記分類ルール生成器は、前記確信度の情報が付加された前記正解事例の
特徴を用いて、前記第２の分類ルールを生成することを特徴とする請求項４記載
の事例分類装置。
【請求項６】第１のカテゴリ体系の各カテゴリに分類された事例集合から
抽出された各特徴と該第１のカテゴリ体系の各カテゴリとの関連の強さを表す情
報を登録した相関辞書と、事例を第２のカテゴリ体系のカテゴリに分類するため
の分類ルールを格納する格納手段と、
未知事例を入力する入力手段と、
前記未知事例から特徴を抽出する特徴抽出手段と、
前記相関辞書を参照して、前記未知事例から抽出された特徴と前記第１のカテ
ゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、取得した情報を該未
知事例から抽出された特徴に付加する相関付与手段と、
前記関連の強さを表す情報が付加された前記未知事例の特徴を用いて、前記分
類ルールにより前記未知事例を前記第２のカテゴリ体系のカテゴリに分類する分
野判定手段と、
前記未知事例の分類結果を出力する出力手段と
を備えることを特徴とする事例分類装置。
【請求項７】事例を第１のカテゴリ体系のカテゴリに分類するための第１
の分類ルールと、事例を第２のカテゴリ体系のカテゴリに分類するための第２の
分類ルールを格納する格納手段と、
未知事例を入力する入力手段と、
前記未知事例から特徴を抽出する特徴抽出手段と、
前記未知事例から抽出された特徴および前記第１の分類ルールを用いて、前記
未知事例が前記第１のカテゴリ体系の各カテゴリに属する確信度を判定し、該確
信度の情報を該未知事例から抽出された特徴に付加する判定結果付与手段と、
前記確信度の情報が付加された前記未知事例の特徴を用いて、前記第２の分類
ルールにより前記未知事例を前記第２のカテゴリ体系のカテゴリに分類する分野
判定手段と、
前記未知事例の分類結果を出力する出力手段と
を備えることを特徴とする事例分類装置。
【発明の詳細な説明】
【０００１】
【技術分野】
本発明は、与えられた事例をカテゴリに分類する装置および方法に関する。本
発明は、特に、文書の自動分類や画像認識等の分野において、事例をカテゴリに
分類するために利用される。
【０００２】
【背景技術】
文書を分類する際、人手で事例（文書）を分類した正解事例（正解文書群）を
あらかじめ準備しておき、それを用いて未知の事例（未知文書）を分類する多く
の方法がこれまで提案されてきた。これらの方法では、特徴抽出部、分類ルール
生成器、および分野判定器がしばしば利用される。
【０００３】
図１は、特徴抽出部を示している。図１の特徴抽出部１０１は、事例（文書１
１１）を入力として、特徴ベクトル１１２（文書の特徴を表すベクトル）を出力
する。文書分類においては、文書中に現れる各単語（特徴語）を特徴ベクトル空
間の各次元ｗｉ（ｉ＝１，２，３，．．．）とし、各単語の出現数等を特徴ベク
トルの各要素ｆｉとすることが多い。例えば、図２のような文書が入力された場
合、図３のような特徴ベクトルが出力される。
【０００４】
図４は、分類ルール生成器を示している。図４の分類ルール生成器１２１は、
正解事例（特徴ベクトルとカテゴリのペア）の集合１３１を入力として、分類ル
ール１３２を出力する。
【０００５】
分類ルール１３２は、特徴ベクトルで表現された事例をカテゴリに分類するた
めのルールであり、分類ルール生成器１２１の種類によって形式が異なる。この
分類ルール１３２としては、ベクトルモデル、ナイーブベイズ（naive Bayes ）
、決定木、決定リスト、サポートベクトルマシン（support vector machine，Ｓ
ＶＭ）、およびブースティング（boosting）のように、様々なものがこれまでに
提案されている。
【０００６】
また、入力される特徴ベクトルとカテゴリのペアとしては、例えば、図５のよ
うなものが用いられる。図５においては、特徴ベクトルがカテゴリ“ソフトウェ
ア”に対応付けられている。
【０００７】
図６は、分野判定器を示している。図６の分野判定器１４１は、特徴ベクトル
１５１で表現された事例を入力として、分類ルール１３２を用いることで、その
事例がそれぞれのカテゴリｃｉに属する確信度ｐｉのリスト１５２を求める。例
えば、図７のような特徴ベクトルが入力された場合、図８のような確信度のリス
トが出力される。
【０００８】
図９は、このような特徴抽出部、分類ルール生成器、および分野判定器を利用
した、未知の事例（文書）の分類方法を示している。図９の分類ルール生成部１
６１は、特徴抽出部１０１および分類ルール生成器１２１を備え、分野判定部１
６２は、特徴抽出部１０１および分野判定器１４１を備える。
【０００９】
まず、カテゴリ体系Ｓのカテゴリ（α，β，γ）に分類された正解事例（正解
文書）の集合１７１が分類ルール生成部１６１に入力され、特徴抽出部１０１に
より特徴ベクトルの集合が生成される。そして、その特徴ベクトルの集合が分類
ルール生成器１２１に入力され、分類ルール１３２が生成される。
【００１０】
次に、未知の事例（未知文書１７２）が分野判定部１６２に入力され、特徴抽
出部１０１により特徴ベクトルに変換される。そして、その特徴ベクトルが分野
判定器１４１に入力され、未知文書１７２がα、β、およびγのそれぞれのカテ
ゴリに属する確信度１７３が求められる。
【００１１】
このような分類方法の応用分野は多数あり、文書分類に関して言えば、文書の
特徴として単語を用いる方法として、以下のような例が挙げられる。
（１）文書を特徴ベクトルで表現し、ＳＶＭという学習方式で分類する（例えば
、非特許文献１参照）。
（２）上記のような方式に加えて、適合フィードバックを用いて精度を向上させ
る（例えば、特許文献１参照）。
（３）未知文書に対して、特定のカテゴリの文書から抽出した単語に基づいた関
連度と、一般の文書から抽出した単語に基づいた関連度とを比較して、未知文書
が特定のカテゴリに属するかどうかを決める（例えば、特許文献２参照）。
【００１２】
また、文書分類に関して、単語の特徴以外を用いた方法としては、以下のよう
な例が挙げられる。
（１）連言を用いることによって、精度向上を図る（例えば、特許文献３参照）
。
（２）ＳＧＭＬ（Standard Generalized Mark-up Language ）文書からタグで囲
まれた部分を抽出し、それを特徴として用いて分類を行う（例えば、特許文献４
参照）。
（３）リンク情報を特徴に加えることによって、精度向上を図る（例えば、特許
文献５、６、および７参照）。
（４）シソーラス辞書を利用して、文書中に出現した単語の意味カテゴリを特徴
として学習を行うことによって、精度向上を図る（例えば、特許文献８参照）。
【００１３】
しかしながら、上述した従来の文書分類方法には、次のような問題がある。
文書を必要となるカテゴリ体系に分類するためには、あらかじめ十分な量の正
解文書を人手で作成しておく必要がある。正解文書が少量の場合に分類精度が低
い原因としては、分類対象の未知文書に出現する特徴（単語等）が正解文書に現
れないことや、現れたとしてもその出現数が少なく統計的な意味を持たないため
、有効であるはずの未知文書に現れる特徴を分野判定の特徴として使用できない
ことが考えられる。
【００１４】
例えば、“ＮＡＴＯ首脳会議、イラク攻撃に対する各国間の．．．”のような
未知文書を分類することを考える。単語を特徴とした場合、単語“ＮＡＴＯ”は
、一般的に“国際”や“軍事”等に関するものである。しかしながら、従来の分
類方法を用いた場合は、正解文書中に単語“ＮＡＴＯ”が出現していなければ、
単語“ＮＡＴＯ”はこの文書を分類する特徴としてまったく寄与しなくなる。正
解文書が少ない場合には、このように、未知文書に出現する特徴が正解文書に出
現しないという場合が多くなる。
【００１５】
また、上述した従来の方法のうち、連言やリンク情報等を特徴として加えて分
類を行う方法を採用したとしても、正解文書が少ない場合には未知文書に出現す
る特徴が正解文書に出現しないので、問題の解決にはならない。
【００１６】
さらに、上述した従来の方法のうち、シソーラス辞書を用いた方法は、未知文
書の特徴のうち正解文書に出現しない単語を特徴として分野判定に寄与させるこ
とができるという点で優れているが、シソーラス辞書に登録されていない単語が
分類対象の未知文書に出現した場合には無力である。この場合に対処するために
は大規模なシソーラス辞書を準備する必要があるが、そのコストは非常に高くつ
く。
【００１７】
このように、従来の文書分類方法では、正解文書が少量しかない場合には未知
文書に出現する特徴が正解文書に出現しにくいため、分類精度が低い、あるいは
、精度を上げるためにコストのかかる辞書作成が必要になる等の問題がある。

非特許文献１
Thorsten Joachims,“Text Categorization with Support Vector Machines:
Learning with Many Relevant Features”,［online］, In Proceedings of the
European Conference on Machine Learning, Springer, 1998,［２００３年２
月１７日検索］, インターネット＜ＵＲＬ：http://www.cs.cornell.edu/People
/tj/publications/joachims_98a.pdf＞
特許文献１
特開平０９−０２６９６３号公報
特許文献２
特開２０００−２５０９１６号公報
特許文献３
特開平１１−３１６７６３号公報
特許文献４
特開平１０−１１６２９０号公報
特許文献５
特開２０００−１８１９３６号公報
特許文献６
国際公開第９９／１４６９０号パンフレット
特許文献７
特開平１０−２５４８９９号公報
特許文献８
特開平１１−０３９３１３号公報
【００１８】
【発明の開示】
本発明の課題は、コストのかかる大規模なシソーラス辞書等を用意することな
く、正解事例が少量の場合にも高い精度で事例を分類することができる事例分類
装置およびその方法を提供することである。
【００１９】
本発明の第１の局面において、第１の事例分類装置は、格納部、入力部、特徴
抽出部、相関付与部、分野判定器、および出力部を備える。格納部は、第１のカ
テゴリ体系の各カテゴリに分類された事例集合から抽出された各特徴と第１のカ
テゴリ体系の各カテゴリとの関連の強さを表す情報を登録した相関辞書と、事例
を第２のカテゴリ体系のカテゴリに分類するための分類ルールを格納する。入力
部は、未知事例を入力する。特徴抽出部は、未知事例から特徴を抽出する。相関
付与部は、相関辞書を参照して、未知事例から抽出された特徴と第１のカテゴリ
体系の各カテゴリとの関連の強さを表す情報を取得し、取得した情報を未知事例
から抽出された特徴に付加する。分野判定器は、関連の強さを表す情報が付加さ
れた未知事例の特徴を用いて、分類ルールにより未知事例を第２のカテゴリ体系
のカテゴリに分類する。出力部は、未知事例の分類結果を出力する。
【００２０】
本発明の第２の局面において、第１の事例分類装置は、上記相関辞書を生成す
る相関抽出部をさらに備える。特徴抽出部は、第１のカテゴリ体系の各カテゴリ
に分類された事例集合から特徴を抽出し、相関抽出部は、事例集合から抽出され
た特徴と第１のカテゴリ体系の各カテゴリとの関連の強さを計算して、相関辞書
を生成する。
【００２１】
本発明の第３の局面において、第１の事例分類装置は、上記分類ルールを生成
する分類ルール生成器をさらに備える。特徴抽出部は、第２のカテゴリ体系に対
する正解事例から特徴を抽出し、相関付与部は、上記相関辞書を参照して、正解
事例から抽出された特徴と第１のカテゴリ体系の各カテゴリとの関連の強さを表
す情報を取得し、取得した情報を正解事例から抽出された特徴に付加する。分類
ルール生成器は、関連の強さを表す情報が付加された正解事例の特徴を用いて、
分類ルールを生成する。
【００２２】
本発明の第４の局面において、第２の事例分類装置は、格納部、入力部、特徴
抽出部、判定結果付与部、分野判定器、および出力部を備える。格納部は、事例
を第１のカテゴリ体系のカテゴリに分類するための第１の分類ルールと、事例を
第２のカテゴリ体系のカテゴリに分類するための第２の分類ルールを格納する。
入力部は、未知事例を入力する。特徴抽出部は、未知事例から特徴を抽出する。
判定結果付与部は、未知事例から抽出された特徴および第１の分類ルールを用い
て、未知事例が第１のカテゴリ体系の各カテゴリに属する確信度を判定し、確信
度の情報を未知事例から抽出された特徴に付加する。分野判定器は、確信度の情
報が付加された未知事例の特徴を用いて、第２の分類ルールにより未知事例を第
２のカテゴリ体系のカテゴリに分類する。出力部は、未知事例の分類結果を出力
する。
【００２３】
本発明の第５の局面において、第２の事例分類装置は、上記第２の分類ルール
を生成する分類ルール生成器をさらに備える。特徴抽出部は、第２のカテゴリ体
系に対する正解事例から特徴を抽出し、判定結果付与部は、正解事例から抽出さ
れた特徴および第１の分類ルールを用いて、正解事例が第１のカテゴリ体系の各
カテゴリに属する確信度を判定し、確信度の情報を正解事例から抽出された特徴
に付加する。分類ルール生成器は、確信度の情報が付加された正解事例の特徴を
用いて、第２の分類ルールを生成する。
【００２４】
【発明を実施するための最良の形態】
以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
本実施形態では、あるカテゴリ体系へ事例を分類する際に、別のカテゴリ体系
へ分類された事例の特徴の出現パターンやそのカテゴリ体系への分類ルールを利
用することで、正解事例が少量の場合にも高い精度で分類を行う。以下では、主
として文書を分類する場合の実施形態について説明する。
【００２５】
図１０は、本実施形態の文書分類システムの構成図である。図１０の文書分類
システムは、特徴抽出部２０１、相関抽出部２０２、分類ルール生成部２０３、
および分野判定部２０４を備える。分類ルール生成部２０３は、特徴抽出部２０
１、相関付与部２０５、および分類ルール生成器２０６を含み、分野判定部２０
４は、特徴抽出部２０１、相関付与部２０５、および分野判定器２０７を含む。
【００２６】
この文書分類システムの目的は、未知文書２１５をカテゴリ体系Ｓのカテゴリ
（α，β，γ）に分類することである。そのために、別のカテゴリ体系Σの各カ
テゴリ（Ａ，Ｂ，Ｃ，Ｄ）に分類されている文書の集合２１１の情報を用いる。
【００２７】
まず、特徴抽出部２０１は、文書集合２１１の各文書から特徴を抽出し、相関
抽出部２０２は、その特徴とカテゴリ体系Σの各カテゴリとの関連の強さを計算
して、特徴−カテゴリ相関辞書２１２に登録する。
【００２８】
次に、分類ルール生成部２０３は、特徴−カテゴリ相関辞書２１２に登録され
た情報を参照しながら、正解文書の集合２１３から分類ルール２１４を生成する
。このとき、各正解文書に出現した特徴に応じて、上記関連の強さの評価値を特
徴として各正解文書に付与した後に、分類ルール２１４を生成する。
【００２９】
そして、分野判定部２０４は、特徴−カテゴリ相関辞書２１２に登録された情
報を参照しながら、分類ルール２１４を用いて、未知文書２１５をカテゴリ体系
Ｓのカテゴリに分類し、未知文書２１５がそれぞれのカテゴリに属する確信度２
１６を求める。このとき、未知文書２１５に出現した特徴に応じて、上記関連の
強さの評価値を特徴として未知文書２１５に付与した後に、分類ルール２１４を
用いて未知文書２１５を分類する。
【００３０】
このような特徴−カテゴリ相関辞書２１２を用いることにより、未知文書２１
５に出現したが正解文書２１３に現れなかった特徴ｆは、カテゴリ体系Σのいず
れかのカテゴリと相関を持っていれば、分類のための特徴として間接的に使用す
ることができる。ここで、文書集合２１１に特徴ｆが現れていれば、大抵の場合
、特徴ｆはカテゴリ体系Σのカテゴリと相関を持っており、この特徴を分類に使
用することができる。
【００３１】
図９に示した従来の分類方法では、未知文書をカテゴリ体系Ｓのカテゴリに分
類する際に、同じカテゴリ体系Ｓに分類されたデータしか用いていない。このた
め、未知文書を分類ルールを用いて分類する際には、正解文書に現れた特徴しか
用いることができない。
【００３２】
例えば、“ＮＡＴＯ首脳会議、イラク攻撃に対する各国間の．．．”のような
文書を省庁のカテゴリ体系Ｓの中のカテゴリ“Ｓ：防衛庁”へ分類したいとする
。従来の分類方法であれば、防衛庁の正解文書に“ＮＡＴＯ”という単語が出現
していないと、この特徴“ＮＡＴＯ”を手がかりとして用いることができなかっ
た。
【００３３】
これに対して、本実施形態の分類方法では、省庁のカテゴリ体系Ｓとは別のニ
ュースのカテゴリ体系Σに分類された文書の情報を使用することができる。例え
ば、カテゴリ体系Σのカテゴリに大量のニュースが分類されているとし、“ＮＡ
ＴＯ”、“自衛隊”、“防衛”等の単語がカテゴリ“Σ：国際”や“Σ：軍事”
との相関が強いとする。
【００３４】
この場合、単語“自衛隊”および“防衛”がカテゴリ“Ｓ：防衛庁”の正解文
書中に現れていれば、“Σ：国際”や“Σ：軍事”と相関の強い単語が現れる文
書を“Ｓ：防衛庁”に分類するような分類ルールを生成することができる。“Ｎ
ＡＴＯ首脳会議、イラク攻撃に対する各国間の．．．”の文書は単語 “ＮＡＴ
Ｏ”を含み、この単語は“Σ：国際”や“Σ：軍事”と相関が強いので、この文
書は希望通り“Ｓ：防衛庁”に分類されることになる。
【００３５】
次に、図１１から図２０までを参照しながら、図１０の文書分類システムが行
う処理をより詳細に説明する。以下の説明では、文書分類の具体例として、少量
のプレスリリースの文書から分類ルールを作成するために、特許分類を利用する
場合を考える。情報通信関連のプレスリリースのカテゴリ（カテゴリ体系Ｓ）と
しては、以下のようなものが考えられる。
ｉ）パソコン
ｉｉ）サーバ
ｉｉｉ）周辺機器
ｉｖ）モバイル製品
ｖ）ソフトウェア
ｖｉ）ストレージ
ｖｉｉ）電子デバイス
ｖｉｉｉ）ネットワーク製品
ｉｖ）ソリューション
ｘ）ニフティ（登録商標）
また、特許分類のカテゴリ（カテゴリ体系Σ）としては、例えば、以下のよう
なＩＰＣ（International Patents Classification）コードがある。
Ａ生活必需品
Ｂ処理操作；運輸
Ｃ化学；冶金
Ｄ繊維；紙
Ｅ固定構造物
Ｆ機械工学；照明；加熱；武器；爆破
Ｇ物理学
Ｈ電気（Ｈ０１，Ｈ０２，Ｈ０３，．．．）
図１１は、特徴−カテゴリ相関辞書生成処理のフローチャートである。この処
理では、あらかじめ用意された文書集合２１１を用いて、文書の特徴とカテゴリ
の関連性が定量化される。このとき、相関抽出部２０２は、過去に分類された文
書から生成した特徴ベクトルとカテゴリのペアを入力として用いて、特徴−カテ
ゴリ相関辞書２１２を生成する。
【００３６】
まず、特徴抽出部２０１は、図１に示したような処理により、各文書から特徴
を抽出して、文書を特徴ベクトルの形式に変換する（ステップＳ１）。例えば、
特徴として単語を抽出する場合は、公知の形態素解析等の技術が用いられ、特徴
ベクトルとして単語ベクトルが生成される。また、著者名や、作成年月日、リン
クしている文書の情報、リンクされている文書の情報等、他の情報を特徴として
抽出してもよい。
【００３７】
次に、相関抽出部２０２は、抽出された各特徴とカテゴリ体系Σの各カテゴリ
との関連の強さを表すスコアを計算する（ステップＳ２）。スコアとしては、相
関係数、相互情報量基準、情報量利得基準、カイ２乗検定基準等の指標が用いら
れる。例えば、相関係数を用いる場合は、カテゴリｃと特徴ｗの相関係数ｒｃｗ
が次式により計算される。
【００３８】
【数１】

【００３９】
ここで、ｎは全文書数を表し、ｘ_wiはｉ番目の文書に特徴ｗが出現していれば
１となり、出現していなければ０となる変数であり、_wは特徴ｗの平均出現数を
表す。また、ｙ_ciはｉ番目の文書にカテゴリｃが付与されていれば１となり、付
与されていなければ０となる変数であり、_cはカテゴリｃの平均付与率を表す。
【００４０】
相関抽出部２０２は、得られた各スコアを特徴−カテゴリ相関辞書２１２に保
存する（ステップＳ３）。
図１２は、こうして生成された特徴−カテゴリ相関辞書２１２の例を示してい
る。この例では、ｉ番目の特徴ｗｉ（ｉ＝１，２，３，．．．）とｊ番目のカテ
ゴリｃｊ（ｊ＝１，２，３，．．．）の関連の強さを表すスコアが、ｓｃｏｒｅ
ｉ，ｊのように表現されている。
【００４１】
上述の特許分類のカテゴリを用いた場合、特徴−カテゴリ相関辞書２１２は図
１３のようになる。図１３の特徴−カテゴリ相関辞書では、例えば、“肥料”と
いう単語とカテゴリ“Ａ生活必需品”の関連の強さは０．７である。
【００４２】
図１４は、分類ルール生成部２０３の処理を示している。この処理では、あら
かじめ用意された文書集合２１３を教師事例とする学習が行われ、分類ルール２
１４が生成される。
【００４３】
まず、分類ルール生成部２０３内の特徴抽出部２０１により、正解文書の集合
２１３から特徴ベクトル２２１が生成され、相関付与部２０５に渡される。次に
、相関付与部２０５は、特徴−カテゴリ相関辞書２１２を参照して、対象とする
文書に対して新たな特徴ベクトル２２２を生成する。
【００４４】
次に、元の特徴ベクトル２２１と、相関付与部２０５によって生成された特徴
ベクトル２２２とを統合した特徴ベクトル２２３が、分類ルール生成器２０６に
渡される。そして、分類ルール生成器２０６は、特徴ベクトル２２３とカテゴリ
のペアを入力として用いて、図４に示したような処理により、分類ルール２１４
を生成する。
【００４５】
図１５は、相関付与部２０５の処理を示している。相関付与部２０５は、特徴
ベクトル２２１を入力として用い、特徴−カテゴリ相関辞書２１２の情報を新た
な特徴ベクトル２２２として特徴ベクトル２２１に付与する。
【００４６】
図１６は、分類ルール生成部２０３により行われる分類ルール生成処理のフロ
ーチャートである。まず、特徴抽出部２０１は、文書集合２１３の各文書から特
徴を抽出して、文書を特徴ベクトル２２１に変換する（ステップＳ１１）。
【００４７】
次に、相関付与部２０５は、特徴−カテゴリ相関辞書２１２に登録された特徴
のうち、文書に出現した特徴ｗｉに対応するカテゴリ毎のスコアｓｃｏｒｅｉ
，ｊを、特徴−カテゴリ相関辞書２１２から取得する（ステップＳ１２）。そし
て、スコアｓｃｏｒｅｉ，ｊを用いてカテゴリ毎の評価値を計算する（ステッ
プＳ１３）。
【００４８】
特徴−カテゴリ相関辞書２１２のカテゴリｃｊに対する評価値ｐｊは、その文
書がカテゴリ体系Σのカテゴリｃｊに属する確信度を表している。このｐｊは、
例えば、文書中における特徴ｗｉの出現数ｆｉを重みとして用いて、次式のよう
な重み付き加算により求められる。

ｐｊ＝ｆ１×ｓｃｏｒｅ１，ｊ＋ｆ２×ｓｃｏｒｅ２，ｊ＋
ｆ３×ｓｃｏｒｅ３，ｊ＋．．．（２）

ただし、評価値の計算方法は（２）式に限られるわけではなく、スコアｓｃｏ
ｒｅｉ，ｊを用いた他の方法で計算してもよい。
【００４９】
相関付与部２０５は、カテゴリ毎の評価値を要素とする特徴ベクトル２２２（
評価値ベクトル）を生成し、それを元の特徴ベクトル２２１と統合して新たな特
徴ベクトル２２３を生成する（ステップＳ１４）。例えば、元の特徴ベクトル２
２１として、図７のような単語ベクトルが抽出された場合、特徴ベクトル２２２
として、図１７のような評価値ベクトルが生成される。
【００５０】
次に、分類ルール生成器２０６は、特徴ベクトル２２３を用いて学習を行い、
分類ルール２１４を生成する（ステップＳ１５）。
実際には、分類ルールに用いられるカテゴリ判別方法には様々な方法があり、
分類ルールを学習する方法にも様々な方法がある。したがって、どのようなカテ
ゴリ判別方法や学習方法を採用するかは任意である。カテゴリ判別方法として線
形判別を用いることで文書がカテゴリαに属するか否かを判別する分類ルールで
は、以下のような値が用いられる。

ｐ＝ａ₁ｘ₁＋ａ₂ｘ₂＋．．．＋ａ_nｘ_n＋ａ₀ （３）

ここで、ａ_iはｉ番目の特徴の係数であり、ｘ_iはｉ番目の特徴が文書にあれば
１となり、なければ０となる変数であり、ｎはすべての特徴の数である。（３）
の値ｐがあらかじめ決められたしきい値（通常は０等）以上であれば、その文書
はカテゴリαに属すると判定され、ｐがしきい値に満たなければ、その文書はカ
テゴリαに属さないと判定される。
【００５１】
また、文書があるカテゴリに属するか否かを判別するための分類ルールを重心
に基づく線形判別ルール生成法により作成する場合は、ステップＳ１１において
、それぞれの文書がｘ₁，．．．，ｘ_nという特徴ベクトルで表現され、ステップ
Ｓ１４において、特徴ベクトル２２３はｘ₁，．．．，ｘ_n，ｘ_c1，．．．，ｘ_cm
のようになる。ここで、_ｘc1，．．．，ｘ_cmは、ステップＳ１３で計算されたカ
テゴリ毎の評価値である。
【００５２】
そして、ステップＳ１５において、分類ルール生成器２０６は、文書集合２１
３の文書のうち、あるカテゴリに属する文書群の重心ｃ_posiと属さない文書群の
重心ｃ_negaをそれぞれ求め、重心ｃ_posiとｃ_negaの垂直２等分面を求める。これ
らの重心は、特徴ベクトル空間内の点として表現される。垂直２等分面は、次式
により表現される。
【００５３】
【数２】

【００５４】
ここで、ｘ_posi,iとｘ_nega,iは、それぞれｃ_posiとｃ_negaのｉ番目の座標値で
ある。（４）式の左辺は（３）式の右辺と同じ形になっている。したがって、分
類対象の文書の特徴ベクトルをｘ_iとして（４）式の右辺により値ｐを計算すれ
ば、その文書があるカテゴリに属するか否かを判別することができる。
【００５５】
図１８は、分野判定部２０４の処理を示している。まず、分野判定部２０４内
の特徴抽出部２０１により、未知文書２１５から特徴ベクトル２３１が生成され
、相関付与部２０５に渡される。次に、相関付与部２０５は、特徴−カテゴリ相
関辞書２１２を参照して、未知文書２１５に対して新たな特徴ベクトル２３２を
生成する。
【００５６】
次に、元の特徴ベクトル２３１と、相関付与部２０５によって生成された特徴
ベクトル２３２とを統合した特徴ベクトル２３３が、分野判定器２０７に渡され
る。分野判定器２０７は、特徴ベクトル２３３を入力として用い、分類ルール２
１４により分類を行って、それぞれのカテゴリに対する確信度２１６を出力する
。
【００５７】
図１９は、分野判定部２０４により行われる分野判定処理のフローチャートで
ある。まず、特徴抽出部２０１は、未知文書２１５から特徴を抽出して、未知文
書２１５を特徴ベクトル２３１に変換する（ステップＳ２１）。
【００５８】
次に、相関付与部２０５は、特徴−カテゴリ相関辞書２１２に登録された特徴
のうち、未知文書２１５に出現した特徴ｗｉに対応するカテゴリ毎のスコアｓｃ
ｏｒｅｉ，ｊを、特徴−カテゴリ相関辞書２１２から取得する（ステップＳ２
２）。そして、スコアｓｃｏｒｅｉ，ｊを用いてカテゴリ毎の評価値を計算す
る（ステップＳ２３）。
【００５９】
次に、相関付与部２０５は、カテゴリ毎の評価値を要素とする特徴ベクトル２
３２（評価値ベクトル）を生成し、それを元の特徴ベクトル２３１と統合して新
たな特徴ベクトル２３３を生成する（ステップＳ２４）。
【００６０】
次に、分野判定器２０７は、特徴ベクトル２３３を用いて分野判定を行い、カ
テゴリに対する確信度２１６を求める（ステップＳ２５）。
例えば、上述した線形判別に基づく分類ルールを用いて、未知文書２１５がカ
テゴリαに属するか否かを判別する場合は、ステップＳ２１において、未知文書
２１５がｘ₁，．．．，ｘ_nという特徴ベクトルで表現され、ステップＳ２４にお
いて、特徴ベクトル２３３はｘ₁，．．．，ｘ_n，ｘ_c1，．．．，ｘ_cmのようにな
る。
【００６１】
そして、ステップＳ２５において、分野判定器２０７は、（３）式により値ｐ
を計算し、ｐがしきい値以上であれば、未知文書２１５はカテゴリαに属すると
判定し、ｐがしきい値に満たなければ未知文書２１５はカテゴリαに属さないと
判定する。この場合、未知文書２１５がカテゴリαに属する確信度は、例えば、
ｐの値に基づいて計算される。
【００６２】
次に、図１０の文書分類システムが行う処理の具体例を、従来の分類方法と比
較しながら説明する。
未知文書が前述したプレスリリースのカテゴリ“ｖｉｉ）電子デバイス” （
カテゴリ体系Ｓ）に属する（プレスリリースカテゴリ“電子デバイス”）か、属
さない（プレスリリースカテゴリ“Ｎｏｔ電子デバイス”）かの分類を自動的
に行う目的で、特許分類のカテゴリ“Ｈ電気”の“Ｈ０１Ｌ半導体装置”（
カテゴリ体系Σ）に属する文書（特許カテゴリ“半導体装置”）と属さない文書
（特許カテゴリ“Ｎｏｔ半導体装置”）の情報を利用する場合を考える。
【００６３】
例えば、情報通信関連企業のプレスリリースで、新しく“当社はデュアルオペ
レーションフラッシュメモリの販売を開始しました”という文書がリリースされ
たとする。これをプレスリリースカテゴリ“電子デバイス”に属するように自動
的に分類できることが望ましい。
【００６４】
従来の分類方法では、“デュアルオペレーションフラッシュメモリ”が教師事
例に含まれていない限り、カテゴリ“電子デバイス”にうまく分類することはで
きなかった。その原因は、この文章中にはプレスリリースカテゴリ“電子デバイ
ス”の特徴になり得る単語がこの“デュアルオペレーションフラッシュメモリ”
しかないためであると考えられる。上述した線形判別を用いた場合、従来の分類
ルール生成処理は、以下の通りである。
１．教師事例（以前のプレスリリース）として、カテゴリ“電子デバイス”に属
する文書と属さない文書とを、それぞれ用意する。
２．教師事例から単語を抜き出し、それを特徴として、それぞれの文書をｘ₁ ，
．．．，ｘ_nというｎ次元の特徴ベクトルで表現する。
３．２で得られた特徴ベクトルを用いて学習を行い、プレスリリースカテゴリ“
電子デバイス”に属する文書群の重心ｃ_posiとプレスリリースカテゴリ“Ｎｏｔ
電子デバイス”に属する文書群の重心ｃ_negaをそれぞれ求める。
４．重心ｃ_posiとｃ_negaの垂直２等分面を求める。
５．得られた垂直２等分面の式が、分類ルールの線形判別の式となる。
【００６５】
この場合、従来の分野判定処理は、以下の通りである。
１．未知文書“当社はデュアルオペレーションフラッシュメモリの販売を開始し
ました”から単語を抜き出し、この文書をｘ₁，．．．，ｘ_nという特徴ベクトル
で表現する。
２．（３）式により値ｐを求める。
３．ｐがあらかじめ決められたしきい値以上か否かを判定する。この文章には特
徴として利用できる単語がないので、プレスリリースカテゴリ“電子デバイス”
に属さないと判定される。
【００６６】
これに対して、図１０の文書分類システムによれば、次のようにして上記未知
文書をプレスリリースカテゴリ“電子デバイス”に分類することができる。まず
、特徴−カテゴリ相関辞書生成処理は、以下の通りである。
１．特許文書で特許カテゴリ“半導体装置”に属する文書と属さない文書を、そ
れぞれ用意する。
２．特徴抽出部２０１は、それぞれの文書の特徴として単語を抽出する。
３．相関抽出部２０２は、抽出されたすべての単語に対して、特許カテゴリ “
半導体装置”との関連の強さを相関係数等に基づき計算し、特徴−カテゴリ相関
辞書２１２を生成する。相関係数を用いた場合、例えば、図２０のような特徴−
カテゴリ相関辞書が得られる。
４．相関抽出部２０２は、生成された特徴−カテゴリ相関辞書２１２を保存する
。
【００６７】
次に、分類ルール生成処理は、以下の通りである。
１．教師事例（企業の以前のプレスリリース）のうち、プレスリリースカテゴリ
“電子デバイス”に属する文書と属さない文書を、それぞれ用意する。
２．分類ルール生成部２０３内の特徴抽出部２０１は、教師事例から単語を抜き
出し、それを特徴として、それぞれの文書をｘ₁，．．．，ｘ_nという特徴ベクト
ルで表現する。
３．相関付与部２０５は、それぞれの文書に対して、文書中に出現した単語毎に
特徴−カテゴリ相関辞書２１２を参照することで、各単語と各特許カテゴリの関
連の強さを表すスコアを取得する。
【００６８】
例えば、以前のプレスリリースで既にプレスリリースカテゴリ“電子デバイス
”に属すると分かっている“メモリ搭載１６ビットＣＡＮ内蔵マイコン新発売”
という文書があったとする。この文書では“メモリ”および“マイコン”という
単語が、図２０の特徴−カテゴリ相関辞書の単語に該当し、これらの単語と特許
カテゴリ“半導体装置”との関連の強さを表すスコア（相関係数）は、それぞれ
０．５および０．４であることが分かる。
４．相関付与部２０５は、文書毎に３で得られたスコアの重み付き加算を行って
、カテゴリ毎の評価値を求める。上述の文書の場合、カテゴリ“半導体装置”に
対する評価値は、次式のように計算される。

“半導体装置”：１×０．５＋１×０．４＝０．９

ここで計算された評価値を、特許カテゴリ“半導体装置”に対する帰属度スコ
アと呼ぶことにする。
５．相関付与部２０５は、４で得られた帰属度スコアを特徴ベクトルに加えて、
新たな特徴ベクトルを生成する。特徴ベクトルはｘ₁，．．．，ｘ_n，ｘ_c1，．．
．，ｘ_cmのようになる。ここでは、例えば、ｘ_c1が特許カテゴリ“半導体装置”
に対する帰属度スコアを表すものとする。
６．分類ルール生成器２０６は、相関付与部２０５が生成した特徴ベクトルを用
いて学習を行い、プレスリリースカテゴリ“電子デバイス”に属する文書群の重
心ｃ_posiとプレスリリースカテゴリ“Ｎｏｔ電子デバイス”に属する文書群の
重心ｃ_negaをそれぞれ求める。
【００６９】
このとき、プレスリリースカテゴリ“電子デバイス”に出現する単語の多くが
特許カテゴリ“半導体装置”に出現し、プレスリリースカテゴリ“Ｎｏｔ電子
デバイス”に出現する単語の多くが特許カテゴリ“半導体装置”に出現しないと
すれば、分類ルール生成器２０６は、以下の理由により“半導体装置”に対する
帰属度スコアが高い文書をプレスリリースカテゴリ“電子デバイス”に分類する
分類ルールを生成する。
・プレスリリースカテゴリ“電子デバイス”に属する多くの文書の特許カテゴリ
“半導体装置”に対する帰属度スコアは大きくなる。つまり、多くの文書のｘ_c1
の値が、例えば、１に近い大きな値をとる。上述した“メモリ搭載１６ビットＣ
ＡＮ内蔵マイコン新発売”という文書の場合、この帰属度スコアは０．９である
。
・一方、プレスリリースカテゴリ“Ｎｏｔ電子デバイス”に属する多くの文書
の特許カテゴリ“半導体装置”に対する帰属度スコアは小さくなる。つまり、多
くの文書のｘ_c1の値が、例えば、−１に近い小さな値をとる。例えば、“Ｎｏｔ
電子デバイス”に属する“魚介の冷蔵運搬法に関する特許”という文書では、
図２０の特徴−カテゴリ相関辞書の相関係数として−０．７（冷蔵）および−０
．３（運搬）が取得され、“半導体装置”に対する帰属度スコアは、次式のよう
に計算される。

“半導体装置”：１×（−０．７）＋１×（−０．３）＝−１．０

・こうして、プレスリリースカテゴリ“電子デバイス”に属する文書群の重心ｃ
_posiの座標値のうち、特許カテゴリ“半導体装置”に対する帰属度スコアｘ_c1の
値は大きくなる。
・一方、プレスリリースカテゴリ“Ｎｏｔ電子デバイス”に属する文書群の重
心ｃ_negaの座標値のうち、特許カテゴリ“半導体装置”に対する帰属度スコアｘ
_c1の値は小さくなる。
７．分類ルール生成器２０６は、重心ｃ_posiとｃ_negaの垂直２等分面を求める。
このとき、ｘ_c1の値は、上述したように、プレスリリースカテゴリ“電子デバイ
ス”に属する文書群では大きく、プレスリリースカテゴリ“Ｎｏｔ電子デバイ
ス”に属する文書群では小さいことから、垂直２等分面は、特許カテゴリ“半導
体装置”に対する帰属度スコアが大きな文書をプレスリリースカテゴリ“電子デ
バイス”に分類するように、特徴ベクトル空間を分割するような面になる。
【００７０】
次に、分野判定処理は、以下の通りである。
１．分野判定部２０４内の特徴抽出部２０１は、未知文書“当社はデュアルオペ
レーションフラッシュメモリの販売を開始しました”から単語を抜き出し、この
文書をｘ₁，．．．，ｘ_nという特徴ベクトルで表現する。
２．相関付与部２０５は、抽出された単語をキーとして特徴−カテゴリ相関辞書
２１２を引く。図２０の特徴−カテゴリ相関辞書を用いた場合、未知文書に“デ
ュアルオペレーションフラッシュメモリ”が出現することから、この未知文書の
特許カテゴリ“半導体装置”に対する帰属度スコアは、次式のように計算される
。

“半導体装置”：１×０．９３＝０．９３

４．相関付与部２０５は、３で得られた帰属度スコアを特徴ベクトルに加えて、
新たな特徴ベクトルを生成する。特徴ベクトルはｘ₁，．．．，ｘ_n，ｘ_c1，．．
．，ｘ_cmのようになる。
５．分野判定器２０７は、（３）式により値ｐを求める。
６．ｐがあらかじめ決められたしきい値以上か否かを判定する。４で得られた特
徴ベクトルの要素のうち、特許カテゴリ“半導体装置”に対する帰属度スコアを
表すｘ_c1が０．９３という大きな値をとるため、ｐはしきい値以上となる。こう
して、未知文書はプレスリリースカテゴリ“電子デバイス”に自動的に分類され
る。
【００７１】
このように、図１０の文書分類システムによれば、教師事例以外のカテゴリ化
された文書集合から生成された特徴−カテゴリ相関辞書と、その辞書を参照して
生成された分類ルールとを用いることで、教師事例に含まれていない単語を未知
文書の特徴として使用することができ、未知文書を正しいカテゴリに分類するこ
とが可能となる。
【００７２】
次に、図１０の文書分類システムが行う処理の他の具体例を説明する。
分類対象となる文書が社内の技術文書であり、そのカテゴリ（カテゴリ体系Ｓ
）は“ソフトウェア”、“デバイス”、“情報処理”、“通信”、および “金
融”の５つであるとする。大量の技術文書をこれらの５つのカテゴリに分類する
ことを目的として、これらのカテゴリに分類された少量の文書を教師事例として
用意する。さらに、別のカテゴリ体系Σによりカテゴリ化された文書集合として
、上述した特許分類のカテゴリに分類された大量の特許文書が存在するものとす
る。まず、特徴−カテゴリ相関辞書生成処理は、以下の通りである。
１．特徴抽出部２０１は、それぞれの特許文書の特徴として単語を抽出する。例
えば、図２のような文書の場合、図３のような特徴ベクトルが生成される。
２．相関抽出部２０２は、抽出されたすべての単語に対して、各特許カテゴリと
の関連の強さを相関係数等に基づき計算し、特徴−カテゴリ相関辞書２１２を生
成する。これにより、例えば、図１３のような特徴−カテゴリ相関辞書が得られ
る。
３．相関抽出部２０２は、生成された特徴−カテゴリ相関辞書２１２を保存する
。
【００７３】
次に、分類ルール生成処理は、以下の通りである。
１．分類ルール生成部２０３内の特徴抽出部２０１は、教師事例から単語を抜き
出し、それを特徴として、それぞれの文書を特徴ベクトルで表現する。そして、
文書の特徴ベクトルとカテゴリのペアの集合を出力する。例えば、“パソコン用
帳票作成ソフトを新発売。当社は．．．”のような文書は、（“パソコン”：２
，“帳票”：５，“ソフト”：３，．．．）のような特徴ベクトルと“ソフトウ
ェア”のようなカテゴリのペアに変換される。
２．相関付与部２０５は、それぞれの文書に対して、文書中に出現した単語毎に
特徴−カテゴリ相関辞書２１２を参照することで、各単語と各特許カテゴリの関
連の強さを表すスコアを取得する。そして、スコアの重み付き加算を行って、カ
テゴリ毎の評価値を求める。これにより、例えば、図１７のようなカテゴリ毎の
評価値が得られる。
３．相関付与部２０５は、２で得られた評価値を特徴ベクトルに加えて、新たな
特徴ベクトルを生成する。これにより、例えば、（“パソコン”：２，“帳票”
：５，“ソフト”：３，．．．，“生活必需品”：１．１，“処理操作；運輸”
：２．７，．．．）のような特徴ベクトルが生成される。
４．分類ルール生成器２０６は、相関付与部２０５が生成した特徴ベクトルと特
徴抽出部２０１が出力したカテゴリのペアの集合を用いて学習を行い、分類ルー
ル２１４を生成する。例えば、各カテゴリに属する文書群毎に重心を求め、隣接
する２つの重心の垂直２等分面を順次計算することで特徴ベクトル空間を分割す
れば、分類ルールを生成することができる。
【００７４】
次に、分野判定処理は、以下の通りである。
１．分野判定部２０４内の特徴抽出部２０１は、未知文書２１５から単語を抜き
出し、この文書を特徴ベクトルで表現する。例えば、“操作が簡単なスキャナー
を販売。方式は従来の光学的．．．”という未知文書が入力された場合、（“操
作”：３，“光学”：２，“スキャナー”：８，．．．）のような特徴ベクトル
が生成される。
２．相関付与部２０５は、抽出された単語をキーとして特徴−カテゴリ相関辞書
２１２を引き、カテゴリ毎の評価値を求める。図１３の特徴−カテゴリ相関辞書
を用いた場合、例えば、（“生活必需品”：０．８，“処理操作；運輸”：０．
３，．．．）のようなカテゴリ毎の評価値が得られる。
３．相関付与部２０５は、２で得られた評価値を特徴ベクトルに加えて、新たな
特徴ベクトルを生成する。これにより、例えば、（“操作”：３，“光学”：２
，“スキャナー”：８，．．．，“生活必需品”：０．８，“処理操作；運輸”
：０．３，．．．）のような特徴ベクトルが生成される。
４．分野判定器２０７は、相関付与部２０５が生成した特徴ベクトルを元に、分
類ルール２１４を用いて分野判定を行う。
【００７５】
“操作が簡単なスキャナーを販売。方式は従来の光学的．．．”という未知文
書を分類する際、“光学”という単語が教師事例となる少量の正解文書に出現し
ないとすると、従来の分類方法では、この単語は分類ルールに反映されないため
、まったく分類の手がかりにはならない。
【００７６】
この未知文書を技術カテゴリ“ソフトウェア”に分類したい場合、図１０の文
書分類システムによれば、以下のような処理が可能となる。
まず、相関抽出部２０２は、大量の特許文書を元に、“パソコン”，“ソフト
”，“光学”等の単語が特許カテゴリ“電気”との関連が強いことを示すスコア
を計算し、それを特徴−カテゴリ相関辞書２１２に出力する。
【００７７】
次に、分類ルール生成部２０３内の相関付与部２０５は、少量の正解文書中に
“パソコン”，“ソフト”，“光学”等の単語が出現した場合、特徴−カテゴリ
相関辞書２１２を用いて、特許カテゴリ“電気”に対する帰属度スコアが大きく
なるような特徴ベクトルを生成する。そして、分類ルール生成器２０６は、この
特徴ベクトルを入力として用いて、特許カテゴリ“電気”に対する帰属度スコア
が大きな値を持つ文書を技術カテゴリ“ソフトウェア”に分類する分類ルール２
１４を生成する。
【００７８】
次に、分野判定部２０４内の相関付与部２０５は、“操作が簡単なスキャナー
を販売。方式は従来の光学的．．．”という未知文書に“光学”という単語が出
現するので、特徴−カテゴリ相関辞書２１２の情報に従って、特許カテゴリ“電
気”に対する帰属度スコアが大きくなるような特徴ベクトルを生成する。そして
、分野判定器２０７は、分類ルール２１４に従って、この特徴ベクトルを有する
未知文書を、技術カテゴリ“ソフトウェア”に分類する。
【００７９】
以上説明した実施形態では、分類に用いるカテゴリ体系Ｓとは別のカテゴリ体
系Σに分類された文書集合から特徴−カテゴリ相関辞書を生成し、この辞書を分
類ルール生成と分野判定に利用している。しかし、特徴−カテゴリ相関辞書の代
わりに、カテゴリ体系Σにおける分類ルールそのものを生成し、それを用いてカ
テゴリ体系Ｓにおける分類ルールを生成して、分野判定を行うことも可能である
。
【００８０】
図２１は、このような文書分類システムの構成図である。図２１の文書分類シ
ステムは、特徴抽出部２０１、分類ルール生成器２４１、分類ルール生成部２４
２、および分野判定部２４３を備える。分類ルール生成部２４２は、特徴抽出部
２０１、判定結果付与部２４４、および分類ルール生成器２０６を含み、分野判
定部２４３は、特徴抽出部２０１、判定結果付与部２４４、および分野判定器２
０７を含む。
【００８１】
このうち、特徴抽出部２０１、分類ルール生成器２０６、および分野判定器２
０７が行う処理については、図１０の文書分類システムと同様である。分類ルー
ル生成器２４１は、分類ルール生成器２０６と同様にして、文書集合２１１の各
文書の特徴とカテゴリのペアから分類ルール２５１を生成する。
【００８２】
次に、分類ルール生成部２４２は、分類ルール２５１を参照しながら、正解文
書の集合２１３から分類ルール２５２を生成する。このとき、各正解文書に出現
した特徴を用いて分類ルール２５１により分野を判定した結果を、特徴として各
正解文書に付与した後に、分類ルール２５２を生成する。
【００８３】
そして、分野判定部２４３は、分類ルール２５１を参照しながら、分類ルール
２５２により、未知文書２１５をカテゴリ体系Ｓのカテゴリに分類し、未知文書
２１５がそれぞれのカテゴリに属する確信度２１６を求める。このとき、未知文
書２１５に出現した特徴を用いて分類ルール２５１により分野を判定した結果を
、特徴として未知文書２１５に付与した後に、分類ルール２５２により未知文書
２１５を分類する。
【００８４】
このような別のカテゴリ体系Σの分類ルール２５１を用いることにより、図１
０の文書分類システムと同様に、未知文書２１５に出現したが正解文書２１３に
現れなかった特徴を分類に使用することができる。
【００８５】
図２２は、分類ルール生成部２４２の処理を示している。この処理では、あら
かじめ用意された文書集合２１３を教師事例とする学習が行われ、分類ルール２
５２が生成される。
【００８６】
まず、分類ルール生成部２４２内の特徴抽出部２０１により、正解文書の集合
２１３から特徴ベクトル２２１が生成され、判定結果付与部２４４に渡される。
次に、判定結果付与部２４４は、その特徴ベクトル２２１を用いて分類ルール
２５１により分類を行い、その文書がカテゴリ体系Σの各カテゴリに属する確信
度を求める。そして、その確信度を要素とする特徴ベクトル２６１を生成し、特
徴ベクトル２２１と特徴ベクトル２６１とを統合して新たな特徴ベクトル２６２
を生成する。
【００８７】
次に、分類ルール生成器２０６は、特徴ベクトル２６２とカテゴリのペアを入
力として用いて、分類ルール２５２を生成する。
図２３は、分野判定部２０４の処理を示している。まず、分野判定部２０４内
の特徴抽出部２０１により、未知文書２１５から特徴ベクトル２３１が生成され
、判定結果付与部２４４に渡される。
【００８８】
次に、判定結果付与部２４４は、その特徴ベクトル２３１を用いて分類ルール
２５１により分類を行い、未知文書２１５がカテゴリ体系Σの各カテゴリに属す
る確信度を求める。そして、その確信度を要素とする特徴ベクトル２７１を生成
し、特徴ベクトル２３１と特徴ベクトル２７１とを統合して新たな特徴ベクトル
２７２を生成する。
【００８９】
次に、分野判定器２０７は、特徴ベクトル２７２を入力として用い、分類ルー
ル２５２により分類を行って、未知文書２１５がカテゴリ体系Ｓの各カテゴリに
属する確信度２１６を出力する。
【００９０】
以上では、文書分類システムの実施形態について説明したが、本発明はこれに
限らず、他の多くの事例分類システムに適用することができる。
例えば、文字認識（optical character recognition，ＯＣＲ）においては、
単語の代わりに、入力画像における所定の位置の画素の濃度や、入力画像内に特
定の線素、曲線、閉曲線等が含まれるか否かという情報を特徴として用いて、入
力画像を所定の文字カテゴリに分類することができる。
【００９１】
また、画像認識においても、単語の代わりに、入力画像における所定の位置の
画素の色や濃度や、入力画像内に特定の線素や曲線が含まれるか否かという情報
を特徴として用いて、入力画像を所定の画像カテゴリに分類することができる。
【００９２】
図１０および図２１の文書分類システムは、例えば、図２４に示すような情報
処理装置（コンピュータ）を用いて構成することができる。図２４の情報処理装
置は、ＣＰＵ（中央処理装置）２８１、メモリ２８２、入力装置２８３、出力装
置２８４、外部記憶装置２８５、媒体駆動装置２８６、ネットワーク接続装置２
８７、および事例入力装置２８８を備え、それらはバス２８９により互いに接続
されている。
【００９３】
メモリ２８２は、例えば、ＲＯＭ（read only memory）、ＲＡＭ（random acc
ess memory）等を含み、処理に用いられるプログラムおよびデータを格納する。
ＣＰＵ２８１は、メモリ２８２を利用してプログラムを実行することにより、必
要な処理を行う。
【００９４】
図１０および図２１の特徴抽出部２０１、相関抽出部２０２、分類ルール生成
部２０３、２４２、分野判定部２０４、２４３、相関付与部２０５、分類ルール
生成器２０６、２４１、分野判定器２０７、および判定結果付与部２４４は、メ
モリ２８２に格納されたプログラムに対応する。
【００９５】
また、図１０および図２１の文書集合２１１、２１３、未知文書２１５、特徴
−カテゴリ相関辞書２１２、および分類ルール２１４、２５１、２５２は、メモ
リ２８２に格納されたデータに対応する。
【００９６】
入力装置２８３は、例えば、キーボード、ポインティングデバイス、タッチパ
ネル等であり、ユーザからの指示や情報の入力に用いられる。出力装置２８４は
、例えば、ディスプレイ、プリンタ、スピーカ等であり、ユーザへの問い合わせ
や処理結果の出力に用いられる。
【００９７】
外部記憶装置２８５は、例えば、磁気ディスク装置、光ディスク装置、光磁気
ディスク装置、テープ装置等である。情報処理装置は、この外部記憶装置２８５
に、上記プログラムおよびデータを格納しておき、必要に応じて、それらをメモ
リ２８２にロードして使用する。外部記憶装置２８５は、図１０および図２１の
文書集合２１１、２１３を格納するデータベースとしても用いられる。
【００９８】
媒体駆動装置２８６は、可搬記録媒体２９０を駆動し、その記録内容にアクセ
スする。可搬記録媒体２９０は、メモリカード、フレキシブルディスク、ＣＤ−
ＲＯＭ（compact disk read only memory ）、光ディスク、光磁気ディスク等の
任意のコンピュータ読み取り可能な記録媒体である。ユーザは、この可搬記録媒
体２９０に上記プログラムおよびデータを格納しておき、必要に応じて、それら
をメモリ２８２にロードして使用する。
【００９９】
ネットワーク接続装置２８７は、ＬＡＮ（local area network）、インターネ
ット等の任意の通信ネットワークに接続され、通信に伴うデータ変換を行う。情
報処理装置は、必要に応じて、上記プログラムおよびデータを外部の装置からネ
ットワーク接続装置２８７を介して受け取り、それらをメモリ２８２にロードし
て使用する。
【０１００】
事例入力装置２８８は、文書や画像等の処理対象の事例データを入力するため
に用いられる。
図２５は、図２４の情報処理装置にプログラムおよびデータを供給することの
できるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体２９０
やサーバ２９１のデータベース２９３に格納されたプログラムおよびデータは、
情報処理装置２９２のメモリ２８２にロードされる。サーバ２９１は、そのプロ
グラムおよびデータを搬送する搬送信号を生成し、ネットワーク上の任意の伝送
媒体を介して情報処理装置２９２に送信する。ＣＰＵ２８１は、そのデータを用
いてそのプログラムを実行し、必要な処理を行う。
【０１０１】
【産業上の利用可能性】
本発明によれば、未知事例をあるカテゴリ体系へ分類する際に、未知事例に現
れる個別の特徴あるいは特徴ベクトル全体を、別のカテゴリ体系へ分類された事
例のカテゴリと関連付け、関連付けられたカテゴリを未知事例の特徴として考慮
することができる。したがって、分類対象のカテゴリ体系のみを考慮する場合と
比較して、より高い精度で事例を分類することが可能となる。
【図面の簡単な説明】
【図１】
図１は、特徴抽出部を示す図である。
【図２】
図２は、文書の例を示す図である。
【図３】
図３は、特徴ベクトルの第１の例を示す図である。
【図４】
図４は、分類ルール生成器を示す図である。
【図５】
図５は、特徴ベクトルとカテゴリのペアの例を示す図である。
【図６】
図６は、分野判定器を示す図である。
【図７】
図７は、特徴ベクトルの第２の例を示す図である。
【図８】
図８は、確信度のリストの例を示す図である。
【図９】
図９は、従来の分類方法を示す図である。
【図１０】
図１０は、本発明の第１の文書分類システムの構成図である。
【図１１】
図１１は、特徴−カテゴリ相関辞書生成処理のフローチャートである。
【図１２】
図１２は、特徴−カテゴリ相関辞書の構造の例を示す図である。
【図１３】
図１３は、特徴−カテゴリ相関辞書の第１の例を示す図である。
【図１４】
図１４は、第１の分類ルール生成部の処理を示す図である。
【図１５】
図１５は、相関付与部の処理を示す図である。
【図１６】
図１６は、分類ルール生成処理のフローチャートである。
【図１７】
図１７は、評価値ベクトルの例を示す図である。
【図１８】
図１８は、第１の分野判定部の処理を示す図である。
【図１９】
図１９は、分野判定処理のフローチャートである。
【図２０】
図２０は、特徴−カテゴリ相関辞書の第２の例を示す図である。
【図２１】
図２１は、本発明の第２の文書分類システムの構成図である。
【図２２】
図２２は、第２の分類ルール生成部の処理を示す図である。
【図２３】
図２３は、第２の分野判定部の処理を示す図である。
【図２４】
図２４は、情報処理装置の構成を示す図である。
【図２５】
図２５は、記録媒体を示す図である。

文書を分類する際、人手で事例（文書）を分類した正解事例（正解文書群）をあらかじめ準備しておき、それを用いて未知の事例（未知文書）を分類する多くの方法がこれまで提案されてきた。これらの方法では、特徴抽出部、分類ルール生成器、および分野判定器がしばしば利用される。

図１は、特徴抽出部を示している。図１の特徴抽出部１０１は、事例（文書１１１）を入力として、特徴ベクトル１１２（文書の特徴を表すベクトル）を出力する。文書分類においては、文書中に現れる各単語（特徴語）を特徴ベクトル空間の各次元ｗｉ（ｉ＝１，２，３，．．．）とし、各単語の出現数等を特徴ベクトルの各要素ｆｉとすることが多い。例えば、図２のような文書が入力された場合、図３のような特徴ベクトルが出力される。

図４は、分類ルール生成器を示している。図４の分類ルール生成器１２１は、正解事例（特徴ベクトルとカテゴリのペア）の集合１３１を入力として、分類ルール１３２を出力する。

分類ルール１３２は、特徴ベクトルで表現された事例をカテゴリに分類するためのルールであり、分類ルール生成器１２１の種類によって形式が異なる。この分類ルール１３２としては、ベクトルモデル、ナイーブベイズ（naive Bayes ）、決定木、決定リスト、サポートベクトルマシン（support vector machine，ＳＶＭ）、およびブースティング（boosting）のように、様々なものがこれまでに提案されている。

また、入力される特徴ベクトルとカテゴリのペアとしては、例えば、図５のようなものが用いられる。図５においては、特徴ベクトルがカテゴリ“ソフトウェア”に対応付けられている。

図６は、分野判定器を示している。図６の分野判定器１４１は、特徴ベクトル１５１で表現された事例を入力として、分類ルール１３２を用いることで、その事例がそれぞれのカテゴリｃｉに属する確信度ｐｉのリスト１５２を求める。例えば、図７のような特徴ベクトルが入力された場合、図８のような確信度のリストが出力される。

図９は、このような特徴抽出部、分類ルール生成器、および分野判定器を利用した、未知の事例（文書）の分類方法を示している。図９の分類ルール生成部１６１は、特徴抽出部１０１および分類ルール生成器１２１を備え、分野判定部１６２は、特徴抽出部１０１および分野判定器１４１を備える。

まず、カテゴリ体系Ｓのカテゴリ（α，β，γ）に分類された正解事例（正解文書）の集合１７１が分類ルール生成部１６１に入力され、特徴抽出部１０１により特徴ベクトルの集合が生成される。そして、その特徴ベクトルの集合が分類ルール生成器１２１に入力され、分類ルール１３２が生成される。

次に、未知の事例（未知文書１７２）が分野判定部１６２に入力され、特徴抽出部１０１により特徴ベクトルに変換される。そして、その特徴ベクトルが分野判定器１４１に入力され、未知文書１７２がα、β、およびγのそれぞれのカテゴリに属する確信度１７３が求められる。

このような分類方法の応用分野は多数あり、文書分類に関して言えば、文書の特徴として単語を用いる方法として、以下のような例が挙げられる。
（１）文書を特徴ベクトルで表現し、ＳＶＭという学習方式で分類する（例えば、非特許文献１参照）。
（２）上記のような方式に加えて、適合フィードバックを用いて精度を向上させる（例えば、特許文献１参照）。
（３）未知文書に対して、特定のカテゴリの文書から抽出した単語に基づいた関連度と、一般の文書から抽出した単語に基づいた関連度とを比較して、未知文書が特定のカテゴリに属するかどうかを決める（例えば、特許文献２参照）。

また、文書分類に関して、単語の特徴以外を用いた方法としては、以下のような例が挙げられる。
（１）連言を用いることによって、精度向上を図る（例えば、特許文献３参照）。
（２）ＳＧＭＬ（Standard Generalized Mark-up Language ）文書からタグで囲まれた部分を抽出し、それを特徴として用いて分類を行う（例えば、特許文献４参照）。
（３）リンク情報を特徴に加えることによって、精度向上を図る（例えば、特許文献５、６、および７参照）。
（４）シソーラス辞書を利用して、文書中に出現した単語の意味カテゴリを特徴として学習を行うことによって、精度向上を図る（例えば、特許文献８参照）。

しかしながら、上述した従来の文書分類方法には、次のような問題がある。
文書を必要となるカテゴリ体系に分類するためには、あらかじめ十分な量の正解文書を人手で作成しておく必要がある。正解文書が少量の場合に分類精度が低い原因としては、分類対象の未知文書に出現する特徴（単語等）が正解文書に現れないことや、現れたとしてもその出現数が少なく統計的な意味を持たないため、有効であるはずの未知文書に現れる特徴を分野判定の特徴として使用できないことが考えられる。

例えば、“ＮＡＴＯ首脳会議、イラク攻撃に対する各国間の．．．”のような未知文書を分類することを考える。単語を特徴とした場合、単語“ＮＡＴＯ”は、一般的に“国際”や“軍事”等に関するものである。しかしながら、従来の分類方法を用いた場合は、正解文書中に単語“ＮＡＴＯ”が出現していなければ、単語“ＮＡＴＯ”はこの文書を分類する特徴としてまったく寄与しなくなる。正解文書が少ない場合には、このように、未知文書に出現する特徴が正解文書に出現しないという場合が多くなる。

また、上述した従来の方法のうち、連言やリンク情報等を特徴として加えて分類を行う方法を採用したとしても、正解文書が少ない場合には未知文書に出現する特徴が正解文書に出現しないので、問題の解決にはならない。

さらに、上述した従来の方法のうち、シソーラス辞書を用いた方法は、未知文書の特徴のうち正解文書に出現しない単語を特徴として分野判定に寄与させることができるという点で優れているが、シソーラス辞書に登録されていない単語が分類対象の未知文書に出現した場合には無力である。この場合に対処するためには大規模なシソーラス辞書を準備する必要があるが、そのコストは非常に高くつく。

このように、従来の文書分類方法では、正解文書が少量しかない場合には未知文書に出現する特徴が正解文書に出現しにくいため、分類精度が低い、あるいは、精度を上げるためにコストのかかる辞書作成が必要になる等の問題がある。
Thorsten Joachims,"Text Categorization with Support Vector Machines:Learning with Many Relevant Features",［online］, In Proceedings of the European Conference on Machine Learning, Springer, 1998,［２００３年２月１７日検索］, インターネット＜ＵＲＬ：http://www.cs.cornell.edu/People/tj/publications/joachims_98a.pdf＞特開平０９−０２６９６３号公報特開２０００−２５０９１６号公報特開平１１−３１６７６３号公報特開平１０−１１６２９０号公報特開２０００−１８１９３６号公報国際公開第９９／１４６９０号パンフレット特開平１０−２５４８９９号公報特開平１１−０３９３１３号公報

本発明の課題は、コストのかかる大規模なシソーラス辞書等を用意することなく、正解事例が少量の場合にも高い精度で事例を分類することができる事例分類装置およびその方法を提供することである。

本発明の第１の局面において、第１の事例分類装置は、格納部、入力部、特徴抽出部、相関付与部、分野判定器、および出力部を備える。格納部は、第１のカテゴリ体系の各カテゴリに分類された事例集合から抽出された各特徴と第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を登録した相関辞書と、事例を第２のカテゴリ体系のカテゴリに分類するための分類ルールを格納する。入力部は、未知事例を入力する。特徴抽出部は、未知事例から特徴を抽出する。相関付与部は、相関辞書を参照して、未知事例から抽出された特徴と第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、取得した情報を未知事例から抽出された特徴に付加する。分野判定器は、関連の強さを表す情報が付加された未知事例の特徴を用いて、分類ルールにより未知事例を第２のカテゴリ体系
のカテゴリに分類する。出力部は、未知事例の分類結果を出力する。

本発明の第２の局面において、第１の事例分類装置は、上記相関辞書を生成する相関抽出部をさらに備える。特徴抽出部は、第１のカテゴリ体系の各カテゴリに分類された事例集合から特徴を抽出し、相関抽出部は、事例集合から抽出された特徴と第１のカテゴリ体系の各カテゴリとの関連の強さを計算して、相関辞書を生成する。

本発明の第３の局面において、第１の事例分類装置は、上記分類ルールを生成する分類ルール生成器をさらに備える。特徴抽出部は、第２のカテゴリ体系に対する正解事例から特徴を抽出し、相関付与部は、上記相関辞書を参照して、正解事例から抽出された特徴と第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、取得した情報を正解事例から抽出された特徴に付加する。分類ルール生成器は、関連の強さを表す情報が付加された正解事例の特徴を用いて、分類ルールを生成する。

本発明の第４の局面において、第２の事例分類装置は、格納部、入力部、特徴抽出部、判定結果付与部、分野判定器、および出力部を備える。格納部は、事例を第１のカテゴリ体系のカテゴリに分類するための第１の分類ルールと、事例を第２のカテゴリ体系のカテゴリに分類するための第２の分類ルールを格納する。入力部は、未知事例を入力する。特徴抽出部は、未知事例から特徴を抽出する。判定結果付与部は、未知事例から抽出された特徴および第１の分類ルールを用いて、未知事例が第１のカテゴリ体系の各カテゴリに属する確信度を判定し、確信度の情報を未知事例から抽出された特徴に付加する。分野判定器は、確信度の情報が付加された未知事例の特徴を用いて、第２の分類ルールにより未知事例を第２のカテゴリ体系のカテゴリに分類する。出力部は、未知事例の分類結果を出力
する。

本発明の第５の局面において、第２の事例分類装置は、上記第２の分類ルールを生成する分類ルール生成器をさらに備える。特徴抽出部は、第２のカテゴリ体系に対する正解事例から特徴を抽出し、判定結果付与部は、正解事例から抽出された特徴および第１の分類ルールを用いて、正解事例が第１のカテゴリ体系の各カテゴリに属する確信度を判定し、確信度の情報を正解事例から抽出された特徴に付加する。分類ルール生成器は、確信度の情報が付加された正解事例の特徴を用いて、第２の分類ルールを生成する。

以下、図面を参照しながら、本発明の実施の形態を詳細に説明する。
本実施形態では、あるカテゴリ体系へ事例を分類する際に、別のカテゴリ体系へ分類された事例の特徴の出現パターンやそのカテゴリ体系への分類ルールを利用することで、正解事例が少量の場合にも高い精度で分類を行う。以下では、主として文書を分類する場合の実施形態について説明する。

図１０は、本実施形態の文書分類システムの構成図である。図１０の文書分類システムは、特徴抽出部２０１、相関抽出部２０２、分類ルール生成部２０３、および分野判定部２０４を備える。分類ルール生成部２０３は、特徴抽出部２０１、相関付与部２０５、および分類ルール生成器２０６を含み、分野判定部２０４は、特徴抽出部２０１、相関付与部２０５、および分野判定器２０７を含む。

この文書分類システムの目的は、未知文書２１５をカテゴリ体系Ｓのカテゴリ（α，β，γ）に分類することである。そのために、別のカテゴリ体系Σの各カテゴリ（Ａ，Ｂ，Ｃ，Ｄ）に分類されている文書の集合２１１の情報を用いる。

まず、特徴抽出部２０１は、文書集合２１１の各文書から特徴を抽出し、相関抽出部２０２は、その特徴とカテゴリ体系Σの各カテゴリとの関連の強さを計算して、特徴−カテゴリ相関辞書２１２に登録する。

次に、分類ルール生成部２０３は、特徴−カテゴリ相関辞書２１２に登録された情報を参照しながら、正解文書の集合２１３から分類ルール２１４を生成する。このとき、各正解文書に出現した特徴に応じて、上記関連の強さの評価値を特徴として各正解文書に付与した後に、分類ルール２１４を生成する。

そして、分野判定部２０４は、特徴−カテゴリ相関辞書２１２に登録された情報を参照しながら、分類ルール２１４を用いて、未知文書２１５をカテゴリ体系Ｓのカテゴリに分類し、未知文書２１５がそれぞれのカテゴリに属する確信度２１６を求める。このとき、未知文書２１５に出現した特徴に応じて、上記関連の強さの評価値を特徴として未知文書２１５に付与した後に、分類ルール２１４を用いて未知文書２１５を分類する。

このような特徴−カテゴリ相関辞書２１２を用いることにより、未知文書２１５に出現したが正解文書２１３に現れなかった特徴ｆは、カテゴリ体系Σのいずれかのカテゴリと相関を持っていれば、分類のための特徴として間接的に使用することができる。ここで、文書集合２１１に特徴ｆが現れていれば、大抵の場合、特徴ｆはカテゴリ体系Σのカテゴリと相関を持っており、この特徴を分類に使用することができる。

図９に示した従来の分類方法では、未知文書をカテゴリ体系Ｓのカテゴリに分類する際に、同じカテゴリ体系Ｓに分類されたデータしか用いていない。このため、未知文書を分類ルールを用いて分類する際には、正解文書に現れた特徴しか用いることができない。

例えば、“ＮＡＴＯ首脳会議、イラク攻撃に対する各国間の．．．”のような文書を省庁のカテゴリ体系Ｓの中のカテゴリ“Ｓ：防衛庁”へ分類したいとする。従来の分類方法であれば、防衛庁の正解文書に“ＮＡＴＯ”という単語が出現していないと、この特徴“ＮＡＴＯ”を手がかりとして用いることができなかった。

これに対して、本実施形態の分類方法では、省庁のカテゴリ体系Ｓとは別のニュースのカテゴリ体系Σに分類された文書の情報を使用することができる。例えば、カテゴリ体系Σのカテゴリに大量のニュースが分類されているとし、“ＮＡＴＯ”、“自衛隊”、“防衛”等の単語がカテゴリ“Σ：国際”や“Σ：軍事”との相関が強いとする。

この場合、単語“自衛隊”および“防衛”がカテゴリ“Ｓ：防衛庁”の正解文書中に現れていれば、“Σ：国際”や“Σ：軍事”と相関の強い単語が現れる文書を“Ｓ：防衛庁”に分類するような分類ルールを生成することができる。“ＮＡＴＯ首脳会議、イラク攻撃に対する各国間の．．．”の文書は単語 “ＮＡＴＯ”を含み、この単語は“Σ：国際”や“Σ：軍事”と相関が強いので、この文書は希望通り“Ｓ：防衛庁”に分類されることになる。

次に、図１１から図２０までを参照しながら、図１０の文書分類システムが行う処理をより詳細に説明する。以下の説明では、文書分類の具体例として、少量のプレスリリースの文書から分類ルールを作成するために、特許分類を利用する場合を考える。情報通信関連のプレスリリースのカテゴリ（カテゴリ体系Ｓ）としては、以下のようなものが考えられる。
ｉ）パソコン
ｉｉ）サーバ
ｉｉｉ）周辺機器
ｉｖ）モバイル製品
ｖ）ソフトウェア
ｖｉ）ストレージ
ｖｉｉ）電子デバイス
ｖｉｉｉ）ネットワーク製品
ｉｖ）ソリューション
ｘ）ニフティ（登録商標）
また、特許分類のカテゴリ（カテゴリ体系Σ）としては、例えば、以下のようなＩＰＣ（International Patents Classification）コードがある。
Ａ生活必需品
Ｂ処理操作；運輸
Ｃ化学；冶金
Ｄ繊維；紙
Ｅ固定構造物
Ｆ機械工学；照明；加熱；武器；爆破
Ｇ物理学
Ｈ電気（Ｈ０１，Ｈ０２，Ｈ０３，．．．）
図１１は、特徴−カテゴリ相関辞書生成処理のフローチャートである。この処理では、あらかじめ用意された文書集合２１１を用いて、文書の特徴とカテゴリの関連性が定量化される。このとき、相関抽出部２０２は、過去に分類された文書から生成した特徴ベクトルとカテゴリのペアを入力として用いて、特徴−カテゴリ相関辞書２１２を生成する。

まず、特徴抽出部２０１は、図１に示したような処理により、各文書から特徴を抽出して、文書を特徴ベクトルの形式に変換する（ステップＳ１）。例えば、特徴として単語を抽出する場合は、公知の形態素解析等の技術が用いられ、特徴ベクトルとして単語ベクトルが生成される。また、著者名や、作成年月日、リンクしている文書の情報、リンクされている文書の情報等、他の情報を特徴として抽出してもよい。

次に、相関抽出部２０２は、抽出された各特徴とカテゴリ体系Σの各カテゴリとの関連の強さを表すスコアを計算する（ステップＳ２）。スコアとしては、相関係数、相互情報量基準、情報量利得基準、カイ２乗検定基準等の指標が用いられる。例えば、相関係数を用いる場合は、カテゴリｃと特徴ｗの相関係数ｒｃｗが次式により計算される。

ここで、ｎは全文書数を表し、ｘ_wiはｉ番目の文書に特徴ｗが出現していれば１となり、出現していなければ０となる変数であり、_wは特徴ｗの平均出現数を表す。また、ｙ_ciはｉ番目の文書にカテゴリｃが付与されていれば１となり、付与されていなければ０となる変数であり、_cはカテゴリｃの平均付与率を表す。

相関抽出部２０２は、得られた各スコアを特徴−カテゴリ相関辞書２１２に保存する（ステップＳ３）。
図１２は、こうして生成された特徴−カテゴリ相関辞書２１２の例を示している。この例では、ｉ番目の特徴ｗｉ（ｉ＝１，２，３，．．．）とｊ番目のカテゴリｃｊ（ｊ＝１，２，３，．．．）の関連の強さを表すスコアが、ｓｃｏｒｅｉ，ｊのように表現されている。

上述の特許分類のカテゴリを用いた場合、特徴−カテゴリ相関辞書２１２は図１３のようになる。図１３の特徴−カテゴリ相関辞書では、例えば、“肥料”という単語とカテゴリ“Ａ生活必需品”の関連の強さは０．７である。

図１４は、分類ルール生成部２０３の処理を示している。この処理では、あらかじめ用意された文書集合２１３を教師事例とする学習が行われ、分類ルール２１４が生成される
。

まず、分類ルール生成部２０３内の特徴抽出部２０１により、正解文書の集合２１３から特徴ベクトル２２１が生成され、相関付与部２０５に渡される。次に、相関付与部２０５は、特徴−カテゴリ相関辞書２１２を参照して、対象とする文書に対して新たな特徴ベクトル２２２を生成する。

次に、元の特徴ベクトル２２１と、相関付与部２０５によって生成された特徴ベクトル２２２とを統合した特徴ベクトル２２３が、分類ルール生成器２０６に渡される。そして、分類ルール生成器２０６は、特徴ベクトル２２３とカテゴリのペアを入力として用いて、図４に示したような処理により、分類ルール２１４を生成する。

図１５は、相関付与部２０５の処理を示している。相関付与部２０５は、特徴ベクトル２２１を入力として用い、特徴−カテゴリ相関辞書２１２の情報を新たな特徴ベクトル２２２として特徴ベクトル２２１に付与する。

図１６は、分類ルール生成部２０３により行われる分類ルール生成処理のフローチャートである。まず、特徴抽出部２０１は、文書集合２１３の各文書から特徴を抽出して、文書を特徴ベクトル２２１に変換する（ステップＳ１１）。

次に、相関付与部２０５は、特徴−カテゴリ相関辞書２１２に登録された特徴のうち、文書に出現した特徴ｗｉに対応するカテゴリ毎のスコアｓｃｏｒｅｉ，ｊを、特徴−カテゴリ相関辞書２１２から取得する（ステップＳ１２）。そして、スコアｓｃｏｒｅｉ，ｊを用いてカテゴリ毎の評価値を計算する（ステップＳ１３）。

特徴−カテゴリ相関辞書２１２のカテゴリｃｊに対する評価値ｐｊは、その文書がカテゴリ体系Σのカテゴリｃｊに属する確信度を表している。このｐｊは、例えば、文書中における特徴ｗｉの出現数ｆｉを重みとして用いて、次式のような重み付き加算により求められる。

ｐｊ＝ｆ１×ｓｃｏｒｅ１，ｊ＋ｆ２×ｓｃｏｒｅ２，ｊ＋
ｆ３×ｓｃｏｒｅ３，ｊ＋．．．（２）

ただし、評価値の計算方法は（２）式に限られるわけではなく、スコアｓｃｏｒｅｉ，ｊを用いた他の方法で計算してもよい。

相関付与部２０５は、カテゴリ毎の評価値を要素とする特徴ベクトル２２２（評価値ベクトル）を生成し、それを元の特徴ベクトル２２１と統合して新たな特徴ベクトル２２３を生成する（ステップＳ１４）。例えば、元の特徴ベクトル２２１として、図７のような単語ベクトルが抽出された場合、特徴ベクトル２２２として、図１７のような評価値ベクトルが生成される。

次に、分類ルール生成器２０６は、特徴ベクトル２２３を用いて学習を行い、分類ルール２１４を生成する（ステップＳ１５）。
実際には、分類ルールに用いられるカテゴリ判別方法には様々な方法があり、分類ルールを学習する方法にも様々な方法がある。したがって、どのようなカテゴリ判別方法や学習方法を採用するかは任意である。カテゴリ判別方法として線形判別を用いることで文書がカテゴリαに属するか否かを判別する分類ルールでは、以下のような値が用いられる。

ｐ＝ａ₁ｘ₁＋ａ₂ｘ₂＋．．．＋ａ_nｘ_n＋ａ₀ （３）

ここで、ａ_iはｉ番目の特徴の係数であり、ｘ_iはｉ番目の特徴が文書にあれば１となり、なければ０となる変数であり、ｎはすべての特徴の数である。（３）の値ｐがあらかじめ決められたしきい値（通常は０等）以上であれば、その文書はカテゴリαに属すると判定され、ｐがしきい値に満たなければ、その文書はカテゴリαに属さないと判定される。

また、文書があるカテゴリに属するか否かを判別するための分類ルールを重心に基づく線形判別ルール生成法により作成する場合は、ステップＳ１１において、それぞれの文書がｘ₁，．．．，ｘ_nという特徴ベクトルで表現され、ステップＳ１４において、特徴ベクトル２２３はｘ₁，．．．，ｘ_n，ｘ_c1，．．．，ｘ_cmのようになる。ここで、_ｘc1，．．．，ｘ_cmは、ステップＳ１３で計算されたカテゴリ毎の評価値である。

そして、ステップＳ１５において、分類ルール生成器２０６は、文書集合２１３の文書のうち、あるカテゴリに属する文書群の重心ｃ_posiと属さない文書群の重心ｃ_negaをそれぞれ求め、重心ｃ_posiとｃ_negaの垂直２等分面を求める。これらの重心は、特徴ベクトル空間内の点として表現される。垂直２等分面は、次式により表現される。

ここで、ｘ_posi,iとｘ_nega,iは、それぞれｃ_posiとｃ_negaのｉ番目の座標値である。（４）式の左辺は（３）式の右辺と同じ形になっている。したがって、分類対象の文書の特徴ベクトルをｘ_iとして（４）式の右辺により値ｐを計算すれば、その文書があるカテゴリに属するか否かを判別することができる。

図１８は、分野判定部２０４の処理を示している。まず、分野判定部２０４内の特徴抽出部２０１により、未知文書２１５から特徴ベクトル２３１が生成され、相関付与部２０５に渡される。次に、相関付与部２０５は、特徴−カテゴリ相関辞書２１２を参照して、未知文書２１５に対して新たな特徴ベクトル２３２を生成する。

次に、元の特徴ベクトル２３１と、相関付与部２０５によって生成された特徴ベクトル２３２とを統合した特徴ベクトル２３３が、分野判定器２０７に渡される。分野判定器２０７は、特徴ベクトル２３３を入力として用い、分類ルール２１４により分類を行って、それぞれのカテゴリに対する確信度２１６を出力する。

図１９は、分野判定部２０４により行われる分野判定処理のフローチャートである。まず、特徴抽出部２０１は、未知文書２１５から特徴を抽出して、未知文書２１５を特徴ベクトル２３１に変換する（ステップＳ２１）。

次に、相関付与部２０５は、特徴−カテゴリ相関辞書２１２に登録された特徴のうち、未知文書２１５に出現した特徴ｗｉに対応するカテゴリ毎のスコアｓｃｏｒｅｉ，ｊを、特徴−カテゴリ相関辞書２１２から取得する（ステップＳ２２）。そして、スコアｓｃｏｒｅｉ，ｊを用いてカテゴリ毎の評価値を計算する（ステップＳ２３）。

次に、相関付与部２０５は、カテゴリ毎の評価値を要素とする特徴ベクトル２３２（評価値ベクトル）を生成し、それを元の特徴ベクトル２３１と統合して新たな特徴ベクトル２３３を生成する（ステップＳ２４）。

次に、分野判定器２０７は、特徴ベクトル２３３を用いて分野判定を行い、カテゴリに対する確信度２１６を求める（ステップＳ２５）。
例えば、上述した線形判別に基づく分類ルールを用いて、未知文書２１５がカテゴリαに属するか否かを判別する場合は、ステップＳ２１において、未知文書２１５がｘ₁，．．．，ｘ_nという特徴ベクトルで表現され、ステップＳ２４において、特徴ベクトル２３３はｘ₁，．．．，ｘ_n，ｘ_c1，．．．，ｘ_cmのようになる。

そして、ステップＳ２５において、分野判定器２０７は、（３）式により値ｐを計算し、ｐがしきい値以上であれば、未知文書２１５はカテゴリαに属すると判定し、ｐがしきい値に満たなければ未知文書２１５はカテゴリαに属さないと判定する。この場合、未知文書２１５がカテゴリαに属する確信度は、例えば、ｐの値に基づいて計算される。

次に、図１０の文書分類システムが行う処理の具体例を、従来の分類方法と比較しながら説明する。
未知文書が前述したプレスリリースのカテゴリ“ｖｉｉ）電子デバイス”（カテゴリ体系Ｓ）に属する（プレスリリースカテゴリ“電子デバイス”）か、属さない（プレスリリースカテゴリ“Ｎｏｔ電子デバイス”）かの分類を自動的に行う目的で、特許分類のカテゴリ“Ｈ電気”の“Ｈ０１Ｌ半導体装置”（カテゴリ体系Σ）に属する文書（特許カテゴリ“半導体装置”）と属さない文書（特許カテゴリ“Ｎｏｔ半導体装置”）の情報を利用する場合を考える。

例えば、情報通信関連企業のプレスリリースで、新しく“当社はデュアルオペレーションフラッシュメモリの販売を開始しました”という文書がリリースされたとする。これをプレスリリースカテゴリ“電子デバイス”に属するように自動的に分類できることが望ましい。

従来の分類方法では、“デュアルオペレーションフラッシュメモリ”が教師事例に含まれていない限り、カテゴリ“電子デバイス”にうまく分類することはできなかった。その原因は、この文章中にはプレスリリースカテゴリ“電子デバイス”の特徴になり得る単語がこの“デュアルオペレーションフラッシュメモリ”しかないためであると考えられる。上述した線形判別を用いた場合、従来の分類ルール生成処理は、以下の通りである。
１．教師事例（以前のプレスリリース）として、カテゴリ“電子デバイス”に属する文書と属さない文書とを、それぞれ用意する。
２．教師事例から単語を抜き出し、それを特徴として、それぞれの文書をｘ₁ ，．．．，ｘ_nというｎ次元の特徴ベクトルで表現する。
３．２で得られた特徴ベクトルを用いて学習を行い、プレスリリースカテゴリ“電子デバイス”に属する文書群の重心ｃ_posiとプレスリリースカテゴリ“Ｎｏｔ電子デバイス”に属する文書群の重心ｃ_negaをそれぞれ求める。
４．重心ｃ_posiとｃ_negaの垂直２等分面を求める。
５．得られた垂直２等分面の式が、分類ルールの線形判別の式となる。

この場合、従来の分野判定処理は、以下の通りである。
１．未知文書“当社はデュアルオペレーションフラッシュメモリの販売を開始しました”から単語を抜き出し、この文書をｘ₁，．．．，ｘ_nという特徴ベクトルで表現する。
２．（３）式により値ｐを求める。
３．ｐがあらかじめ決められたしきい値以上か否かを判定する。この文章には特徴として利用できる単語がないので、プレスリリースカテゴリ“電子デバイス”に属さないと判定される。

これに対して、図１０の文書分類システムによれば、次のようにして上記未知文書をプレスリリースカテゴリ“電子デバイス”に分類することができる。まず、特徴−カテゴリ相関辞書生成処理は、以下の通りである。
１．特許文書で特許カテゴリ“半導体装置”に属する文書と属さない文書を、それぞれ用意する。
２．特徴抽出部２０１は、それぞれの文書の特徴として単語を抽出する。
３．相関抽出部２０２は、抽出されたすべての単語に対して、特許カテゴリ“半導体装置”との関連の強さを相関係数等に基づき計算し、特徴−カテゴリ相関辞書２１２を生成する。相関係数を用いた場合、例えば、図２０のような特徴−カテゴリ相関辞書が得られる。
４．相関抽出部２０２は、生成された特徴−カテゴリ相関辞書２１２を保存する。

次に、分類ルール生成処理は、以下の通りである。
１．教師事例（企業の以前のプレスリリース）のうち、プレスリリースカテゴリ“電子デバイス”に属する文書と属さない文書を、それぞれ用意する。
２．分類ルール生成部２０３内の特徴抽出部２０１は、教師事例から単語を抜き出し、それを特徴として、それぞれの文書をｘ₁，．．．，ｘ_nという特徴ベクトルで表現する。
３．相関付与部２０５は、それぞれの文書に対して、文書中に出現した単語毎に特徴−カテゴリ相関辞書２１２を参照することで、各単語と各特許カテゴリの関連の強さを表すスコアを取得する。

例えば、以前のプレスリリースで既にプレスリリースカテゴリ“電子デバイス”に属すると分かっている“メモリ搭載１６ビットＣＡＮ内蔵マイコン新発売”という文書があったとする。この文書では“メモリ”および“マイコン”という単語が、図２０の特徴−カテゴリ相関辞書の単語に該当し、これらの単語と特許カテゴリ“半導体装置”との関連の強さを表すスコア（相関係数）は、それぞれ０．５および０．４であることが分かる。
４．相関付与部２０５は、文書毎に３で得られたスコアの重み付き加算を行って、カテゴリ毎の評価値を求める。上述の文書の場合、カテゴリ“半導体装置”に対する評価値は、次式のように計算される。

“半導体装置”：１×０．５＋１×０．４＝０．９

ここで計算された評価値を、特許カテゴリ“半導体装置”に対する帰属度スコアと呼ぶことにする。
５．相関付与部２０５は、４で得られた帰属度スコアを特徴ベクトルに加えて、新たな特徴ベクトルを生成する。特徴ベクトルはｘ₁，．．．，ｘ_n，ｘ_c1，．．．，ｘ_cmのようになる。ここでは、例えば、ｘ_c1が特許カテゴリ“半導体装置”に対する帰属度スコアを表すものとする。
６．分類ルール生成器２０６は、相関付与部２０５が生成した特徴ベクトルを用いて学習を行い、プレスリリースカテゴリ“電子デバイス”に属する文書群の重心ｃ_posiとプレスリリースカテゴリ“Ｎｏｔ電子デバイス”に属する文書群の重心ｃ_negaをそれぞれ求める。

このとき、プレスリリースカテゴリ“電子デバイス”に出現する単語の多くが特許カテゴリ“半導体装置”に出現し、プレスリリースカテゴリ“Ｎｏｔ電子デバイス”に出現する単語の多くが特許カテゴリ“半導体装置”に出現しないとすれば、分類ルール生成器２０６は、以下の理由により“半導体装置”に対する帰属度スコアが高い文書をプレスリリースカテゴリ“電子デバイス”に分類する分類ルールを生成する。
・プレスリリースカテゴリ“電子デバイス”に属する多くの文書の特許カテゴリ“半導体装置”に対する帰属度スコアは大きくなる。つまり、多くの文書のｘ_c1の値が、例えば、１に近い大きな値をとる。上述した“メモリ搭載１６ビットＣＡＮ内蔵マイコン新発売”という文書の場合、この帰属度スコアは０．９である。
・一方、プレスリリースカテゴリ“Ｎｏｔ電子デバイス”に属する多くの文書の特許カテゴリ“半導体装置”に対する帰属度スコアは小さくなる。つまり、多くの文書のｘ_c1の値が、例えば、−１に近い小さな値をとる。例えば、“Ｎｏｔ電子デバイス”に属する“魚介の冷蔵運搬法に関する特許”という文書では、図２０の特徴−カテゴリ相関辞書の相関係数として−０．７（冷蔵）および−０．３（運搬）が取得され、“半導体装置”に対する帰属度スコアは、次式のように計算される。

“半導体装置”：１×（−０．７）＋１×（−０．３）＝−１．０

・こうして、プレスリリースカテゴリ“電子デバイス”に属する文書群の重心ｃ_posiの座標値のうち、特許カテゴリ“半導体装置”に対する帰属度スコアｘ_c1の値は大きくなる。
・一方、プレスリリースカテゴリ“Ｎｏｔ電子デバイス”に属する文書群の重心ｃ_negaの座標値のうち、特許カテゴリ“半導体装置”に対する帰属度スコアｘ_c1の値は小さくなる。
７．分類ルール生成器２０６は、重心ｃ_posiとｃ_negaの垂直２等分面を求める。このとき、ｘ_c1の値は、上述したように、プレスリリースカテゴリ“電子デバイス”に属する文書群では大きく、プレスリリースカテゴリ“Ｎｏｔ電子デバイス”に属する文書群では小さいことから、垂直２等分面は、特許カテゴリ“半導体装置”に対する帰属度スコアが大きな文書をプレスリリースカテゴリ“電子デバイス”に分類するように、特徴ベクトル空間を分割するような面になる。

次に、分野判定処理は、以下の通りである。
１．分野判定部２０４内の特徴抽出部２０１は、未知文書“当社はデュアルオペレーションフラッシュメモリの販売を開始しました”から単語を抜き出し、この文書をｘ₁，．．．，ｘ_nという特徴ベクトルで表現する。
２．相関付与部２０５は、抽出された単語をキーとして特徴−カテゴリ相関辞書２１２を引く。図２０の特徴−カテゴリ相関辞書を用いた場合、未知文書に“デュアルオペレーションフラッシュメモリ”が出現することから、この未知文書の特許カテゴリ“半導体装置”に対する帰属度スコアは、次式のように計算される。

“半導体装置”：１×０．９３＝０．９３

４．相関付与部２０５は、３で得られた帰属度スコアを特徴ベクトルに加えて、新たな特徴ベクトルを生成する。特徴ベクトルはｘ₁，．．．，ｘ_n，ｘ_c1，．．．，ｘ_cmのようになる。
５．分野判定器２０７は、（３）式により値ｐを求める。
６．ｐがあらかじめ決められたしきい値以上か否かを判定する。４で得られた特徴ベクトルの要素のうち、特許カテゴリ“半導体装置”に対する帰属度スコアを表すｘ_c1が０．９３という大きな値をとるため、ｐはしきい値以上となる。こうして、未知文書はプレスリリースカテゴリ“電子デバイス”に自動的に分類される。

このように、図１０の文書分類システムによれば、教師事例以外のカテゴリ化された文書集合から生成された特徴−カテゴリ相関辞書と、その辞書を参照して生成された分類ルールとを用いることで、教師事例に含まれていない単語を未知文書の特徴として使用することができ、未知文書を正しいカテゴリに分類することが可能となる。

次に、図１０の文書分類システムが行う処理の他の具体例を説明する。
分類対象となる文書が社内の技術文書であり、そのカテゴリ（カテゴリ体系Ｓ）は“ソフトウェア”、“デバイス”、“情報処理”、“通信”、および “金融”の５つであるとする。大量の技術文書をこれらの５つのカテゴリに分類することを目的として、これらのカテゴリに分類された少量の文書を教師事例として用意する。さらに、別のカテゴリ体系Σによりカテゴリ化された文書集合として、上述した特許分類のカテゴリに分類された大量の特許文書が存在するものとする。まず、特徴−カテゴリ相関辞書生成処理は、以下の通りである。
１．特徴抽出部２０１は、それぞれの特許文書の特徴として単語を抽出する。例えば、図２のような文書の場合、図３のような特徴ベクトルが生成される。
２．相関抽出部２０２は、抽出されたすべての単語に対して、各特許カテゴリとの関連の強さを相関係数等に基づき計算し、特徴−カテゴリ相関辞書２１２を生成する。これにより、例えば、図１３のような特徴−カテゴリ相関辞書が得られる。
３．相関抽出部２０２は、生成された特徴−カテゴリ相関辞書２１２を保存する。

次に、分類ルール生成処理は、以下の通りである。
１．分類ルール生成部２０３内の特徴抽出部２０１は、教師事例から単語を抜き出し、それを特徴として、それぞれの文書を特徴ベクトルで表現する。そして、文書の特徴ベクトルとカテゴリのペアの集合を出力する。例えば、“パソコン用帳票作成ソフトを新発売。当社は．．．”のような文書は、（“パソコン”：２，“帳票”：５，“ソフト”：３，．．．）のような特徴ベクトルと“ソフトウェア”のようなカテゴリのペアに変換される。
２．相関付与部２０５は、それぞれの文書に対して、文書中に出現した単語毎に特徴−カテゴリ相関辞書２１２を参照することで、各単語と各特許カテゴリの関連の強さを表すスコアを取得する。そして、スコアの重み付き加算を行って、カテゴリ毎の評価値を求める。これにより、例えば、図１７のようなカテゴリ毎の評価値が得られる。
３．相関付与部２０５は、２で得られた評価値を特徴ベクトルに加えて、新たな特徴ベクトルを生成する。これにより、例えば、（“パソコン”：２，“帳票”：５，“ソフト”：３，．．．，“生活必需品”：１．１，“処理操作；運輸”：２．７，．．．）のような特徴ベクトルが生成される。
４．分類ルール生成器２０６は、相関付与部２０５が生成した特徴ベクトルと特徴抽出部２０１が出力したカテゴリのペアの集合を用いて学習を行い、分類ルール２１４を生成する。例えば、各カテゴリに属する文書群毎に重心を求め、隣接する２つの重心の垂直２等分面を順次計算することで特徴ベクトル空間を分割すれば、分類ルールを生成することができる。

次に、分野判定処理は、以下の通りである。
１．分野判定部２０４内の特徴抽出部２０１は、未知文書２１５から単語を抜き出し、この文書を特徴ベクトルで表現する。例えば、“操作が簡単なスキャナーを販売。方式は従来の光学的．．．”という未知文書が入力された場合、（“操作”：３，“光学”：２，“スキャナー”：８，．．．）のような特徴ベクトルが生成される。
２．相関付与部２０５は、抽出された単語をキーとして特徴−カテゴリ相関辞書２１２を引き、カテゴリ毎の評価値を求める。図１３の特徴−カテゴリ相関辞書を用いた場合、例えば、（“生活必需品”：０．８，“処理操作；運輸”：０．３，．．．）のようなカテゴリ毎の評価値が得られる。
３．相関付与部２０５は、２で得られた評価値を特徴ベクトルに加えて、新たな特徴ベクトルを生成する。これにより、例えば、（“操作”：３，“光学”：２，“スキャナー”：８，．．．，“生活必需品”：０．８，“処理操作；運輸”：０．３，．．．）のような特徴ベクトルが生成される。
４．分野判定器２０７は、相関付与部２０５が生成した特徴ベクトルを元に、分類ルール２１４を用いて分野判定を行う。

“操作が簡単なスキャナーを販売。方式は従来の光学的．．．”という未知文書を分類する際、“光学”という単語が教師事例となる少量の正解文書に出現しないとすると、従来の分類方法では、この単語は分類ルールに反映されないため、まったく分類の手がかりにはならない。

この未知文書を技術カテゴリ“ソフトウェア”に分類したい場合、図１０の文書分類システムによれば、以下のような処理が可能となる。
まず、相関抽出部２０２は、大量の特許文書を元に、“パソコン”，“ソフト”，“光学”等の単語が特許カテゴリ“電気”との関連が強いことを示すスコアを計算し、それを特徴−カテゴリ相関辞書２１２に出力する。

次に、分類ルール生成部２０３内の相関付与部２０５は、少量の正解文書中に“パソコン”，“ソフト”，“光学”等の単語が出現した場合、特徴−カテゴリ相関辞書２１２を用いて、特許カテゴリ“電気”に対する帰属度スコアが大きくなるような特徴ベクトルを生成する。そして、分類ルール生成器２０６は、この特徴ベクトルを入力として用いて、特許カテゴリ“電気”に対する帰属度スコアが大きな値を持つ文書を技術カテゴリ“ソフトウェア”に分類する分類ルール２１４を生成する。

次に、分野判定部２０４内の相関付与部２０５は、“操作が簡単なスキャナーを販売。方式は従来の光学的．．．”という未知文書に“光学”という単語が出現するので、特徴−カテゴリ相関辞書２１２の情報に従って、特許カテゴリ“電気”に対する帰属度スコアが大きくなるような特徴ベクトルを生成する。そして、分野判定器２０７は、分類ルール２１４に従って、この特徴ベクトルを有する未知文書を、技術カテゴリ“ソフトウェア”に分類する。

以上説明した実施形態では、分類に用いるカテゴリ体系Ｓとは別のカテゴリ体系Σに分類された文書集合から特徴−カテゴリ相関辞書を生成し、この辞書を分類ルール生成と分野判定に利用している。しかし、特徴−カテゴリ相関辞書の代わりに、カテゴリ体系Σにおける分類ルールそのものを生成し、それを用いてカテゴリ体系Ｓにおける分類ルールを生成して、分野判定を行うことも可能である。

図２１は、このような文書分類システムの構成図である。図２１の文書分類システムは、特徴抽出部２０１、分類ルール生成器２４１、分類ルール生成部２４２、および分野判定部２４３を備える。分類ルール生成部２４２は、特徴抽出部２０１、判定結果付与部２４４、および分類ルール生成器２０６を含み、分野判定部２４３は、特徴抽出部２０１、判定結果付与部２４４、および分野判定器２０７を含む。

このうち、特徴抽出部２０１、分類ルール生成器２０６、および分野判定器２０７が行う処理については、図１０の文書分類システムと同様である。分類ルール生成器２４１は、分類ルール生成器２０６と同様にして、文書集合２１１の各文書の特徴とカテゴリのペアから分類ルール２５１を生成する。

次に、分類ルール生成部２４２は、分類ルール２５１を参照しながら、正解文書の集合２１３から分類ルール２５２を生成する。このとき、各正解文書に出現した特徴を用いて分類ルール２５１により分野を判定した結果を、特徴として各正解文書に付与した後に、分類ルール２５２を生成する。

そして、分野判定部２４３は、分類ルール２５１を参照しながら、分類ルール２５２により、未知文書２１５をカテゴリ体系Ｓのカテゴリに分類し、未知文書２１５がそれぞれのカテゴリに属する確信度２１６を求める。このとき、未知文書２１５に出現した特徴を用いて分類ルール２５１により分野を判定した結果を、特徴として未知文書２１５に付与した後に、分類ルール２５２により未知文書２１５を分類する。

このような別のカテゴリ体系Σの分類ルール２５１を用いることにより、図１０の文書分類システムと同様に、未知文書２１５に出現したが正解文書２１３に現れなかった特徴を分類に使用することができる。

図２２は、分類ルール生成部２４２の処理を示している。この処理では、あらかじめ用意された文書集合２１３を教師事例とする学習が行われ、分類ルール２５２が生成される。

まず、分類ルール生成部２４２内の特徴抽出部２０１により、正解文書の集合２１３から特徴ベクトル２２１が生成され、判定結果付与部２４４に渡される。
次に、判定結果付与部２４４は、その特徴ベクトル２２１を用いて分類ルール２５１により分類を行い、その文書がカテゴリ体系Σの各カテゴリに属する確信度を求める。そして、その確信度を要素とする特徴ベクトル２６１を生成し、特徴ベクトル２２１と特徴ベクトル２６１とを統合して新たな特徴ベクトル２６２を生成する。

次に、分類ルール生成器２０６は、特徴ベクトル２６２とカテゴリのペアを入力として用いて、分類ルール２５２を生成する。
図２３は、分野判定部２０４の処理を示している。まず、分野判定部２０４内の特徴抽出部２０１により、未知文書２１５から特徴ベクトル２３１が生成され、判定結果付与部２４４に渡される。

次に、判定結果付与部２４４は、その特徴ベクトル２３１を用いて分類ルール２５１により分類を行い、未知文書２１５がカテゴリ体系Σの各カテゴリに属する確信度を求める。そして、その確信度を要素とする特徴ベクトル２７１を生成し、特徴ベクトル２３１と特徴ベクトル２７１とを統合して新たな特徴ベクトル２７２を生成する。

次に、分野判定器２０７は、特徴ベクトル２７２を入力として用い、分類ルール２５２により分類を行って、未知文書２１５がカテゴリ体系Ｓの各カテゴリに属する確信度２１６を出力する。

以上では、文書分類システムの実施形態について説明したが、本発明はこれに限らず、他の多くの事例分類システムに適用することができる。
例えば、文字認識（optical character recognition，ＯＣＲ）においては、単語の代わりに、入力画像における所定の位置の画素の濃度や、入力画像内に特定の線素、曲線、閉曲線等が含まれるか否かという情報を特徴として用いて、入力画像を所定の文字カテゴリに分類することができる。

また、画像認識においても、単語の代わりに、入力画像における所定の位置の画素の色や濃度や、入力画像内に特定の線素や曲線が含まれるか否かという情報を特徴として用いて、入力画像を所定の画像カテゴリに分類することができる。

図１０および図２１の文書分類システムは、例えば、図２４に示すような情報処理装置（コンピュータ）を用いて構成することができる。図２４の情報処理装置は、ＣＰＵ（中央処理装置）２８１、メモリ２８２、入力装置２８３、出力装置２８４、外部記憶装置２８５、媒体駆動装置２８６、ネットワーク接続装置２８７、および事例入力装置２８８を備え、それらはバス２８９により互いに接続されている。

メモリ２８２は、例えば、ＲＯＭ（read only memory）、ＲＡＭ（random access memory）等を含み、処理に用いられるプログラムおよびデータを格納する。ＣＰＵ２８１は、メモリ２８２を利用してプログラムを実行することにより、必要な処理を行う。

図１０および図２１の特徴抽出部２０１、相関抽出部２０２、分類ルール生成部２０３、２４２、分野判定部２０４、２４３、相関付与部２０５、分類ルール生成器２０６、２４１、分野判定器２０７、および判定結果付与部２４４は、メモリ２８２に格納されたプログラムに対応する。

また、図１０および図２１の文書集合２１１、２１３、未知文書２１５、特徴−カテゴリ相関辞書２１２、および分類ルール２１４、２５１、２５２は、メモリ２８２に格納されたデータに対応する。

入力装置２８３は、例えば、キーボード、ポインティングデバイス、タッチパネル等であり、ユーザからの指示や情報の入力に用いられる。出力装置２８４は、例えば、ディスプレイ、プリンタ、スピーカ等であり、ユーザへの問い合わせや処理結果の出力に用いられる。

外部記憶装置２８５は、例えば、磁気ディスク装置、光ディスク装置、光磁気ディスク装置、テープ装置等である。情報処理装置は、この外部記憶装置２８５に、上記プログラムおよびデータを格納しておき、必要に応じて、それらをメモリ２８２にロードして使用する。外部記憶装置２８５は、図１０および図２１の文書集合２１１、２１３を格納するデータベースとしても用いられる。

媒体駆動装置２８６は、可搬記録媒体２９０を駆動し、その記録内容にアクセスする。可搬記録媒体２９０は、メモリカード、フレキシブルディスク、ＣＤ−ＲＯＭ（compact disk read only memory ）、光ディスク、光磁気ディスク等の任意のコンピュータ読み取り可能な記録媒体である。ユーザは、この可搬記録媒体２９０に上記プログラムおよびデータを格納しておき、必要に応じて、それらをメモリ２８２にロードして使用する。

ネットワーク接続装置２８７は、ＬＡＮ（local area network）、インターネット等の任意の通信ネットワークに接続され、通信に伴うデータ変換を行う。情報処理装置は、必要に応じて、上記プログラムおよびデータを外部の装置からネットワーク接続装置２８７を介して受け取り、それらをメモリ２８２にロードして使用する。

事例入力装置２８８は、文書や画像等の処理対象の事例データを入力するために用いられる。
図２５は、図２４の情報処理装置にプログラムおよびデータを供給することのできるコンピュータ読み取り可能な記録媒体を示している。可搬記録媒体２９０やサーバ２９１のデータベース２９３に格納されたプログラムおよびデータは、情報処理装置２９２のメモリ２８２にロードされる。サーバ２９１は、そのプログラムおよびデータを搬送する搬送信号を生成し、ネットワーク上の任意の伝送媒体を介して情報処理装置２９２に送信する。ＣＰＵ２８１は、そのデータを用いてそのプログラムを実行し、必要な処理を行う。

図１は、特徴抽出部を示す図である。図２は、文書の例を示す図である。図３は、特徴ベクトルの第１の例を示す図である。図４は、分類ルール生成器を示す図である。図５は、特徴ベクトルとカテゴリのペアの例を示す図である。図６は、分野判定器を示す図である。図７は、特徴ベクトルの第２の例を示す図である。図８は、確信度のリストの例を示す図である。図９は、従来の分類方法を示す図である。図１０は、本発明の第１の文書分類システムの構成図である。図１１は、特徴−カテゴリ相関辞書生成処理のフローチャートである。図１２は、特徴−カテゴリ相関辞書の構造の例を示す図である。図１３は、特徴−カテゴリ相関辞書の第１の例を示す図である。図１４は、第１の分類ルール生成部の処理を示す図である。図１５は、相関付与部の処理を示す図である。図１６は、分類ルール生成処理のフローチャートである。図１７は、評価値ベクトルの例を示す図である。図１８は、第１の分野判定部の処理を示す図である。図１９は、分野判定処理のフローチャートである。図２０は、特徴−カテゴリ相関辞書の第２の例を示す図である。図２１は、本発明の第２の文書分類システムの構成図である。図２２は、第２の分類ルール生成部の処理を示す図である。図２３は、第２の分野判定部の処理を示す図である。図２４は、情報処理装置の構成を示す図である。図２５は、記録媒体を示す図である。

Claims

第１のカテゴリ体系の各カテゴリに分類された事例集合から抽出された各特徴と該第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を登録した相関辞書と、事例を第２のカテゴリ体系のカテゴリに分類するための分類ルールを格納する格納部と、
未知事例を入力する入力部と、
前記未知事例から特徴を抽出する特徴抽出部と、
前記相関辞書を参照して、前記未知事例から抽出された特徴と前記第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、取得した情報を該未知事例から抽出された特徴に付加する相関付与部と、
前記関連の強さを表す情報が付加された前記未知事例の特徴を用いて、前記分類ルールにより前記未知事例を前記第２のカテゴリ体系のカテゴリに分類する分野判定器と、
前記未知事例の分類結果を出力する出力部と
を備えることを特徴とする事例分類装置。
前記相関辞書を生成する相関抽出部をさらに備え、前記特徴抽出部は、前記事例集合から特徴を抽出し、前記相関抽出部は、前記事例集合から抽出された特徴と前記第１のカテゴリ体系の各カテゴリとの関連の強さを計算して、前記相関辞書を生成することを特徴とする請求項１記載の事例分類装置。
前記分類ルールを生成する分類ルール生成器をさらに備え、前記特徴抽出部は、前記第２のカテゴリ体系に対する正解事例から特徴を抽出し、前記相関付与部は、前記相関辞書を参照して、前記正解事例から抽出された特徴と前記第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、取得した情報を該正解事例から抽出された特徴に付加し、前記分類ルール生成器は、前記関連の強さを表す情報が付加された前記正解事例の特徴を用いて、前記分煩ルールを生成することを特徴とする請求項１記載の事例分類装置。
事例を第１のカテゴリ体系のカテゴリに分類するための第１の分類ルールと、事例を第２のカテゴリ体系のカテゴリに分類するための第２の分類ルールを格納する格納部と、
未知事例を入力する入力部と、
前記未知事例から特徴を抽出する特徴抽出部と、
前記未知事例から抽出された特徴および前記第１の分類ルールを用いて、前記未知事例が前記第１のカテゴリ体系の各カテゴリに属する確信度を判定し、該確信度の情報を該未知事例から抽出された特徴に付加する判定結果付与部と、
前記確信度の情報が付加された前記未知事例の特徴を用いて、前記第２の分類ルールにより前記未知事例を前記第２のカテゴリ体系のカテゴリに分類する分野判定器と、
前記未知事例の分類結果を出力する出力部と
を備えることを特徴とする事例分類装置。
前記第２の分類ルールを生成する分類ルール生成器をさらに備え、前記特徴抽出部は、前記第２のカテゴリ体系に対する正解事例から特徴を抽出し、前記判定結果付与部は、前記正解事例から抽出された特徴および前記第１の分類ルールを用いて、前記正解事例が前記第１のカテゴリ体系の各カテゴリに属する確信度を判定し、該確信度の情報を該正解事例から抽出された特徴に付加し、前記分類ルール生成器は、前記確信度の情報が付加された前記正解事例の特徴を用いて、前記第２の分類ルールを生成することを特徴とする請求項４記載の事例分類装置。
第１のカテゴリ体系の各カテゴリに分類された事例集合から抽出された各特徴と該第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を登録した相関辞書と、事例を第２のカテゴリ体系のカテゴリに分類するための分類ルールを格納する格納手段と、
未知事例を入力する入力手段と、
前記未知事例から特徴を抽出する特徴抽出手段と、
前記相関辞書を参照して、前記未知事例から抽出された特徴と前記第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、取得した情報を該未知事例から抽出された特徴に付加する相関付与手段と、
前記関連の強さを表す情報が付加された前記未知事例の特徴を用いて、前記分類ルールにより前記未知事例を前記第２のカテゴリ体系のカテゴリに分類する分野判定手段と、
前記未知事例の分類結果を出力する出力手段と
を備えることを特徴とする事例分類装置。
事例を第１のカテゴリ体系のカテゴリに分類するための第１の分類ルールと、事例を第２のカテゴリ体系のカテゴリに分類するための第２の分類ルールを格納する格納手段と、
未知事例を入力する入力手段と、
前記未知事例から特徴を抽出する特徴抽出手段と、
前記未知事例から抽出された特徴および前記第１の分類ルールを用いて、前記未知事例が前記第１のカテゴリ体系の各カテゴリに属する確信度を判定し、該確信度の情報を該未知事例から抽出された特徴に付加する判定結果付与手段と、
前記確信度の情報が付加された前記未知事例の特徴を用いて、前記第２の分類ルールにより前記未知事例を前記第２のカテゴリ体系のカテゴリに分類する分野判定手段と、
前記未知事例の分類結果を出力する出力手段と
を備えることを特徴とする事例分類装置。
コンピュータのためのプログラムを記録した記録媒体であって、該プログラムは、
未知事例から特徴を抽出し、
格納部に格納された相関辞書であって、第１のカテゴリ体系の各カテゴリに分類された事例集合から抽出された各特徴と該第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を登録した該相関辞書を参照して、前記未知事例から抽出された特徴と該第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、
取得した情報を前記未知事例から抽出された特徴に付加し、
前記格納部に格納された分類ルールであって、事例を第２のカテゴリ体系のカテゴリに分類するための該分類ルールにより、前記関連の強さを表す情報が付加された前記未知事例の特徴を用いて、前記未知事例を該第２のカテゴリ体系のカテゴリに分類する
処理を前記コンピュータに実行させることを特徴とするコンピュータ読み取り可能な記録媒体。
前記プログラムは、前記事例集合から特徴を抽出し、前記事例集合から抽出された特徴と前記第１のカテゴリ体系の各カテゴリとの関連の強さを計算して、前記相関辞書を生成する処理を前記コンピュータにさらに実行させることを特徴とする請求項８記載の記録媒体。
前記プログラムは、前記第２のカテゴリ体系に対する正解事例から特徴を抽出し、前記相関辞書を参照して、前記正解事例から抽出された特徴と前記第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、取得した情報を該正解事例から抽出された特徴に付加し、前記関連の強さを表す情報が付加された前記正解事例の特徴を用いて、前記分類ルールを生成する処理を前記コンピュータにさらに実行させることを特徴とする請求項８記載の記録媒体。
前記コンピュータは、文書を事例として入力し、入力された未知文書を前記第２のカテゴリ体系のカテゴリに分類することを特徴とする請求項８記載の記録媒体。
前記コンピュータは、画像を事例として入力し、入力された未知画像を前記第２のカテゴリ体系のカテゴリに分類することを特徴とする請求項８記載の記録媒体。
コンピュータのためのプログラムを記録した記録媒体であって、該プログラムは、
未知事例から特徴を抽出し、
格納部に格納された第１の分類ルールであって、事例を第１のカテゴリ体系のカテゴリに分類するための該第１の分類ルールと、前記未知事例から抽出された特徴を用いて、前記未知事例が該第１のカテゴリ体系の各カテゴリに属する確信度を判定し、
前記確信度の情報を前記未知事例から抽出された特徴に付加し、
前記格納部に格納された第２の分類ルールであって、事例を第２のカテゴリ体系のカテゴリに分類するための該第２の分類ルールにより、前記確信度の情報が付加された前記未知事例の特徴を用いて、前記未知事例を該第２のカテゴリ体系のカテゴリに分類する
処理を前記コンピュータに実行させることを特徴とするコンピュータ読み取り可能な記録媒体。
前記プログラムは、前記第２のカテゴリ体系に対する正解事例から特徴を抽出し、前記正解事例から抽出された特徴および前記第１の分類ルールを用いて、前記正解事例が前記第１のカテゴリ体系の各カテゴリに属する確信度を判定し、該確信度の情報を該正解事例から抽出された特徴に付加し、前記確信度の情報が付加された前記正解事例の特徴を用いて、前記第２の分類ルールを生成する処理を前記コンピュータにさらに実行させることを特徴とする請求項１３記載の記録媒体。
前記コンピュータは、文書を事例として入力し、入力された未知文書を前記第２のカテゴリ体系のカテゴリに分類することを特徴とする請求項１３記載の記録媒体。
前記コンピュータは、画像を事例として入力し、入力された未知画像を前記第２のカテゴリ体系のカテゴリに分類することを特徴とする請求項１３記載の記録媒体。
未知事例から特徴を抽出し、
格納部に格納された相関辞書であって、第１のカテゴリ体系の各カテゴリに分類された事例集合から抽出された各特徴と該第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を登録した該相関辞書を参照して、前記未知事例から抽出された特徴と該第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、
取得した情報を前記未知事例から抽出された特徴に付加し、
前記格納部に格納された分類ルールであって、事例を第２のカテゴリ体系のカテゴリに分類するための該分類ルールにより、前記関連の強さを表す情報が付加された前記未知事例の特徴を用いて、前記未知事例を該第２のカテゴリ体系のカテゴリに分類する
処理をコンピュータに実行させることを特徴とするプログラム。
未知事例から特徴を抽出し、
格納部に格納された第１の分類ルールであって、事例を第１のカテゴリ体系のカテゴリに分類するための該第１の分類ルールと、前記未知事例から抽出された特徴を用いて、前記未知事例が該第１のカテゴリ体系の各カテゴリに属する確信度を判定し、
前記確信度の情報を前記未知事例から抽出された特徴に付加し、
前記格納部に格納された第２の分類ルールであって、事例を第２のカテゴリ体系のカテゴリに分類するための該第２の分類ルールにより、前記確信度の情報が付加された前記未知事例の特徴を用いて、前記未知事例を該第２のカテゴリ体系のカテゴリに分類する
処理をコンピュータに実行させることを特徴とするプログラム。
コンピュータにプログラムを搬送する搬送信号であって、該プログラムは、
未知事例から特徴を抽出し、
格納部に格納された相関辞書であって、第１のカテゴリ体系の各カテゴリに分類された事例集合から抽出された各特徴と該第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を登録した該相関辞書を参照して、前記未知事例から抽出された特徴と該第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、
取得した情報を前記未知事例から抽出された特徴に付加し、
前記格納部に格納された分類ルールであって、事例を第２のカテゴリ体系のカテゴリに分類するための該分類ルールにより、前記関連の強さを表す情報が付加された前記未知事例の特徴を用いて、前記未知事例を該第２のカテゴリ体系のカテゴリに分類する
処理を前記コンピュータに実行させることを特徴とする搬送信号。
コンピュータにプログラムを搬送する搬送信号であって、該プログラムは、
未知事例から特徴を抽出し、
格納部に格納された第１の分類ルールであって、事例を第１のカテゴリ体系のカテゴリに分類するための該第１の分類ルールと、前記未知事例から抽出された特徴を用いて、前記未知事例が該第１のカテゴリ体系の各カテゴリに属する確信度を判定し、
前記確信度の情報を前記未知事例から抽出された特徴に付加し、
前記格納部に格納された第２の分類ルールであって、事例を第２のカテゴリ体系のカテゴリに分類するための該第２の分類ルールにより、前記確信度の情報が付加された前記未知事例の特徴を用いて、前記未知事例を該第２のカテゴリ体系のカテゴリに分類する
処理を前記コンピュータに実行させることを特徴とする搬送信号。
特徴抽出部が、未知事例から特徴を抽出し、
相関付与部が、格納部に格納された相関辞書であって、第１のカテゴリ体系の各カテゴリに分類された事例集合から抽出された各特徴と該第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を登録した該相関辞書を参照して、前記未知事例から抽出された特徴と該第１のカテゴリ体系の各カテゴリとの関連の強さを表す情報を取得し、取得した情報を該未知事例から抽出された特徴に付加し、
分野判定器が、前記格納部に格納された分類ルールであって、事例を第２のカテゴリ体系のカテゴリに分類するための該分類ルールにより、前記関連の強さを表す情報が付加された前記未知事例の特徴を用いて、前記未知事例を該第２のカテゴリ体系のカテゴリに分類する
ことを特徴とする事例分類方法。
特徴抽出部が、未知事例から特徴を抽出し、
判定結果付与部が、格納部に格納された第１の分類ルールであって、事例を第１のカテゴリ体系のカテゴリに分類するための該第１の分類ルールと、前記未知事例から抽出された特徴を用いて、前記未知事例が該第１のカテゴリ体系の各カテゴリに属する確信度を判定し、該確信度の情報を該未知事例から抽出された特徴に付加し、
分野判定器が、前記格納部に格納された第２の分類ルールであって、事例を第２のカテゴリ体系のカテゴリに分類するための該第２の分類ルールにより、前記確信度の情報が付加された前記未知事例の特徴を用いて、前記未知事例を該第２のカテゴリ体系のカテゴリに分類する
ことを特徴とする事例分類方法。